Почему так сложно сделать хорошую математическую модель COVID-19?

COVID19 Editor Обновлено от COVID19 Editor

В это сложное время пандемии нам всем нужны ответы. Тысячи ученых, исследовательских центров и активистов по всему миру собирают данные и проводят исследования по теме «коронавирус» (COVID-19). Кажется, что уже должны существовать точные ответы. Эти ответы основаны на данных, но проблема в том, что данные повсюду и часто один источник противоречит другому.

Например, Центры по контролю и профилактике заболеваний в США спрогнозировали сценарий, при котором в лучшем случае умрут только около 200 000 американцев (отчет The New York Times). Одновременно с этим в отчете Имперского колледжа Лондона представлены результаты собственной модели с предсказанием около 2,2 миллионов смертей в США от коронавируса, при условии, что никто не изменит свое повседневное поведение.

Мы наблюдаем большой разброс в оценках — разница между числом людей, ежегодно умирающих от травм и насилия, и количеством убитых при исторических конфликтах. Другими словами, разница между числом, с которым мы обычно живем, и числом, которое навсегда меняет мир.

Почему этот разрыв так велик? Использование математической модели для прогнозирования будущего ценно для экспертов, даже если между возможными последствиями существует огромная пропасть. Но не всегда легко разобраться в результатах и в том, как они меняются с течением времени, и эта путаница может навредить. Поэтому важно описать, от каких факторов будет зависеть моделирование пандемии. Понимание неопределенности поможет нам извлечь максимум пользы из всех входящих данных.

Итак, представим простую математическую модель для предсказания исхода коронавируса. Например, количество людей, которые умрут, зависит от того, сколько людей может заразиться, как вирус распространяется и сколько людей он способен убить.

N (dead) = N (susceptible population) * infection rate * fatality rate

Далее приходит понимание, что каждая переменная зависит от количества вариантов и пробелов в знаниях. Модель будет иметь столько же проблем, сколько неизвестных она содержит. 

Базовые проблемы с данными:

  1. Сбор и ввод данных. Разные страны, регионы и сами специалисты собирают данные по-разному. Не существует единой электронной таблицы, которую каждый заполняет и которая легко позволила бы нам сравнить случаи и смерти по всему миру. Даже в пределах Соединенных Штатов врачи говорят, что общее количество смертей, вызванных COVID-19, занижается.
  2. То же несоответствие применимо к населению, которое проходит тестирование. Некоторые страны проводят тесты для тех, кто хочет их пройти. Другие нет, так как ограничены количеством тестов для диагностики. Это влияет на данные и наше знание о том, сколько людей на самом деле заразились COVID-19, в сравнении с тем, сколько людей прошли тест и получили положительный результат. 
  3. Непредсказуемость инфекции. Некоторые группы населения больше уязвимы перед вирусом, чем другие. Проблема в том, что вычисление уровня смертности от вируса не четко с самого начала. Оно может сильно варьироваться от когорты к когорте. Рэй Ванньер (Rae Wannier), специалист по биостатистике из Калифорнийского университета, Сан-Франциско, считает важным учитывать возраст, который является огромным фактором — корректировать уровень смертности в случае заболевания для демографического состава страны, а также учитывать уровень сопутствующих заболеваний (коморбидность — это другие основные заболевания и условия, которые могут усугубить воздействие COVID-19). 

Другими словами, нет единого «коэффициента смертности» — их много. Например, коэффициент смертности в США будет отличаться от коэффициента смертности в стране, где, скажем, диабет менее распространен. То же самое можно сказать и о показателях внутри США — если вирус распространится в районе метро с большим количеством пожилых людей, уровень смертности, рассчитанный там, будет выше, чем если бы эпицентр находился в городе, где в основном живет молодежь.

Возможно ли сейчас сделать точный прогноз об уровне смертности от COVID-19 в Китае или Италии? Полной уверенности в ответе, каков будет реальный уровень смертности в этих местах, нет. Этому есть ряд причин, начиная со сбора основных данных о случаях коронавируса. Цифры — это не факты. Они являются результатом множества субъективных решений, которые должны быть прозрачно и подробно задокументированы, прежде чем вы начнете рассматривать выходные данные как факт. Важно, как собираются данные, и собираются ли они каждый раз одним и тем же способом.

Существует также проблема несобранных или неточных данных. Чтобы определить уровень смертности, необходимо разделить число людей, умерших от этой болезни, на число инфицированных этой болезнью людей. В этом случае у нас нет достоверных данных о количестве инфицированных, поэтому, говоря математически, мы не знаем знаменателя.

В идеальном мире мы бы проверили всех в популяции на признаки заражения новым коронавирусом, чтобы мы могли наверняка знать, сколько людей когда-либо болели и сколько из них умерло от этого заболевания. Однако мы знаем пару случаев, в которых это было возможно. Например, Diamond Princess — один из круизных кораблей, который попал в карантин после вспышки COVID-19. Почти все на борту были протестированы (3063 образца от 3711 человек). Круизный корабль стал живой лабораторией с такими условиями документирования данных, которые мы обычно не получаем в реальном мире. Исследователи смогли запечатлеть не только количество людей, страдающих этой болезнью, но и количество совершенно бессимптомных, которые в реальной жизни остались бы скорее всего непроверенными, недиагностированными и неучтенными. 

Результаты позволяют нам предположить, что многие люди, которые ходят с COVID-19, не знают об этом, и, следовательно, уровень смертности ниже, чем предполагалось по другим данным. В популяции Diamond Princess смертность среди людей с диагнозом и симптомами составила 2,3%, но смертность по всем диагностированным случаям, включая бессимптомных, составила 1,2%. В Исландии компания под названием deCODE Genetics 13 марта начала предлагать бесплатные скрининги для общей бессимптомной популяции. По состоянию на 29 марта компания deCODE выявила 71 инфицированного человека в выборке из 8 694 тестов, включая бессимптомные инфекции.

Тем временем, этот уровень симптоматики — сколько людей имеет симптомы в сравнении с бессимптомными — является большой проблемой, и мы в основном только догадываемся об этом прямо сейчас. В докладе Имперского колледжа Лондона предполагается, что 2/3 случаев будут достаточно симптоматичны, чтобы инфицированный человек заметил и самоизолировался. Данные, полученные на круизном корабле Diamond Princess, обнаружили, что половина случаев были симптоматическими на момент постановки диагноза. То, каким на самом деле окажется коэффициент симптоматики, изменит расчеты коэффициента летальности.

Данные Diamond Princess несовершенны — демографические данные круизных кораблей не являются репрезентативными для более широкого населения, и некоторые больные пассажиры все еще могут умереть, что увеличит коэффициент смертельных случаев. Но вы не найдете более надежных статистических данных на суше. Данные Исландии не были опубликованы с достаточным уровнем методологической детализации. 

В США такое широкомасштабное тестирование населения только начинается. Если мы в первую очередь тестируем больных людей, как это делают некоторые штаты, уровень смертности не будет отражать реальный уровень смертности от вируса. Тестирование в США затруднено дополнительными проблемами: общее отсутствие доступных тестов и тот факт, что некоторые частные лаборатории не предоставляют данные о количестве тестов, которые оказались отрицательными.

Истинная смертность от этого заболевания также зависит от способности предотвратить смерть после тяжелого заболевания. Это зависит от вместимости больниц. Если учитывать, что доступ к местам в отделении интенсивной терапии и системам ИВЛ не ограничен, многие люди с даже тяжелыми симптомами могут пережить инфекцию. Но обычно эти ресурсы ограничены, и если спрос превысит предложение — как это уже происходит в разных частях мира — люди, которые выжили бы при наличии аппарата искусственной вентиляции легких, скорее всего, умрут. Это может иметь побочные эффекты. Люди, обращающиеся за лечением в связи с несчастными случаями или чрезвычайными ситуациями, не связанными с COVID-19, также могут страдать от нехватки больничных ресурсов, и их потенциально предотвратимая смертность, по причинам, не связанным с COVID-19, будет увеличивать общее число смертельных случаев, даже если они не будут учитываться как смертельные случаи COVID-19.

Практически все, что мы уже говорили о количестве смертельных случаев, относится и к уровню заражения. Все оценки будут зависеть от сбора данных, выборки и соотношения симптомов. Но чтобы знать уровень заражения, необходимо также выяснить, как часто вирус перемещается от одного человека к другому. Для этого можно ввести термин «основное число размножения», или R0, который представляет собой среднее число новых случаев инфицирования, отслеживаемое для каждого инфицированного человека в популяции, где каждый человек подвержен этому заболеванию.

Распространение вируса, скорее всего, будет чрезвычайно изменчивым, зависящим от всех видов социального поведения, местных экологических особенностей и политических решений. Оно не будет одинаковым в разных странах. Со временем ситуация будет меняться в зависимости от того, какие действия мы предпримем для борьбы с вирусом.

Поэтому моделирование потенциальных результатов распространения коронавируса означает опробование множества различных сценариев его передачи. Но даже эти сценарии не точны — они больше похожи на ряд оценок. Есть несколько переменных, которые входят в эти оценки, и каждая из них сама по себе является переменной. 

Первая переменная — это скорость контакта, то есть сколько людей провзаимодействует с инфицированным человеком за определенный период времени. Это единственное, что люди могут контролировать, и именно поэтому все проводят все это время в помещении, разговаривая о социальном дистанцировании. 

Средняя скорость контакта не равномерна — она отличается от человека к человеку в зависимости от таких факторов, как его жизненная ситуация и работа, и она меняется в в зависимости от примененных мер по сдерживанию распространения инфекции и доступа к качественным медицинским услугам.

Затем следует скорость передачи инфекции при каждом контакте — показатель о количестве людей, которые могут заразиться, встретившись с инфицированным человеком. Вирусы не распространяются упорядоченно. Профессор Северо-Восточного университета Сэм Скарпино, который моделирует инфекционные заболевания, описал их как «события супер-распространения» —  ситуации, когда какой-то фактор, обычно связанный с местом, а не с самими людьми, увеличивает количество случаев во внезапном всплеске. Например, конференция Biogen, во время которой произошло заражение коронавирусом, а именно 77 из 95 случаев, диагностированных в Массачусетсе. Или женщина, которая в одиночку нарушила ранее эффективную стратегию сдерживания Южной Кореи.

Здесь важно учитывать уровень симптоматики. Некоторые предполагают, что бессимптомные носители менее заразны, чем люди с симптомами, так что это соотношение играет роль и в скорости передачи.

Вирусная биология также имеет значение, когда вы пытаетесь вычислить скорость передачи при контактировании. Это включает в себя такие показатели, как сколько времени вирус может прожить на поверхности (и на какие поверхности он приземляется), и как далеко он может пролететь по воздуху. С новым коронавирусом в настоящее время существуют конкурирующие оценки по обоим этим факторам. А также есть различия в человеческих телах и поведении. Например, курильщики могут быть в большей степени подвержены риску заражения и осложнений от вируса. И хотя многое из этого связано с влиянием курения на легкие, некоторые из них, скорее всего, связаны с тем, что нынешние курильщики чаще, чем обычный человек, прикладывают руки ко рту, что увеличивает риск передачи инфекции.

Наконец, есть длительность контагиозности, то есть то, как долго человек может распространять вирус среди других людей, и до какого момента прогрессирования болезни он заразен? Это варьируется в зависимости от биологии вируса и индивидуальных иммунных систем, считает Марк Вейр (Mark Weir), директор программы по экологии, эпидемиологии и здоровью населения Университета штата Огайо.

Все эти параметры используются для оценки R0 — базового числа размножения вируса.

Основная численность воспроизводства предполагает, что восприимчива вся популяция. И одна из причин, по которой столь большая часть населения считается восприимчивой, заключается в том, что COVID-19 является новым для человека. 

Хорошая модель должна думать и о вопросах реинфекции: если у людей, у которых был вирус и которые выздоровели, вырабатывается иммунитет к повторному заражению, то восприимчивая популяция уменьшается. Но пока мы мало знаем о постинфекционном иммунитете с этим вирусом. Пока этот вопрос не касается того, как изменится восприимчивость, если будет обнаружено что-то вроде вакцины. 

Чтобы сделать модель, нужно собрать все эти переменные, учесть их неопределенность и то, как они соотносятся друг с другом.

На все эти факторы может повлиять вмешательство, те меры, которые пытаются внедрить для уменьшения распространение вируса: социальное дистанцирование, мытье рук, закрытие школ, сокращение плановых операций, отмена и запрет мероприятий и тому подобное. Эти меры не уменьшают неизвестность, но могут кардинально изменить форму вспышки, и в то же время ее характер отличается в зависимости от страны, области, города.

В течение следующих нескольких месяцев мы увидим много различных предсказаний о результатах COVID-19. Все они будут не согласованы между собой. Но то, что они основаны на предположениях, не значит, что они ничего не стоят.

По мнению Вейра (Mark Weir), все модели ошибочны, но стремление их построить — дает возможность сделать их менее ошибочными и более полезными в данный момент. 

Источник: материал перевед и подготовлен на основе статьи FiveThirtyEight

Как Вам эта статья?

Где найти базы данных о коронавирусе COVID-19?

Задать вопрос