Размисли за „короната”

Йордан Цветков Последна промяна на 22 април 2020 в 12:56 10456 3

Едно от последствията на пандемията е засиления интерес на хората към данните. Много от тях сутрин стават и вечер си лягат с числата и статистиката. От една страна желанието на хората да бъдат добре информирани е полезно, но от друга прекаленото вторачване в данните може да предизвика засилена тревожност и дори обсесия. Най-добре е да се търси златната среда, която ще ни позволи да бъдем информирани, но същевременно да запазим хладнокръвие. В условията на карантина има и хора, които са изкушени да правят опити за собствени проучвания и анализи на данните. Други просто се опитват да цитират числа в подкрепа на някаква теза, но дори и за това са необходими определени познания. В противен случай рискуваме да изпаднем в положението на някои публични личности, като напр. Слави Трифонов, който „безпристрастно” се опитва да запознае обществеността с числата (неправилно наричайки ги „цифри”) за епидемията у нас, като изтъква, че установените 611 „вирусоносители” са само 0.00872852 % от населението, а по закон епидемия се обявявало едва когато се заразени 200 души на 10 хил. от населението [1]. Числата в случая са верни, но тезата не е! Защото критерият от 200 на 10 хил. се отнася за сезонния грип (инфлуенцата), който е много по-добре проучен, и с който имунната система на хората е много по-добре запозната. Това обаче, не се отнася за други вируси, както и за новопоявили се, които още са непознати и по-опасни. Иначе по тази логика, ако у нас се появи ебола (при която смъртността е между 50 и 90 %) трябва да чакаме да се заразят 200 на 10 хил. души, за да се обяви епидемия. Няма ли да е малко късно тогава?

Това, което трябва да се знае относно данните, които се обявяват в момента е, че това са предварителни данни, които тепърва ще бъдат проверявани, обработвани и анализирани. Тези данни не са окончателни и е напълно възможно в бъдеще да бъдат коригирани по различни причини. Причините за това могат да бъдат свързани, както с различия в методите на събиране и отчитане на данните, така и във възможни грешки. Последните могат на бъдат както неволни, така и умишлени свързани с целенасочено прикриване на информация от определени държави. Някои от факторите, които обуславят различия в данните между държавите вече са добре известни. Те могат да бъдат свързани с различията в мащаба и методите на тестването, в различия в отчитането на причината за смъртните случаи и пр. Всичко това прави доста несигурни сравненията между държавите по света и подобни сравнения на този етап следва да се правят предпазливо. Много по-подробни и достоверни ще бъдат данните на един по-късен етап, когато ще са налични и много повече епидемиологични и други показатели. С времето е възможно редица числа и показатели да бъдат коригирани, като надолу, така и нагоре. Това може да доведе и до различия в анализите и изводите от тях в сравнение с тези, които се правят в момента в разгара на пандемията. В това отношение трябва да се прояви не само предпазливост, особено когато се правят изводи, но и търпение.

За илюстрация на горното, ще посочим някои примери касаещи данните за Китай, които за момента са най-спорни. Едно проучване установява, че макар до 22 януари в Ухан да е докладван само един педиатричен случай на дете с COVID-19, то случаите са били повече, като в три болници в Ухан до 15 януари са установени още 6 случая [2]. На тази основа друго проучване изчислява, че вероятно е имало стотици такива случаи [3], но това все още не може да се смята за доказано.

Една скорошна публикация в The Economist [4] се опитва да проследи връзката между значими промени в докладваните данни и определени политически събития в Китай и установява някои твърде странни съвпадения. Това е показано на долната графика.

По време на пика на смъртните случаи в Италия много хора трескаво започнаха да търсят данни за смъртността в Италия и да изчисляват, колко хора средно дневно са умирали в Италия преди епидемията и по време на епидемията. По същия начин сравнението на смъртността от епидемията спрямо цялото население на една голяма държава като Италия неминуемо ще води до едно размиване на резултата. Подобен подход е типично любителски. Всъщност подобни сравнения следва да се правят по региони, провинции и дори по градове, защото епидемията не е обхванала равномерно цялата територия на Италия и съответно повишението на смъртността се генерира само от определени райони — тези които са най-силно засегнати от епидемията. За да бъдат проверени и обявени данните се изисква известно време и поради това статистическите служби обикновено обявяват тези данни с известно закъснение, но поради големия обществен интерес това може да бъде направено и по-бързо [5]. Първите публикации, които обобщават данните за смъртността в Бергамо [6] и Италия [7] показват значително повишение на смъртността в най-засегнатите райони от епидемията. Графиката долу показва каква е смъртността по месеци за периода 2011–2020 г. сред жителите на град Бергамо, а по-долу, каква е смъртността сред жителите и не жителите на града, при това данните за месец март са непълни и включват случаите до 26 март.

Следва да се има предвид, че съществува и възможност действителните данни за смъртността от епидемията да са дори по-високи за някои райони на Италия и Испания, на което обърна внимание и The Economist в една публикация [8]. На графиката долу е показано сравнение за смъртността в някои от тези райони и каква част от нея е обявена като смъртност свързана с вируса.

За онези, които желаят да бъдат информирани, но нямат време да четат специализирани публикации с обобщения и анализ на данните, можем да дадем някои прости съвети към кои данни да насочат вниманието си без да се изгубят в морето от данни и тяхната несигурност. На първо място как се развива епидемията може да се разбере от новите случаи, които се регистрират ежедневно. Не бива да се забравя, обаче, че броят на заразените е свързан с тестването и по-малка или по-голяма част от тях остават скрити (вкл. и защото част от заразените са асимптоматични и нямат симптоми, следователно не търсят лекарска помощ). Независимо от това трайният спад на регистрираните нови случаи би следвало да е индикатор за това, че епидемията започва да се овладява в конкретната държава или регион. Друг показател са смъртните случаи. Смъртността в различните държави може да варира и да зависи от много фактори, но ако при броя на заразените част от тях остават скрити, то смъртите случаи са по-явни и могат да индикират поне приблизително каква част заразените остават скрити. На този етап се приема, че смъртността от вируса е в порядъка на около 1 % от всички заразени, вкл. асимптоматичните. Така макар и доста условно може да приеме, че при наличие на повече смъртни случаи на фона на по-малък брой регистрирани заразени, по-голяма част от тях остават скрити и може да се очаква техният брой да расте. Но това са само някои най-общи закономерности, които не може да считат за абсолютно универсални, поради това трябва да се внимава когато се правят категорични изводи.

За онези, които все пак са изкушени от статистиката и биха желали да се потопят в морето от данни също може да предложим някои съвети. На първо място е важно да бъде придобита някаква начална подготовка, както теоретична, така и практическа. В това отношение е препоръчително запознаване с подходяща литература свързана с обработка, визуализация и анализ на данни. Съществуват множество такива източници. Подходящи също така са онлайн курсовете (т.нар. MOOC — massive open online course), ползата от които е съчетанието на теория с демонстрация на практически умения. Такива има и предназначени за журналисти в едно ново направление на съвременната журналистика — журналистиката чрез данни (data journalism). В крайна сметка не е препоръчително някой да се хвърля в най-дълбокото без да се е научил да плува. След като сме придобили поне начални познания в тази сфера вече можем да направим и първи самостоятелни опити за визуализация и анализ на данни. По-долу ще дадем два примера за това, които могат да служат като една демонстрация с уговорката, че това не са примери за задълбочен анализ на данни.

Първият пример е свързан е един въпрос на икономиста Макс Розер, който попита в Twitter: „какви данни гледате, за да видите дали държавите реагират добре” на пандемията [9]. Тъй като един от критериите за това е тестването на графиката долу са показани подбрани държави по два показателя — брой направени тестове на един милион души от населението (по вертикала) и процент на положителните тестове (т.е. броя на заразените) спрямо общия брой на тестовете (по хоризонтала).

Независимо, че данните са от 5 април, т.е. от преди една седмица, тук използваме тази фигура само за демонстрация. Изкушените от статистиката биха могли да направят своя графика с по-нови данни и повече държави. Преди да се започне анализ на данните обаче, първо трябва да си отговорим на някои въпроси свързани със самите данни. Актуални ли са данните от източника, които ползваме, т.е. дали данните за различните държави се обновяват редовно. Сравними ли са данните? Дали са използвани сравними методи за тестване? Включват ли се в тези данни повтарящи се регулярно тестове, напр. тестове на служебни лица (лекари, медицински персонал, полицаи и пр.). Ако не знаем отговорите на тези въпроси или отговорите са негативни, то на основата на тези данни не би следвало да се правят твърде детайли анализи и да се правят категорични заключения. Много по-подходящо би било данните да бъдат визуализирани и да се направи само едно обобщаващо описание, които ще бъде по-пестеливо, но и по-коректно. Така напр. държавите, които се намират в горната половина на графиката, и които са постигнали тестване между 10 и 20 хил. теста на милион души може да се каже, че са държави с проактивна политика по отношение на епидемията. Тези в горната и лява част на графиката, които отчитат и по-малък процент на положителни тестове (около и под 5 %) може да се предположи, че са овладели или предстои да овладеят епидемията. Обратно държавите в долната и дясна част на графиката тестват по-малко, техните проактивни действия са недостатъчно, а същевременно отчитат голям дял положителни резултати. В тези държави (в случая Испания и Франция) вероятно епидемията е много активна и би могло да се очаква, че ситуацията в краткосрочен план ще се влошава. Ако направим сравнение с данните към днешна дата можем да установим до колко една подобна графика е информативна и полезна.

Вторият пример илюстрира казаното по-горе за новите регистрирани случаи като индикатор за тенденцията към която се развива епидемията. Тъй като по различни причини може да съществуват значителни различия в стойностите от ден на ден и това вариране да затруднява определянето на тенденцията съществува проста техника, която може да се приложи в такъв случай. За илюстрация тук са ползвани данните за България. На графиката по-долу ежедневните нови случаи са в синьо. Червената линия показва, т.нар. 5 дневна плъзгаща се средна. При нея всеки ден е изчислен като средна стойност от деня плюс предходните четири дни. Това е техника, която се използва за установяване на тенденция (тренд) в данни, които варират и може да се състави лесно за всяка държава, като интервалът може да бъде различен напр. 3, 5, 7 дни.

Накрая следва да споменем две важни неща. На първо място един по-задълбочен анализ винаги изисква използването на колкото се може повече данни и показатели. На второ място освен числовите данни следва да се познава и ползва, и друга информация, която може да има важно значение за анализа, като напр. какво е състоянието на здравните системи в различните държави и дори какви са културните особености в тези държави. Второто е много добре казано в книгата „Фактологичност” (Factfulness) на покойния проф. Ханс Рослинг, който пише, че: „Светът не може да бъде разбран без числа. Но не може да бъде разбран и само с числа”.

Още размисли за „короната” 

Вероятно някои вече са виждали картата по-долу, която беше публикувана от Фронтекс, за различните видове рестрикции, които са въведени от държавите в ЕС с цел ограничаване на пандемията на Covid-19 [1].

Карта на Фронтекс към 24 март 2020

Карта на Фронтекс към днешна дата

Друга карта е публикувана от Европейската комисия в доклада „Европейска пътна карта за премахване на противоепидемичните мерки свързани с коронавируса” [2]. На нея също са илюстрирани комплекса от ограничители мерки по държави и тя е показа по-долу.

Карта на ЕК за 13 април 2020

Но освен въвеждане на рестрикции, важно е да се разбере и до колко те са повлияли върху поведението на хората и тяхната мобилност. Към момента такива публични данни има все още малко и сред тях са данните публикувани от Google за времето до 11 април 2020 [3]. При тях се отчита как се е променила мобилността на хората спрямо шест различни категории обекти. Запознаването с тези данни, обаче е времеемко защото те са представени като доклади по държави и не са придружени с обобщаваща информация, която да е бързо и лесно обозрима. За това част от тези данни, най-вече за Европа, бяха нанесени на серия карти, които са представени по-долу.

Промени в мобилността спрямо хранителни магазини, пазари и аптеки

Промени в мобилността спрямо паркове, градинки, публични плажове

Промени в мобилността спрямо основни центрове на публичния транспорт

Промени в мобилността спрямо търговски обекти, ресторанти, кафенета, молове, музеи, библиотеки, кина

 Промени в мобилността спрямо жилищата

Промени в мобилността спрямо местата за работа

Въпреки, че от Google предупреждават, че тези данни варират значително по отношение на точността и не препоръчват да се използват за сравнение може да се направят някои обобщения, които са видими от тези карти.

Една група държави, в които има най-драстичен спад на мобилността са предимно в южните части на континента — Италия, Испания, Франция, Турция и Северна Македония. Другата група, в която е видим най-малък спад в мобилността са в северната част — Швеция, Финландия, Дания, Норвегия (с изключение на посещенията на паркове), а към тях могат да бъдат включени и Германия, Нидерландия, Швейцария, Чехия и Беларус. Останалите държави заемат междинно положение, но една част от тях изглежда са по-близо до първата група (напр. Великобритания, Ирландия, Белгия, Люксембург, Португалия, Австрия, Полша, Литва).

България също попада в групата на държавите в междинно положение, но ако при посещението на паркове има значим спад, то при останалите показатели изненадващо се доближава най-много до скандинавските държави.

***

Статиите "Размисли за „короната” (част 2)" и  "Размисли за „короната” (част 3)" са публикувани за първи път в Medium и са любезно предоставени на НаукаOFFNews от автора им Йордан Цветков - учен от БАН, Институт за космически изследвания и технологии, специалист по географски информационни системи

Най-важното
Всички новини
За писането на коментар е необходима регистрация.
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!

3005

3

YKoshev

25.04 2020 в 09:11

Авторът правилно обръща внимание на масовото неумение и незнание да се разчитат, да се борави с първични данни, графики, проценти, промили и др.
Много добър анализ/ срез на неясната ситуация в момента, в частност и в България. 
Това което липсва като информация в България (но авторът няма вина за това) е точна статитистика на броя тестове и тяхното насочване. Защото пробовземането е съвсем целенасочено, а не случайно.
Изследват се таргет групи в които се очаква да има нарастване на броя на заразените. Към днешна дата (25.04.2020), такива са ромските гета в София, работниците в Завод Мизия - Плевен и т.н. 
Естествено, като резултат към днешна дата се наблюдава ръст на положителните проби. 
Проблемът при анализа на данните за България е пълната неинформираност, разминаване на данните, липса на старетегия и екип, който да анализира резултатите от подобен род изследвания.
Поздравления за точната и добре написана статия.

23293

2

Стефан

23.04 2020 в 01:58

Не разбирам нищо от биология, аз съм тъп кашик.
Каквото разбирам от биологическа война:
Вие - лабораторните лекари, имате озон за дезинфекция. Но това е тежка отрова, и иска специални ФВУ за използването му.
Или ултравиолет.
Чух, че диод, който може да обеззарази къщичката на папагалчето за цял ден, струва 300 евро на ибей.
Също така, съществували и лампи, като луминисцентните, които можели същото.
Но тука има дребен проблем. Иван костов и компания, сладострастно унищожиха заводът светлина в Сливен.

23293

1

Стефан

23.04 2020 в 01:47

Не разбрах. Данните - данни, а изводите къде са?

Тая гадост има двойно усукана ДНК. Това е по-устойчива архитектура от единичната, и от РНК-та, и в двата варианта.
Убиването и е очевидно. А дали поразеният организъм ще бъде излекуван, или убит?