O pravděpodobnostních rozděleních, riziku, predikcích a epidemickém modelování
Hlubokým kořenem nedorozumění a špatných rozhodnutí v pandemii často není nějaká neznalost nebo nepochopení týkající se covidu, ale obecné problémy v uvažování o riziku a pravděpodobnosti
(meta:
delší text: ~ 4 strany
pro někoho samozřejmosti, ale i naopak: pokud neznáte, jedna z nejpraktičtějších věcí které se obecně hodí rozumět, i mimo epidemii)
Na konci minulého roku se mi několikrát připomnělo téma, o kterém jsem psal ve vůbec prvním covid postu na facebooku: hlubokým kořenem nedorozumění a špatných rozhodnutí v pandemii často není nějaká neznalost nebo nepochopení týkající se covidu, ale obecné problémy v uvažování o riziku, a neschopnost uvažovat o pravděpodobnostních rozděleních explicitně.
Implicitně, nevědomky, naše mozky používají pravděpodobnosti neustále, vždy a všude. Aniž bychom nad tím nějak víc uvažovali, úlohy s optimalizací pravděpodobností a rizika přitom řešíme většinou dobře.
Příklad: teď jsem na horách, v domě, ke kterému vede kus strmé cesty, začínající zatáčkou. Zasněžená cesta se dá autem bez sněhových řetězů vyjet jen pokud to pod kopcem vhodně “rozjedete”. Na druhou stranu, v příliš velké rychlosti hrozí smyk v zatáčce na začátku kopce, který by končil srážkou s vraty u sousedů, nebo se zaparkovaným autem.
Explicitně, slovy, tenhle problém můžeme popsat jako tři scénáře
Jedu pomalu, kopec nevyjedu, zaparkuji pod kopcem.
Jedu dostatečně rychle, kopec vyjedu, zaparkuju před domem.
Jedu příliš rychle, vletím sousedovi do vrat a zaparkuju u souseda na zahradě.
Různé scénáře mají různé velikost škod. Škodou scénáře 2. je, že budu parkovat pod kopcem, a tašky z auta muset odnést pěšky, což je trocha nepohodlí. Škoda scénáře 3. je o mnoho řádů větší - pravděpodobně rozbitého něco na autě, rozbitá vrata a naštvaný soused.
Se stejným řidičem, vozem atd. bude hlavní parametr, který určuje výsledek, rychlost před zatáčkou. Přitom ale ani když rychlost znám, nedokážu odhadnout jistě, jak to dopadne. Vlastní nejistotu před zatáčkou bych mohl popsat pomocí pravděpodobností třeba takhle:
Rychlost 15km/h
Scénář 1. 80%
Scénář 2. 19,99%
Scénář 3. 0,01%
Rychlost 45km/h
Scénář 1. 20%
Scénář 2. 79,95%
Scénář 3. 0,05%
Rychlost 75km/h
Scénář 1. 5%
Scénář 2. 90%
Scénář 3. 5%
Jakou z těchto možností byste volili? Asi prostřední, nebo něco mezi první a prostřední.
Proč? U každé rychlosti můžu vzít jednotlivé scénáře, škodu, která nastane, pokud se realizují, a vynásobit ji pravděpodobností daného scénáře.
Proč byste nejeli 75km/h? Ne proto, že je jisté (!), že se vybouráte. Ale riziko je příliš velké.
Implicitně, bez úvah nad procenty a škodami, řeší podobné problémy například naprostá většina řidičů naprostou většinu času zhruba dobře.
Bohužel, když se posuneme k explicitním, verbálním úvahám, mnoho lidí schopnost řešit podobné problémy částečně ztrácí.
To platí ještě mnohem víc, když bude stejný problém jako u auta popíšeme jazykem nějaké zdánlivě vzdálené oblasti - jako třeba finančních derivátů, medicíny, nebo epidemického modelování. Skoro mi někdy připadá, že pokud něco působí “matematicky”, část lidí svou přirozenou schopnost myslet jaksi vypne.
Hluboké a složitě řešitelné problémy to působí proto, že řešení popsaného typu problému je základem racionálního rozhodování vůbec.
Několik příkladů, jak se tenhle hlubší problém projevuje u covidu.
Rozhodování
1. Samozřejmě, špatným rozhodováním. V některých případech úplně bizarně špatným - totiž, když se vláda “připravovala” na nejoptimističtější možnost, kdy není potřeba dělat nic.
Komunikace
2. Spoustu nedorozumění a falešných konfliktů vzniká ze špatného pochopení vyjádření, která se snaží komunikovat právě ta pravděpodobností rozdělení.
Vezměme si například “jízdu rychlosti 75km/h”.
Všimněte si, že v případě této rychlosti zároveň platí
a. Myslím si, že nejspíš dobře dopadne, dokonce v 9 z 10 vyjetím kopce.
b. Celkově je to špatná volba, s výrazně negativní očekávanou hodnotou. 5 procent krát velikost škod je prostě hodně.
Jak podobný odhad komunikovat? Kdybyste radili kamarádovi, který danou cestou pojede poprvé, tak byste asi zároveň doporučili to trochu rozjet, ale varovali před rizikem “bacha - v té zatáčce to může klouzat, není dobré tam vjet příliš rychle”.
U aut to zhruba umíme - asi by se vám u takové rady asi nedostala odpověď “Nestraš mne tou apokalyptickou vizí!”
Intuitivní pochopení se bohužel u mnoha lidí vypne, když nejde o auto, ale o epidemii nebo matematické modely, byť jde o stejný typ problému, jako u auta a kopce.
Například: Když si vezmu současné nejistoty ohledně omikronu, tak můj “střední odhad” je poměrně optimistický - sice mnoho nakažených, ale relativně málo lidí na JIP a mrtvých, díky předchozí imunitě po očkování a prodělání nemoci.
Zároveň ale pořád existuje dost nejistoty - jednak, jak velká část neočkovaných má nějakou postinfekční imunitu? A jak budou u rizikových skupin dvě dávky podané třeba v březnu 2020 chránit před vážným průběhem?
Pro ani jednu z těhle otázek nemáme zatím dobrá data ze zahraničí.
Zbylá nejistota je tak velká, že i když “střední odhad” průběhu je poměrně optimistický, celkové riziko při nebrzděném průchodu vlny je dost velké. Stejně jako u auta v zatáčce je prostě možné, že nebudeme mít štěstí.
Bohužel, když tohle vysvětlujete veřejně u pandemie, dočkáte se dezinterpretace “takže vy říkáte že to špatně dopadne!” a útoků typu “strašíte lidi”.
A naopak: cestou ke snadné popularitě mezi “lidem” je vždy upozorňovat na ty nejoptimističtější možnosti. Protože by všichni rádi, aby nastaly, zdůrazňovat je takříkajíc “hladí po srsti” publikum ponořené do “wishful thinking”.
Predikce vs. scénáře
3. Jiným nedorozuměním, které bych na autopříkladu rád vysvětlil, jsou “predikce vs. scénáře”
Matematické modely epidemií mají dva základní typy výstupů: scénáře, a predikce.
Co znamenají “scénáře”? Jde o modely typu “co se stane, když”. V popsaném automobilovém případě by výsledkem nějakého “modelu jízdy” byly právě ty popsané alternativy typu:
Rychlost 15km/h … pravděpodobnost 80% nevyjetí kopce, 19,99% vyjetí kopce, 0,01% nehoda.
Rychlost 75km/h …
Takovýto model zjevně neříká, “co se stane”.
Přesto, přesně tenhle typ modelu je obvykle to, co se hodí pro rozhodování! Protože se chcete rozhodnout jak rychle jet - což je vaše volba - a od modelu chcete vědět, jak různé volby mohou dopadnout.
Co znamenají “predikce”? V popsaném automobilovém případě “čistá” predikce musí zahrnovat odhad, jak rychle pojedete. K “predikci” vede úvaha typu “myslím si, že pojedete zhruba 50 km/h, a povede to nejspíš k těmto výsledkům”.
Nevím, jestli je to hned jasné, ale podobný typ výstupu je často dost k ničemu pro rozhodování. Když mi někdo místo běžné rady řekl “v tom kopci se vybouráš s pravděpodobností 0.5%”, co mi tím říká? Že pojedu nebezpečně? Ok, ale co když, když takové varování vyslyším, pojedu opatrněji? Nebo je efekt, že pojedu opatrněji, už zahrnutý v predikci, a kdybych ji neslyšel, jel bych ještě riskantněji?
Dost podobně to funguje pro modely epidemie. Většinu epidemie máme k dispozici modely, které docela dobře popisují, jak se virus šíří ve společnosti s nějakou intenzitou kontaktů a opatření. Ty se hodí pro modely typu “scénáře”. Naopak, když vezmu opačný kraj, rovnice popisující faktory typu “jak rozhodne vláda” zatím nemáme, a výstupy typu “predikce” jsou proto daleko zrádnější, pokud jde o delší horizont než 2-3 týdny.
To neznamená, že predikce dělat nelze. Několik “čistých predikcí” jsem letos udělal a všechny vyšly, ale je potřeba říci, že pro tvorbu predikcí byla stejně důležitá část “epidemického modelování” jako neformálního odhadu, v jak špatné situaci se mění nálada české veřejnosti, případně nálada vlády.
Scénářové modely jsou často terčem hloupé a nespravedlivé kritiky, která spočívá v záměně scénáře za predikci. Při bližším pohledu má taková kritika často strukturu typu “jel jsem 30 km/h a nenastalo to, před čím jste varovali při 80 km/h/!”. Co z toho plyne? Nic, ale rétoricky to může být efektivní.
Jak scénářové modely zpětně hodnotit? Samozřejmě podle toho, zda predikce modelu odpovídá vývoji, pokud jsou splněny předpoklady scénáře. Není tedy ani pravda, že model, jehož výstupem je řada scénářů, je neoveřitelný.
S příklady by se dalo dlouho pokračovat.
Co se dá dělat s celým “hlubším problémem” problematického uvažování o pravděpodobnostech a riziku nevím. Možná nejzajímavější mi na něm přijde právě ten aspekt, že implicitně tento typ problém umí řešit každý, a docela dobře.
Zajímavé v tomto kontextu je to, že lidé u jiných srovnatelných rizik problému s očekáváním středního odhadu a ignorování nepravděpodobných velkých škod viditelně nepodléhají. Naopak, u rizik typu terorismu, nebo i kriminality obecně, naopak apokalyptickými vizemi straší vox populi. A koneckonců lze důraz na extrémní nepravděpodobná rizika pozorovat i v otázce rizik vakcinace, často u týchž lidí, kteří samotnou nemoc bagatelizují.
Typický internetový diskutér v debatě o covidu: "Zemřelo jenom 30 tisíc lidí, to je jen 0,3% populace. A u většiny to bylo s covidem spíš než na něj a zemřeli by stejně. Kvůli tomu přece nebudeme nic dělat."
Typický internetový diskutér v debatě o migraci: "Afghánec pobodal ženu! Kolik žen ještě bude muset zemřít, než s tím něco uděláme?"
Úvahy o rizicích jsou pro většinu lidí jen kouřovou clonou racionalizace. Standardem je nejdřív zaujmout postoj ve věci optimálního řešení, a pak vhodným způsobem interpretovat data, aby se ten postoj obhájil. To je bohužel hlavní problém těhle debat.
Trochu modelove klasiky:
S kazdym clankem z oblasti komplexnich systemu lze polemizovat (zakladni pojmy, metody..). O to nejde. Hlavni message je, ze tvurce modelu ma zapeklity zivot a o zabavu postarano na mnoho dekad. Modelova tvorba je nejnarocnejsi fazi systemove tvorby, je jadro systemu (jakehokoliv ridiciho, hodnoticiho, dokumentujiciho, je jedno jestli ekonomickeho, medicinskeho ..). Modelarem se clovek nerodi, ale stava po dlouhe praxi (v ruznych oblastech). A to se napr. v bankach do regulace dostava model risk. Spolehani na autority se v modelove tvorbe nevyplaci, vetsinou pomohou pouze s vecnou problematikou, event. subsystemy. Ostatni je prace analytika, modelare, syst. integratora, testera, interpretera vysledku. Dana oblast je evidentne neprobadana, schazi utrideny pohled, okolni subsystemy, externi a kvalitativni vlivy, kdyz zaklad je syst. a datova analzya, coz myslim obecne je (nejsem zdravotnik, nybrz ekon. fin. modelar - asi tak 40 let prolinane praxe). Je zbytecne ji osazovat zkraje pojmy pravdepodobnost, rizika v samem uvodu, treba se to ubere jinym smerem (pres AI).. V zacatku schazi zde datovy prisun, relevantni data vytridim v databazi, ulozim vyberovy klic, abych je hlavne mohl aktualizovat na bazi zpracovaciho horizontu (ten byva ruzny, napr. od minute tradingu, pres rok u nekterych typu fin. rizik. Cili horizont zpracovani! Aplikuju systemovy pristup, reknu zdali pojedu po hierarchicke ci procesni linii. Model vsadim do hrube vytvoreneho syst ramce. Pokracuju s promenymi, ktere vysosnu z pracovni DtB. Sleduju skaly mereni techto promennych, typy zhruba kardinalni, ordinalni, nominalni. Pro fazi hodnoceni jsou to podstatne veci, urcite je upotrebim, kdyz bbudu delat vicekrit. Pak prejdu k charakteristikam modelu, Planuju vyuziti normativni, deskriptivni. Ted je doba pro pravdepodobnosti, v normativnim cleneni vyuziju subj psti, jinak zname typy stat. pravdepodobnosti (ty me doda napr. MLab, Julia v Linuxu). Mohu ale pocitat se stochastikou (chran buh), heuristickymi typy (tech moc neni). A pak to budu integrovat na statisticke bazi (coz u medicinskych dat jde lip nez v ekonomickych), tady se lze vyradit. Kolem toho je spousta podcinenych deteministickych vypoctu (npr. v ekonomice prevalentnich). Se scenario modely praxi nemam, ale scenarovacimi postupy v ramci modelu ano. Tam si stanovim kriticke promenne a dusim je stress testy. Poohlednu se o metodach (prestupne modelu), ktere bych mohl vyuzit a moc se nezapotit. Dalsi podstatna faze jsou rizika, velmi chabe zastoupena v ekonomice (po strance metodicke), lepe v bank a pojistovnictvi. Mozna by se daly adoptovat postupy z operacnich rizik bank, kde se sleduji data na bazi kategorizace na prumerna a excesivni a pocita se ValueAtRisk. Ale to neni prima analogie a vyzaduje to data 2 typu: frekvence a severita (to lze vysosnout z dat casove clenenych, problem je severita-dopad. Prognosticke (extrapolacni) modely jsou specificke pro urcite oblasti, tady bych je moc netrajboval. Samozrejme napr u vaR modelu se sleduji koincidence propoctenych (ve sledovacim horizontu) a expost namerenych hodnot (ale to neni moc prognosticke). Obecne bych se vyhnul moc schematizujicimuvyjadreni, to aaz mnohem pozdeli. Modelar bude hotov az se jeho dilo objevi v objektech SW zpracovani nekterych (radsi vsech relevantnich) subsystemu. Vzit ciste model a prohlasit ho za univerzum nelze. Je to hlavne o makacce, kecu s kolegy (pokud mozno online), mene o studiu clanku a hledani prislusnych korifeju k dane vecne oblasti (s tim bych se neparal). Obmaknul bych spis firmy, ktere se v oblasti medicinskych dat pohybuji (co sleduji, jak to hodnoti, SW i zelezo na kterem to provozuji. Kdyz na mne nekdo vyrukuje jen s krivkami, tak ho .....
Tak hodne zdaru, modelum se spise vyhnout.