Vhodné a nevhodné použití statistiky
Bohužel, statistika může někdy místo odhalení pravd, které jsou skryté, sloužit i k zatemnění pravd, které jsou celkem jasně vidět.
Statistika může sloužit různým účelům. Typicky třeba k přesnějšímu a pečlivějšímu popisu něčeho, co zhruba tušíte - třeba faktu, že průměrná výška lidí v posledních sto letech vzrostla, nebo že se prodloužila průměrná doba, po kterou žijeme. Statistika také může složit k odhalení vztahů v datech, které jsou skryté, a nejsou vidět “pouhým okem” - například pokud byste chtěli zkoumat vliv malého ale významného množství těžkých kovů ve stravě na výskyt různých nemocí, potřebujete dostatek dat a statistiku. Statistika také umožňuje kvantifikovat nejistotu a náhodu. A mnoho dalšího - jedním z užitečných pohledů, jak se vůbec dá dívat na lidský mozek je, že jde o orgán na statistické inference.
Bohužel, statistika také může někdy místo odhalení pravd, které jsou skryté, sloužit i k zatemnění pravd, které jsou celkem jasně vidět.
“Důkaz nulovou hypotézou”
Jedním z obecně známých způsobů jak nevhodným použitím statistiky mást sebe nebo někoho jiného je “důkaz nulovou hypotézou”.
Funguje zhruba takhle:
Při běžném použití statistiky si při testování hypotéz zvolíte nějakou “základní hypotézu H0” a “alternativní hypotézu H1” (dohromady pokrývající všechny alternativy). Provedete pokus nebo analyzujete data, a zhruba řečeno, pokud data obsahují něco, co je podle “nulové hypotézy” velmi nepravděpodobné ve srovnání s alternativou, tak ji zamítnete - a dáte přednost alternativní hypotéze H1. Rigorózním postupům podle kterých hypotézu H0 zamítáte se říká statistické testy.
Na co je potřeba dát při interpretaci pozor je, že pokud test statistické významnosti neumožňuje nulovou hypotézu vyloučit, tímto způsobem jste “nedokázali” nulovou hypotézu.
Jak manipulace s využitím “důkazu nulovou hypotézou” funguje lze názorně ukázat třeba na hypotetickém příkladu, kdy by vás někdo zkoušel přesvědčit o bezpečnosti řízení na namrzlé vozovce.
Myslíte si, že řízení na namrzlé vozovce je nebezpečné a zvyšuje riziko nehody? Pokud sebe, nebo případně i vás, chce zmást statistik nebo matematik, může přijít zhruba s tímhle argumentem:
Proveďme statistický test hypotézy, že “řízení na namrzlé vozovce je nebezpečné a zvyšuje riziko nehody”. Za “nulovou hypotézu H0” zvolme, že namrzlost vozovky nemá žádný efekt. Za “H1” pak že ledovka zvyšuje riziko. Podívejme se na data o vašich autonehodách za posledních deset let a 70 tisíc km. Řekněme, že jste měli za tu dobu 3 drobné nehody, a 5 rizikových situací, kdy k nehodě nedošlo jen těsně. Jedna z rizikových situací byla na namrzlé vozovce. Když provedeme statistickou analýzu těchto dat, ve srovnání s tím, jak často je na vozovce námraza, tak statistický test vyjde tak, že rozdíl dat oproti hypotéze “H0” není statisticky významný, ani pro nehody, ani pro rizikové situace.
K významovému posunu / manipulaci dojde v okamžiku, kdy se výsledek prezentuje jako “důkaz” hypotézy H0: “ledovka nemá vliv” nebo jako důkaz “analýza ukazuje, že v tom není rozdíl”. Nebo stačí rétoricky položit dost důrazu na “rozdíl není statisticky významný”, a (oprávněně) předpokládat, že řada lidí učiní myšlenkový skok k “není v tom rozdíl”.
Reálně je asi jasné, že v popsaném případě je problémem nedostatek dat. Že nulovou hypotézu nešlo vyloučit vylučuje maximálně tak nějaký extrémně silný efekt typu že na ledovce nabouráte většinou když po ní jedete. Takhle průzračně jasné to většinou není, ale podle zhruba stejného principu můžete zkonstruovat řadu komplexnějších argumentů, které se “statistickým neprokázáním” snaží “dokázat nulovou hypotézu”.
Řada podobných argumentů čas od času obíhá českými sociálními sítěmi - často s cílem zpochybnit že protiepidemická opatření mají efekt, nebo zpochybnit mainstreamové epidemické modelování a běžnou laboratorní diagnostiku.
Jako hypotézu H0 si většinou autoři argumentů zvolí něco typu “protiepidemická opatření nemají na vývoj epidemie vliv”. V druhém kroku se buď snaží najít takovou sadu dat a srovnání, aby rozdíl nevyšel statisticky významný. A nebo, což je častější, vezmou nějaký běžný model nebo výsledek výzkumu, který efekt opatření zkoumá, a snaží se jej zpochybnit buď s pomocí skutečných problémů a omezení (kvalita dat, kauzalita není korelace, interpretace podmíněných predikcí) nebo bohužel někdy i s pomocí problémů neskutečných (“model vysvětluje vše jako efekt opatření“). Ve třetím kroku se pak naznačí, že taková argumentace dokazuje něco ve smyslu “opatření nefungují”, “opatření neodpovídají datům”, “opatření jsou zbytečná”. Nic takového ovšem z provedené analýzy neplyne!
Co se ve skutečnosti při této argumentace děje mi přijde názorně vysvětlitelné v Bayesovském pohledu. Jako bayesián začnete s nějakým apriorním rozdělením pravděpodobnosti - “priorem” - který reprezentuje váš “předběžný odhad”. (Mimochodem - jak prior běžně nazýváte v češtině? Apriorní pravděpodobnostní rozdělení mi přijde hrozně dlouhé, na to, jak užitečný pojem to je)
Podíváte se na data, nebo provedete pokus. Podle toho jak vypadají data, nebo dopadne výsledek, posunete se k aposteriorní pravděpodobnosti - posterioru. Pokud je dat málo, a jsou s priorem kompatibilní, posterior se příliš neliší od prioru.
Argumenty proti kvalitě dat, způsobu jejich sběru a podobně ve skutečnosti většinou říkají pouze toto: “rozdíl mezi priorem a posteriorem by neměl být velký”. Nemohou “dokazovat prior”!
Z bayesovského pohledu je popsaný klam s důkazem nulové hypotézy jakýsi argument priorem: nelíbí se mi ani váš prior ani vaše úvahy! Zahoďte úvahy… a přijměte to, co si myslím já!
Nebo možná někdy můžete jít o jakousi “obranu” vlastního prioru před evidencí - pokud by mě přijetí nějaké úvahy nutilo ke změně názoru, je lépe takovou evidenci zpochybnit nebo popřít.
Obecně mi přijde, že pokud se chceme spíš dobrat toho, jak věci jsou, než někomu vnutit svůj názor, je lepší začít ze stavu nejistoty. V případě opatření třeba předpokladem, že protiepidemická opatření asi nějaký efekt mají, ale nevíme jaký - takový stav pochopení vlastní neznalosti se dá matematicky popsat jako poměrně široký prior. A na základě různých důkazů, kousků evidence, tento odhad postupně modifikovat k větší určitosti, ať už formálně, nebo neformálně.
Nezaujatý bayesovský pozorovatel v případě protiepidemických opatření dospěje po seznámení s daty spíše k názoru, že efekt mají; odhadovat účinek jednotlivých opatření je poměrně obtížné, takže výsledné posteriorní odhady jsou pořád dost široké; kauzalita teče různými směry, ale složka od opatření k nákazám je velmi významná; překvapivě, co je o trochu jistější než odhady jednotlivých opatření, jsou odhady celých balíků opatření - byť pořád s dosti velkou nejistotou.
K popsanému rozboru se asi hodí todat ještě dvě věci.
Zaprvé - k analýze situací typu jízdy po namrzlé vozovce či efektu opatření můžeme přistupovat i řadou jiných způsobů, třeba naše odhady vůbec nezakládat na statistické analýze mnoha nehod nebo mnoha případů, ale využít jednoduchý “mechanický” model založený na fyzice a biologii.
V případě jízdy po namrzlé vozovce tak například můžeme z fyziky spočítat brzdnou dráhu na ledu, z biologie zjistit reakční dobu člověka, a sestavit jednoduchý mechanický model rizika např. střetu se srnkou, která řidiči skočí do vozovky, v závislosti na stavu povrchu silnice a rychlosti auta. Ze statistiky nikoli nehod, ale jízd, bychom pak mohli zjistit třeba to, zda řidiči na namrzlé vozovce upravují rychlost tak, aby riziko kompenzovali.
V případě COVIDu můžeme z lékařství a biologie vzít “mikroskopické” modely kolik virionů nakažený člověk emituje. Z fyziky a lékařství zjistit, formou jakých kapiček. Z fyziky aerosolů odhadnout jak se takové částice šíří. A opět z medicíny vzít odhad, jak s expozicí viru roste pravděpodobnost nákazy. Pěkný jednoduchý model tohoto typu je na adrese microcovid.org.
Zadruhé - předchozím textem nechci naznačit, že by někde zasedalo nějaké bratrstvo pro statistické dezinformace. Před různými omyly a zkreslením vlastního uvažování nechrání ani vzdělání ve statistice, ani vysoká intelligence, a dokonce ani třeba sláva a úspěch. Dokonce mám podezření, že vysoká inteligence je svým nositelům svým způsobem systematicky nebezpečná, protože umožňuje konstruovat komplexní “odvysvětlení” nepříjemných faktů, a vymýšlet různé “ochranné” hypotézy, které člověka chrání před tím, aby musel připustit něco, co nechce.
Poučným příkladem může být Ronald Fisher, geniální statistik, který vytvořil velkou část základů statistiky 20. století a i dost základů evoluční biologie a genetiky. Včetně výše popsaného testování hypotéz, a několika standardních statistických testů.
Kromě toho se Fisher v důchodu s dosti velkou vervou pustil do boje proti obecnému přijetí tehdy nového poznatku, že kouření způsobuje rakovinu plic, a osvětě proti kouření. Jeden z Fisherovývch článků zpochybnění souvislost kouření a rakoviny, vydaný v Nature, si můžete přečíst zde: https://www.york.ac.uk/depts/maths/histstat/fisher274.pdf
I když zpětně je zjevné, že se Fisher v odhadu co je pravda mýlil, a jeho oblíbená hypotéza společné příčiny rakovin a kouření cigaret v “genetických vlivech” je převážně mylná, brilance autora je z textu patrná - text obsahuje spoustu velmi chytrých metodických zpochybnění kauzální souvislosti kouření a rakoviny.
Jak je možné, že génius, který testování hypotéz vymyslel, se spletl v otázce jednoho z největších problémů veřejného zdraví v druhé polovině 20. století, způsobem, který připomíná ono dokazování nulové hypotézy? A naopak mnoho daleko obyčejnějších, méně známých, úspěšných a geniálních vědců zhodnotilo výzkum správně?
Můj soukromý dojem je, že jednou částí odpovědi je že Fisher byl vášnivý kuřák dýmky. Politicky se mu zjevně velmi nelíbilo, že by lékařské kruhy na základě výzkumu souvislosti kouření a rakoviny chtěly pořádat “propagandistické” kampaně proti kouření. A také byl tak trochu kontrarián, který rád ostatním dokazoval, že se mýlí. (Jako drobný bonus začaly Fisherův výzkum sponzorovat tabákové společnosti, což si ale osobně nemyslím, že by pro Fishera byla významná motivace.)
Druhou částí odpovědi podle mě je, že vhodným normativním základem pro rozhodování o otázkách veřejného zdraví, pro omezeně racionální agenty, s omezenýma informacema, není paradigma testování hypotéz.
Zvlášť v případě pandemie nejistota modelů není důvodem žádná opatření nezavádět, ale naopak, může být naopak dobrým důvodem proč zavést tak silná opatření, aby růst epidemie potlačila s větší jistotou a rychlostí.
"Apriorní pravděpodobnost", "apriorní rozdělení" je asi nejstručnější standardní pojmenování. Ale převzít "prior" jako podstatné jméno asi není úplně zlý nápad. Aspoň mne latinismy iritují o poznání méně než anglicismy.
K věcné stránce, myslím, že tohle téma by zasloužilo více článků, protože "inferenční vzdálenost" k překonání je docela velká. Např:
1) Většina lidí myslím nemá moc představu, jak prakticky bayesovký přístup použít. Jedna věc je znát Bayesův vzorec, ale druhá je jeho konkrétní užití v reálném problému, například v otázce účinnosti protiepidemických opatření.
2) Dost zásadním problémem se mi jeví to, že veřejná debata je převážně vedena v binární rovině "opatření fungují vs. nefungují". Přitom rozumný přístup vyžaduje uvažovat o parametrické množině hypotéz formulovaných jako "opatření snižují R o x", z nichž každá má svou pravděpodobnost. (Jak moc je pro komunikaci přitěžující, že se jedná o spojitou hustotu pravděpodobnosti, netuším, ale nějak si nedovedu představit, že by někdo v televizní debatě použil integrál.) Tenhle problém je fakticky nezávislý na tom, jestli přijmeme bayesovský přístup, nebo ne, a často degraduje debaty do absurdní roviny.
3) Samotné pojetí pravděpodobnosti jako míry nejistoty je sice intuitivně pochopitelné, ale jakmile dojde na diskusi o arbitrárnosti priorů, vzbuzuje to námitky ("když si vycucáte z prstu vhodný prior, dostanete jakýkoli výsledek"). Paradigma testování hypotéz má tu výhodu, že arbitrární složku výsledných soudů umně skrývá.
Je také otázka, nakolik problém popsaný v článku spočívá v tom, že paradigma testování hypotéz vede ze své podstaty v určité třídě problémů k nesprávným závěrům, a nakolik je důsledkem motivovaného myšlení. Mám obavu, že Fisher by dokázal kouření obhájit i z bayesovské perspektivy.
Pro člověka mojí generace je prior obchodní dům plný nepříliš rozmanitého a nepříliš kvalitního sortimentu. Což takhle aprior :) ?
Jinak mi článek přišel pozoruhodný. Při povrchním čtení vypadá jako filipika proti testování hypotéz, ve skutečnosti se ale zabývá jednak interpretací statisticky zpracovaného výpočtu, jednak ne úplně související tématikou přístupu k epidemii.
Ohledně té první části, jestliže někdo chce dokazovat H0, pak patří do prvního semestru nebo psychiatrického ústavu a debata s ním je ztráta času. Abych byl konkrétnější, výsledek dobře zpracované studie (https://www.acpjournals.org/doi/10.7326/M20-6817) o nošení respirátorů je možno interpretovat v řeči obecné jako:
1. Studie dokázala, že respirátory na COVID nefungují. To je ovšem čirá „statistická“ lež a tak je na ní třeba reagovat.
2. Studie prokázala, že respirátory snižují riziko o 15%. To je ovšem též “statistická“ lež, velmi rozšířená, jen je to lež jiného druhu. Je to ze stejné rodiny jako „studie prokázala, že vakcína je 100% účinná proti těžké formě, nebo studie prokázala, že vakcína má účinnost 75%“. Ve skutečnosti lze na základě studie odhadnout účinnost respirátorů na 15% a účinnost vakcín proti těžké formě blízko 100% (tady lze samozřejmě udat přesnější údaj). Z korelační analýzy, v níž byl autor – pan Kulveit spoluautorem (mám na mysli tu druhou a omlouvám se, že necituji přesně, nechce se mi dohledávat ani citaci, ani zcela přesná čísla) též vyplývá, že přísnější pravidla pro nošení roušek snižují riziko o cca 15%. Tady je ovšem rozdíl, který má vztah právě k H0. Tady se dá totiž navíc říct, že studie prokázala kladnou korelaci mezi požadavkem na přísnější nošení roušek a snížením nákazy. V řeči zcela obecné, podle té poslední jmenované studie existuje důvodné podezření, že požadavek na nošení roušek omezuje epidemii.
3. Další možnou interpretací výsledku o nošení respirátorů je, že nebyl prokázán vliv nošení respirátorů na velikost nákazy. Toto je zcela korektní konstatování a o tom, proč jej autor nelibě nese dále.
Jako člověka ze staré školy mě ovšem překvapují některé další výroky proti testování hypotéz. Mohl by mi autor vysvětlit, jak se formulováním H0 skrývá prior? Vezmu-li učebnicový příklad t-test, pak jediné co předpokládám je tvar rozdělení o dvou neznámých parametrech, vše ostatní je v datech. Možná můžu říkat nechte si svoje názory, ale místo nich nenabízím ty svoje, ale nechám hovořit právě data. Obecně nechci oživovat nějaké debaty o bayesiánském vs klasickém parametrickém přístupu. Nicméně jsem přesvědčen, že „názory“ by neměly ovlivňovat výsledek při analýze dat. Pokud jsou data ovšem zpracována racionálně, měly by různé rigorózní přístupy vést ke stejným závěrům.
Teď k té druhé části, která byla motivací pro autorovy úvahy, a to nejen v tomto článku. Jde o to, zda se v epidemii má postupovat způsobem, který se popisuje jako medicína na základě důkazů. Autor je evidentně přesvědčen, že nikoli, proto odmítá naprosto pravdivou interpretaci pod bodem 3. Dokazování zdržuje, je kontraproduktivní a některé názory se moc dokázat nedají. Když se nedejbože k tomu připletou právníci, nastává otravná bariéra pro bohulibou činnost.
Odpověď na takovou otázku je ovšem zcela netriviální. Není to úplně otázka vědecká, je navýsost politická. Pokud bychom byli důslední a oprostili se od nějakého dokazování, tak by každý pacient dostal ivermektin, isoprinosin, remdesivir, dávku česneku, medu a acylpyrin – a moc by se nestalo. Dále kdyby se nikdo nezdržoval klinickými studiemi a přistoupil k tomu jako Rusové, tak už mohla být populace z 2/3 proočkovaná a za vodou. Tolik z dnešního pohledu. Výsledek ale mohl být i totální nedůvěra k očkování, pokud by se něco nezdařilo.
Z mého pohledu je oprávněné na začátku epidemie hrozící velkou škodou dělat opatření na základě elementárních úvah i s rizikem přestřelení. Ani tak není správně nařizovat absurdity typu roušky v lese či pro samotného řidiče v autě. V sázce je důvěra, která je pro výsledek důležitá. V průběhu epidemie by ale měla být shromažďována data, která umožní detekovat opatření, která mohou fungovat a umožní je průběžně testovat. Zároveň je třeba jednotlivá opatření nasazovat podle efektivity a nákladu. Jsem docela vděčný právníkům, že se dívají i na legitimitu. Jinými slovy, v průběhu epidemie bychom se měli blížit k opatřením na základě důkazů. Asi bychom nenosili roušky na prázdné ulici, asi by se neřídilo zavírání obchodů podle toho, co má Babiš v portfoliu. Možná bychom neměli zavřené výstavy a galerie, jejichž přínos k nákaze je i podle dříve zmíněné studie, kde je pan Kulveit spoluautorem, neodlišitelné od nuly. Možná bychom nezažili otevřené kavárny souběžně se zákazem pít kávu z kelímku na ulici a životní nezbytnost, otevřené psí salóny. Věděli bychom, proč máme uzavřená knihkupectví, obuv a papírnictví, nebo bychom je zavřená neměli. Důvod, proč bychom měli směřovat k opatřením, o kterých bychom věděli, že jsou účinná a uměli je vážit podle nákladu, je jednak důvěra a jednak efektivnost. K té legitimitě, dosavadní i budoucí opatření jsou na bázi - když se kácí les, létají třísky. Pro akademické a státní zaměstnance není lehké si to představit, ale minorita statisíců lidí dopadla jako v padesátých letech po znárodnění a rozkradení majetku, zatímco většina zaměstnanců je v pohodě na úkor budoucnosti všech. A bonus – nepostihnutý agrokomplex dostal z covidové podpory svůj díl, proč asi? Pro mnohé je legitimita a efektivita těch opatření po právu alfa a omega, i když to ředitele epidemie zdržuje a otravuje.