Vhodné a nevhodné použití statistiky

Bohužel, statistika může někdy místo odhalení pravd, které jsou skryté, sloužit i k zatemnění pravd, které jsou celkem jasně vidět. 

Statistika může sloužit různým účelům. Typicky třeba k přesnějšímu a pečlivějšímu popisu něčeho, co zhruba tušíte - třeba faktu, že průměrná výška lidí v posledních sto letech vzrostla, nebo že se prodloužila průměrná doba, po kterou žijeme. Statistika také může složit k odhalení vztahů v datech, které jsou skryté, a nejsou vidět “pouhým okem” - například pokud byste chtěli zkoumat vliv malého ale významného množství těžkých kovů ve stravě na výskyt různých nemocí, potřebujete dostatek dat a statistiku. Statistika také umožňuje kvantifikovat nejistotu a náhodu. A mnoho dalšího - jedním z užitečných pohledů, jak se vůbec dá dívat na lidský mozek je, že jde o orgán na statistické inference.

Bohužel, statistika také může někdy místo odhalení pravd, které jsou skryté, sloužit i k zatemnění pravd, které jsou celkem jasně vidět. 

“Důkaz nulovou hypotézou”

Jedním z obecně známých způsobů jak nevhodným použitím statistiky mást sebe nebo někoho jiného je “důkaz nulovou hypotézou”.

Funguje zhruba takhle:

Při běžném použití statistiky si při testování hypotéz zvolíte nějakou “základní hypotézu H0” a “alternativní hypotézu H1” (dohromady pokrývající všechny alternativy). Provedete pokus nebo analyzujete data, a zhruba řečeno, pokud data obsahují něco, co je podle “nulové hypotézy” velmi nepravděpodobné ve srovnání s alternativou, tak ji zamítnete - a dáte přednost alternativní hypotéze H1. Rigorózním postupům podle kterých hypotézu H0 zamítáte se říká statistické testy.

Na co je potřeba dát při interpretaci pozor je, že pokud test statistické významnosti neumožňuje nulovou hypotézu vyloučit, tímto způsobem jste “nedokázali” nulovou hypotézu. 

Jak manipulace s využitím “důkazu nulovou hypotézou” funguje lze názorně ukázat třeba na hypotetickém příkladu, kdy by vás někdo zkoušel přesvědčit o bezpečnosti řízení na namrzlé vozovce.

Myslíte si, že řízení na namrzlé vozovce je nebezpečné a zvyšuje riziko nehody? Pokud sebe, nebo případně i vás, chce zmást statistik nebo matematik, může přijít zhruba s tímhle argumentem:

Proveďme statistický test hypotézy, že “řízení na namrzlé vozovce je nebezpečné a zvyšuje riziko nehody”. Za “nulovou hypotézu H0” zvolme, že namrzlost vozovky nemá žádný efekt. Za “H1” pak že ledovka zvyšuje riziko. Podívejme se na data o vašich autonehodách za posledních deset let a 70 tisíc km. Řekněme, že jste měli za tu dobu 3 drobné nehody, a 5 rizikových situací, kdy k nehodě nedošlo jen těsně. Jedna z rizikových situací byla na namrzlé vozovce. Když provedeme statistickou analýzu těchto dat, ve srovnání s tím, jak často je na vozovce námraza, tak statistický test vyjde tak, že rozdíl dat oproti hypotéze “H0” není statisticky významný, ani pro nehody, ani pro rizikové situace.

K významovému posunu / manipulaci dojde v okamžiku, kdy se výsledek prezentuje jako “důkaz” hypotézy H0: “ledovka nemá vliv” nebo jako důkaz  “analýza ukazuje, že v tom není rozdíl”. Nebo stačí rétoricky položit dost důrazu na “rozdíl není statisticky významný”, a (oprávněně) předpokládat, že řada lidí učiní myšlenkový skok k “není v tom rozdíl”.

Reálně je asi jasné, že v popsaném případě je problémem nedostatek dat. Že nulovou hypotézu nešlo vyloučit vylučuje maximálně tak nějaký extrémně silný efekt typu že na ledovce nabouráte většinou když po ní jedete. Takhle průzračně jasné to většinou není, ale podle zhruba stejného principu můžete zkonstruovat řadu komplexnějších argumentů, které se “statistickým neprokázáním” snaží “dokázat nulovou hypotézu”.

Řada podobných argumentů čas od času obíhá českými sociálními sítěmi - často s cílem zpochybnit že protiepidemická opatření mají efekt, nebo zpochybnit mainstreamové epidemické modelování a běžnou laboratorní diagnostiku. 

Jako hypotézu H0 si většinou autoři argumentů zvolí něco typu “protiepidemická opatření nemají na vývoj epidemie vliv”. V druhém kroku se buď snaží najít takovou sadu dat a srovnání, aby rozdíl nevyšel statisticky významný. A nebo, což je častější, vezmou nějaký běžný model nebo výsledek výzkumu, který efekt opatření zkoumá, a snaží se jej zpochybnit buď s pomocí skutečných problémů a omezení (kvalita dat, kauzalita není korelace, interpretace podmíněných predikcí) nebo bohužel někdy i s pomocí problémů neskutečných (“model vysvětluje vše jako efekt opatření“). Ve třetím kroku se pak naznačí, že taková argumentace dokazuje něco ve smyslu “opatření nefungují”, “opatření neodpovídají datům”, “opatření jsou zbytečná”. Nic takového ovšem z provedené analýzy neplyne!

Co se ve skutečnosti při této argumentace děje mi přijde názorně vysvětlitelné v Bayesovském pohledu. Jako bayesián začnete s nějakým apriorním rozdělením pravděpodobnosti - “priorem” - který reprezentuje váš “předběžný odhad”. (Mimochodem - jak prior běžně nazýváte v češtině? Apriorní pravděpodobnostní rozdělení mi přijde hrozně dlouhé, na to, jak užitečný pojem to je)

Podíváte se na data, nebo provedete pokus. Podle toho jak vypadají data, nebo dopadne výsledek, posunete se k aposteriorní pravděpodobnosti - posterioru. Pokud je dat málo, a jsou s priorem kompatibilní, posterior se příliš neliší od prioru.

Argumenty proti kvalitě dat, způsobu jejich sběru a podobně ve skutečnosti většinou říkají pouze toto: “rozdíl mezi priorem a posteriorem by neměl být velký”. Nemohou “dokazovat prior”!

Z bayesovského pohledu je popsaný klam s důkazem nulové hypotézy jakýsi argument priorem: nelíbí se mi ani váš prior ani vaše úvahy! Zahoďte úvahy… a přijměte to, co si myslím já!

Nebo možná někdy můžete jít o jakousi “obranu” vlastního prioru před evidencí - pokud by mě přijetí nějaké úvahy nutilo ke změně názoru, je lépe takovou evidenci zpochybnit nebo popřít. 

Obecně mi přijde, že pokud se chceme spíš dobrat toho, jak věci jsou, než někomu vnutit svůj názor, je lepší začít ze stavu nejistoty. V případě opatření třeba předpokladem, že protiepidemická opatření asi nějaký efekt mají, ale nevíme jaký - takový stav pochopení vlastní neznalosti se dá matematicky popsat jako poměrně široký prior. A na základě různých důkazů, kousků evidence, tento odhad postupně modifikovat k větší určitosti, ať už formálně, nebo neformálně.

Nezaujatý bayesovský pozorovatel v případě protiepidemických opatření dospěje po seznámení s daty spíše k názoru, že efekt mají; odhadovat účinek jednotlivých opatření je poměrně obtížné, takže výsledné posteriorní odhady jsou pořád dost široké; kauzalita teče různými směry, ale složka od opatření k nákazám je velmi významná; překvapivě, co je o trochu jistější než odhady jednotlivých opatření, jsou odhady celých balíků opatření - byť pořád s dosti velkou nejistotou.

K popsanému rozboru se asi hodí todat ještě dvě věci.


Zaprvé - k analýze situací typu jízdy po namrzlé vozovce či efektu opatření můžeme přistupovat i řadou jiných způsobů, třeba naše odhady vůbec nezakládat na statistické analýze mnoha nehod nebo mnoha případů, ale využít jednoduchý “mechanický” model založený na fyzice a biologii.

V případě jízdy po namrzlé vozovce tak například můžeme z fyziky spočítat brzdnou dráhu na ledu, z biologie zjistit reakční dobu člověka, a sestavit jednoduchý mechanický model rizika např. střetu se srnkou, která řidiči skočí do vozovky, v závislosti na stavu povrchu silnice a rychlosti auta. Ze statistiky nikoli nehod, ale jízd, bychom pak mohli zjistit třeba to, zda řidiči na namrzlé vozovce upravují rychlost tak, aby riziko kompenzovali. 

V případě COVIDu můžeme z lékařství a biologie vzít “mikroskopické” modely kolik virionů nakažený člověk emituje. Z fyziky a lékařství zjistit, formou jakých kapiček. Z fyziky aerosolů odhadnout jak se takové částice šíří. A opět z medicíny vzít odhad, jak s expozicí viru roste pravděpodobnost nákazy. Pěkný jednoduchý model tohoto typu je na adrese microcovid.org.

Zadruhé - předchozím textem nechci naznačit, že by někde zasedalo nějaké bratrstvo pro statistické dezinformace. Před různými omyly a zkreslením vlastního uvažování   nechrání ani vzdělání ve statistice, ani vysoká intelligence, a dokonce ani třeba sláva a úspěch. Dokonce mám podezření, že vysoká inteligence je svým nositelům svým způsobem systematicky nebezpečná, protože umožňuje konstruovat komplexní “odvysvětlení” nepříjemných faktů, a vymýšlet různé “ochranné” hypotézy, které člověka chrání před tím, aby musel připustit něco, co nechce. 

Poučným příkladem může být Ronald Fisher, geniální statistik, který vytvořil velkou část základů statistiky 20. století a i dost základů evoluční biologie a genetiky. Včetně výše popsaného testování hypotéz, a několika standardních statistických testů.

Kromě toho se Fisher v důchodu s dosti velkou vervou pustil do boje proti obecnému přijetí tehdy nového poznatku, že kouření způsobuje rakovinu plic, a osvětě proti kouření. Jeden z Fisherovývch článků zpochybnění souvislost kouření a rakoviny, vydaný v Nature, si můžete přečíst zde: https://www.york.ac.uk/depts/maths/histstat/fisher274.pdf

I když zpětně je zjevné, že se Fisher v odhadu co je pravda mýlil, a jeho oblíbená hypotéza společné příčiny rakovin a kouření cigaret v  “genetických vlivech” je převážně mylná, brilance autora je z textu patrná - text obsahuje spoustu velmi chytrých metodických zpochybnění kauzální souvislosti kouření a rakoviny. 

Jak je možné, že génius, který testování hypotéz vymyslel, se spletl v otázce jednoho z největších problémů veřejného zdraví v druhé polovině 20. století, způsobem, který připomíná ono dokazování nulové hypotézy? A naopak mnoho daleko obyčejnějších, méně známých, úspěšných a geniálních vědců zhodnotilo výzkum správně?

Můj soukromý dojem je, že jednou částí odpovědi je že Fisher byl vášnivý kuřák dýmky. Politicky se mu zjevně velmi nelíbilo, že by lékařské kruhy na základě výzkumu souvislosti kouření a rakoviny chtěly pořádat “propagandistické” kampaně proti kouření. A také byl tak trochu kontrarián, který rád ostatním dokazoval, že se mýlí. (Jako drobný bonus začaly Fisherův výzkum sponzorovat tabákové společnosti, což si ale osobně nemyslím, že by pro Fishera byla významná motivace.)

Druhou částí odpovědi podle mě je, že vhodným normativním základem pro rozhodování o otázkách veřejného zdraví, pro omezeně racionální agenty, s omezenýma informacema, není paradigma testování hypotéz.

Zvlášť v případě pandemie nejistota modelů není důvodem žádná opatření nezavádět, ale naopak, může být naopak dobrým důvodem proč zavést tak silná opatření, aby růst epidemie potlačila s větší jistotou a rychlostí.