Statistická indukce
Statistická indukce (20/20) · 17:38

Kontingenční tabulka a test chí-kvadrát Kontingenční tabulka a test chí-kvadrát

Navazuje na Popisná statistika.
Řekněme, že několik bylin může zabránit chřipce. Abychom to ověřili, počkáme na chřipkové období. Náhodně rozdělíme osoby mezi skupiny. Ty pak sledujeme během chřipkového období, přičemž jedna skupina bere bylinu jedna a druhá skupina bylinu dva. Třetí skupina bere placebo. Placebo je náhrada, při níž si účastník myslí, že bere skutečnou věc, třeba lék, takže si myslí, že dělá něco, co mu pomůže, ale placebo nedělá nic. Třeba je to jen pilulka z cukru, aby to chutnalo jako medicína. Důvod, proč se placebo podává je ten, že na lidi někdy působí efekt placebo. To jest, lidem se někdy udělá lépe, protože požívají něco, o čemž si myslí, že je vyléčí. Takže toto může být klidně pilulka z cukru. Cukru je v tom jen málo, aby to neovlivnilo pravděpodobnost, že chytnou chřipku. Tato tabulka se jmenuje kontingenční tabulka. A jsou v ní zachyceny počty osob z každé skupiny, které onemocněly. A počet zdravých. Z toho zjistíme celkové počty. V skupině 1 je celkem 120 osob a ve skupině 2 je celkem 30 plus 110, tj. 140 osob. Ve skupině placebo, tj. ve skupině osob, kde lidé berou pilulku s cukrem, je celkem 120 osob. Zde je celkový počet osob, které onemocněly. To je 20 plus 30 je 50 plus 30, tj. 80. Tento sloupec dává součty, celkový počet osob, které neonemocněly. Zde je 100 a 110 je 210 plus 90 je 300. Celkový počet osob je 380, tento sloupec a řádka dají dohromady 380. Nyní se podívejme, jak využít informaci v kontingenční tabulce a naši znalost rozdělení chí-kvadrát, abychom udělali nějaký závěr. Co bude nulová hypotéza? Byliny nemají žádný vliv. Nedělají nic. A máme alternativní hypotézu, že byliny nějaký vliv mají. Byliny něco dělají. Ani neřeším, zda-li skutečně něco vylepšily. Prostě tvrdím, že měly nějaký efekt. Možná dokonce zvýšily šanci nakazit se chřipkou. Netestujeme, jestli jsou ty byliny dobré proti chřipce. Testujeme, zda-li se jejich vliv liší od žádného vlivu. Předpokládáme nulovou hypotézu. A s tímto předpokladem zkusíme vyřešit problém: jaká je pravděpodobnost, že můžeme pozorovat taková data nebo extrémnější data. A pokud je to tak málo, zamítneme nulovou hypotézu. Potřebujeme úroveň statistické významnosti. Řekněme, že nás zajímá úroveň 10 %, tj. 0,10. Spočítáme statistiku chí-kvadrát v kontingenční tabulce. Je to podobné, jako v příkladu s restaurací. Přijmeme-li nulovou hypotézu, přidáme do těchto buněk očekávané hodnoty. Říkáme "buňka", jako například v Excelu. Pro každou buňku tabulky. Zjistíme, jaká by tam měla být hodnota za platnosti nulové hypotézy. Zjistíme kvadrát vzdálenosti od očekávané hodnoty. To pak normalizujeme očekávanou hodnotou, sečteme tyto dílčí rozdíly, a pokud bude tyto kvadráty rozdílů opravdu velké, pravděpodobnost takového rozdělení je malá. Pak zamítneme nulovou hypotézu. Jaké jsou tedy očekávané hodnoty? Pokud byliny nedělají nic, pak očekáváme, že se v celé populaci nic nestalo. Že byliny byly k ničemu. Proto použijeme tento výběrový soubor. Z toho výběrového souboru zjistíme očekávané počty osob, které onemocní a které zůstanou zdravé. Máme 80 ze 380 osob, Musím opatrně. Řekl jsem "populace", ale toto nejsou data z "celého světa." Takže toto je jen výběrový soubor. Pozor na to. Použil jsem slovo "populace" v obyčejném významu. Nikoli ve statistickém. Mohli bychom použít všechna naše data, protože operujeme za předpokladu, že žádná bylina neměla žádný vliv. Tak zjistíme četnost nemocných a četnost zdravých. 80/380, tj. 21 %. 21 % onemocnělo. To je 21 % celku. Zde je pak 79 %, odečteme-li 1-0,21, 300/380 dává 79 %. Takže čekali bychom 21 % osob celkového souboru, že onemocní chřipkou, a 79 % zůstane zdravých. Provedeme u všech skupin. Jestliže 21 % z 120 onemocní, pak očekávaná hodnota je jaká? 21 % * 120. Vynásobíme to 120, což dává 25.3 osob. Zaokrouhlím. Očekávané hodnoty napíšu žlutou barvou. Očekávám, že 21 % ze skupiny onemocní, tj. 25.3 osob onemocní ve skupině 1 s bylinou 1. Zbytek zůstane zdráv. Odečtu, nebo mohu vynásobit 79 % krát 120. Nebo 120 - 25,3 a mám 94,7. Očekáváme, že 94,7 osob neonemocní. Udělám to ve skupinách. Ve skupině 2 očekávám 21 %, že onemocní. 21 % z celkových 140, tj. 29,4, a zbytek je 140 - 29,4, kteří zůstali zdraví. Máme 110.6, kteří zůstali zdraví a to je docela blízko, když se tak na to dívám. Vypadá to, že ta bylina nedělá moc ve srovnání všech skupin. A ve skupině placebo, očekáváme 21 procent, že onemocní z 120. To je 25,2. Mělo by to být stejné číslo. Velikost skupin je stejná, takže očekáváme stejný poměr nemocných. Řekněme 25,3. Vyšlo 25,2, kvůli zaokrouhlování. V této skupině, očekáváme 94,7 nemocných. Spočítáme statistiku chí-kvadrát. Napíšu chí nebo velké X. jedná se o náhodné rozdělení, které odpovídá rozdělení chí-kvadrát. Ještě určíme stupně volnosti. Někteří lidé píší chí místo X. Hledáme kvadrát vzdálenosti mezi pozorovanou a očekávanou hodnotou, lomeno očekávanou hodnotou, což je (20-25,3)2/25,3 + (30-29,4)2/29,4 + (30-25,3)2/25,3. Takže... + 100-94,7 na druhou lomeno 94,7... ... ... Výsledek je 2,53. Statistika chí-kvadrát při nulové hypotéze je roven 2,53. Dále zjistíme stupně volnosti. Pravidlo je: máme počet řádků a počet sloupců. 2 řádky a 3 sloupce, nepočítáme součty. V kontingenční tabulce jsou stupně volnosti počet řádku mínus jedna krát počet sloupců mínus jedna. Takže, (2-1)<i>(3-1), tj. 1 </i> 2, To dává celkem 2 stupně volnosti. Známe-li celkový výsledek, známe-li parametry populace, známe-li informaci uloženou v řádka - 1 poslední řádku můžeme spočítat odečtením z celku. Pokud znáte toto, pak zjistíte i toto. Toto není nová informace. Je to celek. A zde je to stejné. Pokud znáte toto, pak toto už není nová informace. A obdobně, v tomto případě, nepřidává to novou informaci. Dá se to spočítat z celku. Proto jsou stupně volnosti sloupec mínus 1 krát řádka mínus 1. Naše statistika chí-kvadrát má 2 stupně volnosti. Naše alfa, hladina statistické významnosti je 10 %. Kritická hodnota chí-kvadrát při hladině alfa 10 %. Zjišťujeme, zda-li je pravděpodobnost ještě menší, než kritická hodnota. Pak zamítáme nulovou hypotézu. Pokud to není víc, pak nulovou hypotézu nezamítáme. Hodnota chí-kvadrát při dvou stupních volnosti je kritická hodnota. Při dvou stupních volnosti a hladině významnosti 10 % je kritická hodnota chí-kvadrát 4,60. Jiný způsob je podívat se na rozdělení chí-kvadrát při 2 stupních volnosti. To je modrou. V prostoru nad hodnotou 4.60 je pravděpodobnost výsledku 10 %. Pokud hodnota statistiky chí-kvadrát spadne do tohoto kritického oboru, pak zamítáme nulovou hypotézu. Ale naše statistika chí-kvadrát je pouze 2,53. Což je zde. Takže není tak extrémní a lze ji pozorovat při nulové hypotéze. Na základě dat, která máme, nemůžeme zamítnout nulovou hypotézu. Nevíme tedy, jaký vliv těch bylin je, ale nemůžeme říct, že byliny mají nějaký dopad. Nemůžeme zamítnout nulovou hypotézu. Zdá se, že byliny se neliší jedna od druhé ani od placeba.
video