Statistická indukce (19/20) · 11:48
Test Pearsonův chí-kvadrát (test dobré shody) Test Pearsonův chí-kvadrát (test dobré shody)
Navazuje na
Popisná statistika.
Uvedu příklad. Chci si koupit restauraci. Zeptám se nynějšího majitele: jaké je rozdělení počtu zákazníků, kteří k vám každý den chodí? On na to: to víme. A dá mi toto rozdělení. Znamená, že 10 % zákazníků přijde v pondělí. 10 % v úterý. 15 % ve středu. V neděli je zavřeno. Dohromady je to 100 % zákazníků za týden. Je mi to trochu divné. Podívám se, jak jeho rozdělení odpovídá pozorování. Zaznamenám skutečný počet zákazníků, jak chodí během týdne. To jsou pozorovaná data. Chceme zjistit, zda-li přijímáme nebo zamítáme jeho hypotézu. Uděláme test hypotézy. Nulová hypotéza je, že majitelovo rozdělení je správné. Alternativa je, že není správné. Je dostatečný důvod nedůvěřovat tomu, že jde o správné rozdělení. Pak odmítneme majitelovo rozdělení. Provedeme test na úrovni 5 % statistické významnosti. Nebo se na to podíváme jinak. Spočítáme statistiku založenou na těchto datech. Jmenuje se statistika chí-kvadrát. Vypočítaná statistika má přibližně rozdělení chí-kvadrát. Má rozdělení chí-kvadrát s určitým počtem stupňů volnosti. Spočítáme tedy: pravděpodobnost takového nebo extrémnějšího výsledku je < 5 %. Jestliže je pravděpodobnost takového nebo méně pravděpodobného výsledku menší než 5 %, pak odmítneme nulovou hypotézu. Což je majitelovo rozdělení. Jestli to však neodmítneme, jestliže pravděpodobnost statistiky chí-kvadrát je větší než alfa, nezamítám a majitel se zřejmě neplete. Abychom mohli spočítat statistiku chí-kvadrát, předpokládejme, že majitelovo rozdělení je správné. Takže, je-li majitelovo rozdělení správné, jaká bychom očekávali pozorování? Zde máme procenta očekávaných pozorování, ale která to jsou? Napíšu zde: očekávaná. Očekával bych, že 10 % všech zákazníků v tomto týdnu přijde v pondělí. 10 % v úterý. 15 % ve středu. Abychom zjistili přesnou hodnotu, musíme znát celkový počet zákazníků. Takže tyto hodnoty sečteme. Na kalkulačce. Máme 30+14+34+45+57+20. Máme celkem 200 zákazníků, kteří navštívili restauraci v jednom týdnu. Napíšeme si to. Toto se rovná. Tak, napíšeme celkem zde. Celkem. Toho se nevšímejte. Mám 200 zákazníků, kteří přišli za týden. Jaké je očekávané množství zákazníků v pondělí? V pondělí bychom čekali 10 % z 200. 20 zákazníků, 10 % krát 200. V úterý dalších 10 %. Takže 20 zákazníků. Ve středu 15 % z 200, to je 30 zákazníků. Ve čtvrtek 20 % z 200, to je 40 zákazníků. V pátek 30 %, to je 60 zákazníků. V sobotu 15 % z 200, to by mělo být 30 zákazníků. Pokud je tedy toto rozdělení správné, toto jsou očekávaná množství zákazníků. Teď spočítáme statistiku chí-kvadrát. Místo písmena chí budu psát velké X2. Někteří lidé používají spíš řecké písmeno chí. Napíšu X2. To je naše statistika chí-kvadrát. Budu používat písmeno X místo chí, protože naše rozdělení se bude rozdělení chí-kvadrát pouze podobat. Není to přesně stejné. Jde o odhady. Vypočítá se jednoduše. Uděláme rozdíl pro každý den mezi očekávaným a pozorovaným počtem. Toto je 30-20. Použiji různé barvy. Kvadrát. Děleno očekávaným počtem. Takže děláme kvadrát jakési chyby mezi pozorovanou a očekávanou hodnotou. Čili rozdílu mezi pozorovanou a očekávanou hodnotou. Pomocí očekávané hodnoty to normalizujeme. To sečtu. Žlutou. Takže + (14-20)2/20 + (34-30)2/30 + (45-40)2/40 + (57-60)2/60 + (20-30)2/30. Odečetl jsem očekávané od pozorovaných hodnot, druhá mocnina, lomeno očekávaná hodnota. Výsledky jsem sečetl. To je statistika chí-kvadrát. Spočítáme to číslo. To se rovná čemu? 30 - 20 je 10 na druhou, což je 100 lomeno 20, což je 5. Asi se mi nepodaří spočítat všechny z hlavy. Napíšu to tak, abyste viděli, co dělám. To je 100/20. + 14-20 je -6, kvadrát, což je plus 36. Takže plus 36/20. + 34-30 je 4, kvadrát je 16, takže +16/30. + 45-40 je 5, kvadrát je 25, takže +25/40. Plus 3 na druhou, to je 9, takže 9/60 plus rozdíl 10, kvadrát je 100, lomeno 30 je +100/30 To se rovná, použiji kalkulátor. 100/20+36/20+16/30+25/40+9/60+100/30. Výsledek je 11,44. Toto je 11,44. Je to statistika chí-kvadrát, nebo X2. Občas to uvidíte psáno jako chí-kvadrát, ale toto je přibližné. Tato statistika má přibližně chí rozdělení. Takže, řekněme, že se jedná o rozdělení chí-kvadrát. Jaká je pravděpodobnost, že získám takto extrémní výsledek? Neboli, Je to víc extrémní výsledek, než kritická hodnota chí-kvadrát, že je 5% šance získat takto extrémní výsledek? Takže se na to podíváme, zjistíme kritickou hodnotu chí-kvadrát. A pokud je extrémnější, zamítneme nulovou hypotézu. Takže zjistíme kritickou hodnotu chí-kvadrát. To je alfa 5 %. A ještě musíme zjistit stupně volnosti. Děláme celkem 6 součtů. Takže byste mohli čekat, že počet volností je 6. Ale pokud bychom měli všechny tyto informace, zjistili bychom tuto poslední část. Takže máme jen 5 stupňů volnosti. Pokud máte n podobných datových bodů, měříte pozorované proti očekávaným hodnotám, počet stupňů volnosti bude n-1, protože můžete zjistit n-tý datový bod ze zbytku informací. Takže náš počet stupňů volnosti bude 5, n-1. Hladina významnosti je 5 %, a počet stupňů volnosti je 5. Podíváme se na rozdělení chí-kvadrát. 5 stupňů volnosti, hladina významnosti 5 %. Kritická hodnota chí-kvadrát je 11,07. Máme rozdělení chí-kvadrát s 5 stupni volnosti. Rozdělení je purpurovou. Kritická hodnota je 11,07. Není tu ani vidět. Budeme-li pokračovat purpurovou, máme 8. Tady. Zde je 10, zde máme 12. 11,07 bude někde zde. Takže pravděpodobnost, že získáme výsledek alespoň 11,07 je 5 %. Naše kritická hodnota chí-kvadrát je rovna 11,07. Pro kontrolu. 11,07. Výsledek, který jsme spočítali, má ještě menší pravděpodobnost. Pravděpodobnost je nižší, než úroveň významnosti. Takže zamítáme. Pravděpodobnost, že budeme mít 11,44 je víc extrémní, než kritická hodnota chí-kvadrát. Takže je nepravděpodobné, že toto rozdělení je pravdivé. Odmítneme tvrzení majitele, odmítneme toto rozdělení. Není to dobrá aproximace na naší hladině statistické významnosti.
0:00
11:48