Statistická indukce
Statistická indukce (12/20) · 11:26

Testování hypotéz a P-hodnota Hypothesis testing and P-Values

Navazuje na Popisná statistika.
Neurolog testuje efekt léku na reakční čas tím, ... že podá každé ze 100 krys dávku léku, pošle podnět do jejího mozku a... změří její reakční čas. Neurolog ví, že průměrná doba reakce krysy, které... nebyl lék podán, je 1,2 vteřiny. Průměrná reakční doba 100 krys, kterým byl lék podán, je 1,05 vteřiny... se směrodatnou odchylkou vzorku o velikosti 0,5 vteřiny. Myslíte, že ten lék má nějaký efekt na reakční čas? Abychom to zjistili, tak stanovíme dvě hypotézy. První hypotéza, kterou si stanovíme,... ...budeme jí říkat nulová hypotéza, je, že... lék nemá žádný efekt na reakční čas. Nulová hypotéza vždycky reprezentuje - resp. můžete jí brát jako - současnou situaci - status quo. Předpokládáme, že to, co sledujeme, nemá žádný vliv. Lék nemá žádný efekt. Dalším způsobem, jak se o tom dá přemýšlet, je, že průměrná hodnota... pro krysy, které dostaly lék, se nezmění, tedy... napíšu to takhle -- bude 1,2 vetřiny... i s podaným lékem. Co tím tedy říkám je, že to nemá žádný vliv, neboť... víme, že když lék krysám nepodáme, tak... čas je také 1,2 vteřiny. Co teď tedy potřebujeme, je alternativní hypotéza. Ta hypotéza zní "Ne, myslíme si... že ten lék něco dělá." Takže alternativní hypotéza, jak jí píšu sem, je, že lék něco dělá, má nějaký vliv. Nebo, jinak řečeno, když byl lék podán, tak se... průměrná hodnota nerovná 1,2 vteřiny. Jak to zjistit? Jak víme, jeslti máme přijmout alternativní hypotézu... anebo jestli máme zůstat u... nulové hypotézy, neboť data nejsou přesvědčivá? Způsob, jakým tohle budeme dělat v tomto videu, je... to, jak se to dělá ve všech vědních oborech, a to... že si řekneme "Fajn, dělejeme, že nulová hypotéza platí"... kdyby nulová hypotéza tedy platila, jaká je pravděpodobnost... že bychom dostali z našeho vzorku ty výsledky, které jsme dostali? Pokud je pak ta pravděpodobnost velice velice malá, tak pak... se můžeme domnívat, že nulová hypotéza asi pravdivá není. Pak bychom asi nulovou hypotézu mohli odmítnout a řekli bychom... prima, myslíme si, že asi bude spíš platit alternativní hypotéza. Zamysleme se nad tím. Předpokládejme, že nulová hypotéza je pravda. Takže, pokud předpokládáme, že nulová hypotéza je pravda,... ...pojďme spočítat pravděpodobnost, že bychom opravdu... dostali tento výsledek, že bychom opravdu dostali průměr vzorku 1,05 vteřiny se směrodatnou odchylkou o velikosti 0,5 vteřiny. Takže já chci vědět, jestli když předpokládáme, že nulová hypotéza je pravdivá,... tak chceme vymyslet pravděpodobnost -- a co přesně... budeme dělat, je nejen že spočítáme... pravděpodobnost toho, co jsme dostali, ale pravděpodobnost... toho, co jsme dostali, nebo něčeho ještě extrémnějšího. Takže jak pravděpodobná je taková událost? Abychom o něčem takovém mohli přemýšlet, tak zvažme... ...nejdřív rozdělení, která data mají, pokud předpokládáme nulovou hypotézu. Takže výběrové rozdělní (pravděpodobnostní rozdělení vzorku) vypadá takto. Bude to normální rozdělení. Máme tu dobrou velikost vzorku, máme... vzorek velikosti 100. Takže toto je naše výběrové rozdělení. Bude mít průměr. Pokud předpokládáme nulovou hypotézu, že lék... nemá žádný efekt, tak průměr výběrového rozdělení vzorku... bude totéž jako průměr pravděpodobnostního rozdělení populace,... které se rovná 1,2 vteřiny. Tak, co je směrodatná odchylka v našem... výběrovém rozdělení? Výběrová odchylka našeho výběrového rozdělení by měla... být rovna směrodatné odchylce v populaci dělenou druhou odmocninou velikosti našeho vzorku, ... tj. v našem případě dělenou druhou odmocninou ze 100. Nevíme, kolik je směrodatná odchylka... celé populace. Co my tedy uděláme je, že jí odhadneme naší... směrodatnou odchylkou vzorku. To dává smysl, obzvláště proto, že... máme dobrou velikost vzorku. Velikost vzorku je větší než 100. Takže tohle by měl být docela dobrý odhad. Tohle bude docela dobrý odhad pro ten výraz tady. Můžeme říct, že tohle bude zhruba... stejné jako směrodatná odchylka našeho vzorku dělená... druhou odmocninou ze sta, což se rovná... 0,5 vteřiny, což je naše směrodatná odchylka vzorku, a... my to chceme vydělit druhou odmocninou ze 100, což je 10. 0,5 děleno 10 je 0,05. Směrodatná odchylka našeho výběrového rozdělení bude... - a dáme nad to čáru, což značí, že... se jedná o odhad - odhadli jsme standardní odchylku populace... standardní odchylkou vzorku. Takže se to bude rovnat 0,5 děleno 10. 0,05. Jaká je pravděpodobnost - zamyslíme se... nad tím takhle. Jaká je pravděpodobnost, že nám vyšlo 1,05 vteřiny? Dalším způsobem, jak na to nahlížet, je ptát se kolik... směrodatných odchylek od středu je těch 1,05 vteřiny a jaká je... pravděpodobnost dostání výsledku, který je aspoň tolik... směrodatných odchylek daleko od průměru. Pojďme se podívat na to, kolik směrodatných odchylek... od středu se toto nachází. Jednoduše řečeno, zjišťujeme z-skóre,... z-skóre pro ten výsledek tady. Vyberu si hezkou barvičku - oranžovou jsem ještě nepoužil. Naše z-skóre -- mohli bychom dokonce udělat i z-statistiku -- je odvozeno z těchto ostatních vzorkových statistik. Vzhledem k naší z-statistice, jak daleko jsme od průměru? No, průměr je 1,2. My jsme na 1,05, což odečtu, abychom... měli kladnou hodnotu. Takhle daleko tedy jsme. Když to chceme vědět v počtu směrodatných odchylek, tak to musíme vydělit naším nejlepším odhadem... směrodatné odchylky výběrového rozdělení, což je 0,05. Toto tedy je 0,05 a čemu se to bude rovnat? Tento výsledek tady, 1,05 vteřin. 1,2 minus 1,05 je 0,15. Tohle je tedy 0,15 v čitateli děleno 0,05 ve... jmenovateli, což bude rovno 3. Ten výsledek tady je 3 směrodatné odchylky... od průměru. Namaluji to. Tohle je průměr. Když budu brát 1 směrodatnou odchylky, 2 směrodatné odchylky, 3 směrodatné odchylky... tak to je v kladném směru. Namaluji to... trošku jinak. Tohle nebyla hezko namalované normální rozdělení, ale já na namaluji 1 směrodatnou odchylky, 2 směrodatné odchylky, 3 směrodatné odchylky... v kladném směru. A pak tu jsou 1 směrodatná odchylka, 2 směrodatné odchylky, 3 směrodatné odchylky v... negativním směru. Takže ten výsledek tady, 1,05 vteřin, které jsme dostali... v našem vzorku 100 krys je přímo tady. 3 směrodatné odchylky pod průměrem. Jaká je pravděpodobnost toho, že dostaneme takhle... extrémní výsledek náhodou? A když mluvím o "takto extrémním", tak to může být... výsledek jak méně než toto, tak výsledek takto extrémní... v kladném směru. Více než 3 směrodatné odchylky. Jednoduše řečeno, když přemýšlíme o pravděpodobnosti,... že dostaneme výsledek extrémnější než ten tady, tak přemýšlíme o ploše pod křivkou tady, jak ve směru negativní, tak ve směru pozitivním. Jakou to má pravděpodobnost? No, vycházíme z empirického pravidla, že 99,7% hodnot... se vyskytuje blíže než 3 směrodatné odchylky. Takže ta věc tady -- můžete si jí také vyhledat na Z-tabulce --, ale 3 směrodatné odchylky jsou hezké čisté číslo,... které neuškodí si zapamatovat. Víme, že ta oblast tady, kterou vybarvuji... rudo-oranžově, pokrývá 99,7 %. Co zbývá pro tyto dvě fialové resp. růžové oblasti? No, když tohle je 99,7 %, tak tyhle dvě dohromady... budou 0,3 %. Takže tyhle dvě dohromady jsou 0,3 % -- měl bych to napsat takhle... nebo přesně -- jsou 0,3%. 0,3% Kdybychom to napsali jako desetinné číslo, tak by to bylo... 0,003 oblasti pod křivkou. Takže abychom zodpověděli naši otázku, když předpokládáme, že lék nemá... žádný efekt, tak pravděpodobnost toho, že dostaneme takto nebo více... extrémní vzorek je pouze 0,3%. Méně než 1 ku 300. Takže kdyby nulová hypotéza byla pravdivá, tak je šance pouze 1/300... že dostaneme výsledek... takto či více extrémní. Na základě toho se tedy domnívám, že data... upřednostňují alternativní hypotézu. Tedy odmítnu nulovou hypotézu. Nevím to na 100%. Kdyby ale byla nulová hypotéza pravdivá, tak je šance jen 1/300... že dostanem tohle. Budu tedy věřit alternativní hypotéze. A jen abychom si ujasnili pár z termínu, se kterými... se můžete v statistice či ve studiích setkat,... tak tato hodnota, pravděpodobnost, že dostaneme výsledek... alespoň takto extrémní, předpokládáme-li nulovou hypotézu, tak tomu říkám P-hodnota. Takže tohle je P-hodnota, což znamená prostě... pravděpodobnostní hodnota, P-hodnota tady je 0,003. Existuje tedy velice velice malá pravděpodobnost, že bychom... mohli dostat tento výsledek kdyby nulová hypotéza byla pravdivá, takže... jí odmítneme. Obecně, většina lidí se dohodne,,, na nějaké hranici. Když máme P-hodnota méně než 5%, což znamená šance menší... než 1/20, tak si řekneme fajn,... zamítneme nulovou hypotézu. Šance, že dostaeneme takový výsledek je méně než 1/20. Tady jsme dostali daleko méně než 1/20. Toto tedy velice silně naznačuje, že nulová... hypotéza jen nesprávná, a že lék... určitě nějaký efekt má.
video