Statistická indukce
Statistická indukce (16/20) · 9:04

Test hypotézy pro malé výběry Jak udělat jednostranný test v případě, kdy máme k dispozici jen malý výběr.

Navazuje na Popisná statistika.
- Průměrné množství emisí motorů nové konstrukce musí být nižší než 20 částic na milion, aby tyto motory splnily nové normy. Pro testovací účely je vyrobeno 10 motorů a množství emisí každého z nich je dána zde. Tady jsou hodnoty emisí. Dali nám 10 hodnot pro 10 motorů, a já jsem si už předem spočítal jejich průměr. Výběrový průměr je 17,17 A směrodatná odchylka těchto 10 hodnot je 2,98, to je výběrová směrodatná odchylka. Můžeme na základě těchto údajů učinit závěr, že tyto typy motorů splňují nové emisní normy? Jsme ochotni riskovat chybu 1. druhu s pravděpodobností 0,01. K tomu se dostaneme za minutku. Předtím než začneme, definujeme si naši nulovou hypotézu a naši alternativní hypotézu. Nulová hypotéza je, že motory nesplňují emisní normy. Že třeba jen o něco málo nesplňujeme normy. Že střední hodnota emisí nových motorů je přesně 20 na milion. Chceme najít nejnižší možnou hodnotu, která stále nesplňuje požadovanou normu. A pak naše alternativní hypotéza říká, že splňujeme normu. Říká, že skutečný průměr hodnoty emisí našich motorů je nižší než 20 na milión. A nyní budeme předpokládat, že toto je pravda. - Pokud předpokládáme, že je to pravda, a pokud pravděpodobnost získání výběrového průměru 17,17 je méně než 1%, pak zamítneme nulovou hypotézu. Takže zamítneme naši nulovou hypotézu v případě, že pravděpodobnost získání výběrového průměru 17,17, je-li nulová hypotéza pravdivá, je menší než 1% . Všimněte si, jestliže to uděláme takhle, bude pravděpodobnost chyby 1. druhu menší než 1 %. Chyba 1. druhu znamená, že zamítáme nulovou hypotézu, i když je ve skutečnosti pravdivá. Konkrétně zde je jen 1 % pravděpodobnosti, nebo méně než 1 % pravděpodobnosti, že nulovou hypotézu zamítneme, i když je pravdivá. Dále se musíme zamyslet nad typem rozdělení. První věc, která mě napadne, je, že máme pouze 10 vzorků. Máme malý výběr. Takže budeme používat T-rozdělení a T-statistiku. Pojďme na to takhle. Můžeme spočítat T-statistiku z těchto hodnot zde. T - statistika je 17.17, což je náš výběrový průměr, mínus předpokládaná populace, tedy mínus 20 částic na milion, děleno výběrovou směrodatnou odchylkou, čili 2,98. Takhle spočítáme t-statistiku. Nyní vidíme , že T-rozdělení je vlastně jakási upravená verze normálního rozdělení, kde používáme T-statistiku. 2.98 dělená odmocninou z velikosti výběru. Máme výběr o velikosti 10, dělíme tedy odmocninou z 10. Takže tato hodnota tady... Vytáhnu si kalkulačku, abych to dopočítal. Tak to bude 17,17 mínus 20, uzavřít závorku, děleno 2,98 děleno... to není to, co jsem chtěl. Smažu to. Ještě jednou. Vydělíme druhou odmocninou z 10 , a pak uzavřeme závorky. Je to skoro přesně mínus 3. Naše T-statistika je téměř přesně mínus 3. Protože T-statistika má T-rozdělení , potřebujeme zjistit, jestli pravděpodobnost, že dostaneme hodnotu rovnou nebo menší než těchto -3, je menší než 1 %. Takže jak na to. Máme T-rozdělení. - Máme normované T-rozdělení. Všechny T-statistiky mají normované T-rozdělení. Tohle je střední hodnota T-rozdělení. Někde tady bude nějaká kritická hodnota T-rozdělení. Tak tohle je naše kritická T-hodnota Není to asi snadné přečíst. To je nějaká kritická T-hodnota - právě tady. A chceme takovou T-hodnotu, aby pravděpodobnost, že dostaneme nějakou ještě menší hodnotu, byla méně než 1 %. - Celá žlutá oblast odpovídá 1 %. Musíme přijít na to, jaká je tato T-hodnota. A to pro T-rozdělení, které má 10 mínus 1, čili 9 stupňů volnosti . Takže co je kritická hodnota tady? A všimněte si, že to je jednostranné rozdělení. Staráme se o toto 1 %, a zde všechny tyto věci budou 99 %. A ve většině T-tabulek nenajdeme záporné hodnoty. Ale můžeme najít odpovídající kladné hodnoty na opačné straně. Takže teď budeme používat tuto tabulku T-rozdělení. A v ní máme pouze kladné hodnoty T-rozdělení, prahové hodnoty . V ní bude pravděpodobnost, že získáme hodnotu vyšší než je kritická hodnota, rovna 1 %, a pravděpodobnost získání nižší než kritické hodnoty bude rovna 99 %. A jak vidíme, T-rozdělení je symetrické kolem střední, hodnoty, takže jakákoliv hodnota to je, kdyby tohle bylo třeba 2, tak tohle bude prostě mínus 2. Takže na to jen musíme myslet. Pomocí T-tabulek najdeme tuhle hodnotu. Pojďme zjistit, pro jakou T-hodnotu platí, že pravděpodobnost získání nižší než této hodnoty je 99 %. Ještě jednou, toto je jednostranná hypotéza. Pojďme se na to podívat. Takže jednostranná hypotéza... tohle je přímo z Wikipedie, chceme, aby kumulativní distribuční funkce pod touto T-hodnotou byla 99 %. Máme to právě tady, zde 99%. Máme 9 stupňů volnosti. Máme 10 hodnot, 10 mínus 1 je 9. To je 9 stupňů volnosti. Takže naše kritická hodnota zde je 2,821, a v našem případě, kdy máme symetrické rozdělení, to jen překlopíme, takže dostaneme hodnotu -2,821. Takže pravděpodobnost získání ještě nižší hodnoty než -2,821 je rovna 1 %. A tady máme hodnotu, která je ještě o kus níže. Máme T-hodnotu rovnou mínus 3. Takže naše T-statistika je rovna mínus 3. Máme ji tady. Takže tohle určitě zamítneme. Mohl bych říct, že je to v oblasti zamítnutí. To je ještě méně pravděpodobné, než 1%. Dalo by se na to přijít i tak, že pravděpodobnost získání T-statistiky menší než mínus 3 je ještě méně než 1 %. Je to jen část naší žluté oblasti. Protože pravděpodobnost získání T-statistiky, kterou jsme spočítali, je méně než 1%, můžeme bezpečně zamítnout nulovou hypotézu a cítím se docela dobře, že naše alternativní hypotéza splňuje emisní normy. A my víme, že máme méně než 1% pravděpodobnost, že jsme udělali chybu prvního druhu.
video