Statistická indukce (15/20) · 6:39
Z-statistika a t-statistika Použití Z-statistiky a t-statistiky.
Navazuje na
Popisná statistika.
Chci použít toto video k tomu, abych se ujistil, že intuitivně a tak vůbec rozumíme rozdílu mezi Z-statistikou, trochu mi dělá problém to vyslovit, a t-statistikou. V podstatě to, na co je zaměřená statistická indukce, je zjišťování pravděpodobnosti získání určitého výběrového průměru. Tedy to je to, co jsme dělali, zejména v případě velkých výběrů. Nakreslím tady nějaké výběrové rozdělení. Řekněme, že máme toto výběrové rozdělení výběrového průměru. Obsahuje nějaký očekávaný průměrnou hodnotu a nějakou směrodatnou odchylku. To, co chceme udělat, je zjistit pro jakýkoli výběrový průměr, například si vezměme tento výběrový průměr, chceme tedy zjistit pravděpodobnost, že výsledek bude roven alespoň této hodnotě. Takže buď můžeme zjistit pravděpodobnost, že získáme výsledek menší než tato hodnota, a odečíst jej od 1. Nebo můžeme zjistit, jak velká je tato oblast napravo. Za tímto účelem jsme zjišťovali, kolik směrodatných odchylek od průměru se nachází tato hodnota. Dělali jsme to tak, že jsme vzali náš výběrový průměr, odečetli jsme od něj průměr všech výběrových průměrů, tedy hodnotu, kterou považujeme za skutečný průměr, čili průměr populace, který ale ve skutečnosti neznáme. A pak jsme výsledek vydělili směrodatnou odchylkou výběrového rozdělení. Vydělíme to směrodatnou odchylkou výběrového rozdělení. Tak zjistíme, kolik směrodatných odchylek od průměru leží tento výběrový průměr nad skutečným. Což je tato vzdálenost. Většinou však bohužel neznáme ani tuto směrodatnou odchylku. Normálně ji nemůžeme znát. Centrální limitní věta nám ale říká, že pokud máme dostatečný velký výběr, tak tato směrodatná odchylka bude stejná jako směrodatná odchylka celé naší populace, z níž jsme provedli výběr, vydělená odmocninou z velikosti tohoto výběru. Takže toto může být přepsáno jako výběrový průměr mínus průměr našeho výběrového rozdělení výběrových průměrů, to vše vyděleno podílem směrodatné odchylky populace vydělené odmocninou z velikosti výběru. To je nejlepší postup, jak zjistit, kolik směrodatných odchylek od průměru ve skutečnosti leží tato hodnota. A tohle je, jak jsme si dříve vysvětlili, Z-skóre. Nebo pokud vycházíme z nějaké konrétní hodnoty jako třeba tento výběrový průměr, nazýváme to Z-statistikou. Pak můžeme tuto hodnotu vyhledat v tabulkách, nebo můžeme použít tabulku distribuční funkce normálního rozdělení, abychom určili pravděpodobnost získání větší hodnoty než této. Tím bychom tedy zjistili pravděpodobnost. Jaká je pravděpodobnost nejméně takto extrémního výsledku? Většinou když jsme toto v předchozích videích dělali, neznali jsme ani směrodatnou odchylku populace. Musíme ji nějakým způsobem aproximovat. Říkáme, že Z-skóre nebo Z-statistika bude přibližně... ... napíšu znova čitatel. Toto odhadujeme pomocí výběrové směrodatné odchylky. Použiji jinou barvu. Pomocí výběrové směrodatné odchylky. Což je v pořádku, máme-li výběr o velikosti aspoň 30. Nebo jinak, toto bude normálně rozdělené, jestliže je velikost výběru aspoň 30. I tato aproximace bude přibližně normálně rozdělená. Ale jestliže máme menší výběr než 30, zejména je-li podstatně menší, tento výraz nebude mít normální rozdělení. Přepíšu výraz sem. Výběrový průměr mínus průměr výběrového rozdělení výběrového průměru dělený naší výběrovou směrodatnou odchylkou dělenou odmocninou z velikosti výběru. Právě jsme si řekli, že to je v pořádku při velikosti výběru aspoň 30. Pak bude tato hodnota zde mít přibližně normální rozdělení. Pokud tomu tak není, pokud máme menší výběr, pak bude mít tento výraz t-rozdělení. Uděláme pak totéž, co jsme právě dělali, ale už nemůžeme předpokládat normální rozdělení jako v předchozím případě. Z statistika se vztahuje k normálnímu rozdělení. Zde při t-rozdělení, respektive normalizovaném t-rozdělení, neboť odečítáme průměr. Tedy při t-rozdělení budeme mít také průměr 0. A opět chceme zjistit pravděpodobnost, že získáme hodnotu nejméně takto extrémní. Zjistíme tedy nikoli Z-statistiku, ale t-statistiku, čímž v podstatě získáme představu o oblasti pod křivkou právě tady. Takže snadné pravidlo je následující: počítat se bude v podstatě stejným způsobem. Pokud máme výběr větší než 30, tedy velikost výběru je přes 30, pak bude výběrová směrodatná odchylka dobrým odhadem skutečné populační směrodatné odchylky. A tento výraz bude mít přibližně normální rozdělení. Takže můžeme použít Z-tabulku, abychom zjistili pravděpodobnost, že získáme alespoň takto extrémní hodnotu. Je-li velikost výběru menší, pak tato statistika, tato hodnota, bude mít t-rozdělení. Pak musíme použít tabulky t-rozdělení, abychom zjistili pravděpodobnost hodnoty alespoň takto extrémní. Příklad si ukážeme v jednom z dalších videí. Každopádně doufám, že toto video pomohlo vyjasnit některé Vaše otázky ohledně toho, kdy používat Z-statistiku a kdy t-statistiku.
0:00
6:39