Popisná statistika (9/17) · 9:44
Nestranný odhad rozptylu Zopakování pojmů populační a výběrový průměr a populační a výběrový rozptyl. Vysvětlení, proč při výpočtu nevychýleného odhadu populačního rozptylu dělíme hodnotou n-1.
Navazuje na
Pravděpodobnostní rozdělení.
V tomhle videu bych chtěl zopakovat to, o čem jsme už mluvili. A rád bych, abyste si udělali představu o tom, proč dělíme (n - 1), pokud chceme, aby byl spočítaný výběrový průměr nestranným odhadem populačního průměru. Tak se zamysleme nad populací. Řekněme, že tohle je populace. Její velikost označme velkým N. A také máme k dispozici výběr z této populace. Počet pozorování v tomto výběru označíme malým n. Připomeňme si všechny parametry a statistiky, které zatím známe. Nejprve jsme se zabývali průměrem. Pokud chceme spočítat průměr populace, půjde o parametr nebo statistiku? Když se snažíme spočítat průměr celé populace, počítáme parametr. Takže to zapíšu. Takže pro naši populaci to bude parametr. A když zkoušíme něco spočítat jen z výběru, nazýváme to statistikou. Takže jak zjistíme průměr z populace? Především je třeba říct, že ho značíme řeckým písmenem mí. Vezmeme zkrátka každé pozorování v naší populaci a všechny tyto hodnoty sečteme. Začneme s prvním pozorováním a pokračujeme až k N-tému pozorování. Přičítáme hodnotu každého pozorování. Takže tohle je i-té pozorování. To máme x1 plus x2 ... až po xN. A pak vydělíme výsledek celkovým počtem pozorování, které máme. A jak spočítáme výběrový průměr? Uděláme vlastně něco podobného jako v populaci, ale pracujeme s výběrem. Výběrový průměr značíme X s čarou. Vezmeme hodnotu každého pozorování ve výběru, od prvního až po n-té. A všechny hodnoty sečteme. Součet všech hodnot ve výběru vydělíme počtem pozorování, která máme. Rozptyl je další věc, kterou v populaci počítáme, takže další parametr. Pak jej spočítáme i ve výběru a uděláme odhad pro celou populaci. Takže rozptyl. Rozptyl je měřítkem variability, toho, jak moc jsou data rozptýlena okolo průměru. Napíšeme sem: rozptyl. Jak značíme a počítáme populační rozptyl? Populační rozptyl značíme písmenem sigma na druhou. A rovná se součtu čtvercových vzdáleností od populačního průměru. Děláme to následovně. Vezmeme jednotlivé hodnoty, od i = 1 po i = N. Vezmeme každou z těchto hodnot, odečteme od ní populační průměr, takže pokud počítáme rozptyl, potřebujeme spočítat průměr. Tohle je jeden způsob, jak na to jít. Existují i jiné způsoby, jak to udělat, pomocí nichž to počítáte všechno zároveň, ale nejjednodušší způsob je spočítat si průměr jako první a pak vzít jednotlivé hodnoty, odečíst od nich průměr, tento rozdíl umocnit na druhou a pak součet vydělit celkovým počtem pozorování. Teď přichází to zajímavé. Výběrový průměr. Existuje několik způsobů, jak spočítat výběrový rozptyl. Jednou možností je spočítat vychýlený výběrový rozptyl. To je takový odhad populačního rozptylu, který není nestranný. Obvykle se značí 's' na druhou s dolním indexem n. A co to je vychýlený odhad? Jak ho spočítáme? Spočítali bychom ho stejně, jako jsme to udělali tady. Ale místo populace bychom použili data ve výběru. Takže použijeme všechna pozorování ve výběru, máme jich n. Od každého odečteme výběrový průměr, rozdíl umocníme a pak to vydělíme počtem pozorování. Ale v minulém videu jsme mluvili o tom, jak najít nejlepší nevychýlený odhad populačního rozptylu. Chceme najít nevychýlený odhad populačního rozptylu. V minulém videu jsme mluvili o tom, že pokud chceme najít nevychýlený odhad... a chtěl bych, abyste si udělali představu o tom, proč to děláme takto... pak musíme vzít všechna pozorování ve výběru, od jednotlivých pozorování odečteme výběrový průměr, rozdíl umocníme, ale výsledný součet nebudeme dělit počtem pozorování 'n', nýbrž 'n mínus 1'. Dělíme menším číslem, a když dělíme menším číslem, bude výsledná hodnota větší. Takže tohle bude větší. A tohle bude menší. A tato větší hodnota se nazývá nevychýlený odhad, zatímco tohle je vychýlený odhad. Pokud lidé napíšou jen tohle, když mluví o výběrovém rozptylu, je dobré objasnit, který mají na mysli. Ale bez dalších informací se můžeme domnívat, že mají na mysli nevychýlený odhad rozptylu. Takže pravděpodobně dělili 'n mínus 1'. Ale zamysleme se nyní nad tím, proč je tento odhad vychýlený a proč chceme používat spíše tento, tuhle větší hodnotu. Možná někdy budeme mít program nebo něco, co nás ujistí, že při dělení 'n-1' dostaneme nejlepší odhad skutečného populačního průměru. Představme si všechna data v populaci. Zakreslím je na číselnou osu. Všechna data v populaci zakreslím na číselnou osu. Tohle je jedno pozorování, tohle je další, tady další, další... mohl bych nakreslit tolik pozorování, kolik bych chtěl. Tohle jsou prostě hodnoty pozorování na číselné ose. Teď z toho udělám výběr. Tohle je celá má populace. Máme jich tu 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14. Takže velké N se rovná kolik? Velké N je rovno 14. Teď z toho udělám výběr o velikosti třeba 3. Malé n je tedy 3. Mohl bych... ještě než se nad tím zamyslíme, popřemýšlejme, kolik by asi byl průměr této populace. Nebudu to počítat přesně, zdá se, že průměr by mohl být někde tady. Tohle je skutečný populační průměr, tento parametr bude někde tady. Co se stane, když uděláme výběr? Udělám jen velmi malý výběr, jen abyste si udělali představu, ale totéž by platilo při jakékoli velikosti výběru. Takže máme výběr velikosti 3. Je možné, že když uděláme výběr o velikosti 3, dostaneme takový výběr, jehož průměr bude blízký populačnímu průměru. Například pokud vybereme tento bod, tento bod a tento bod, dokázal bych představit, že výběrový průměr bude blízko populačnímu průměru. Ale je taky možné, že když udělám výběr, pak vyberu tuto hodnotu, tuto a tuto. Důležité je, že výběrový průměr vždycky ležet někde mezi hodnotami daného výběru. Je tedy možné, že skutečný průměr by mohl být úplně mimo tento výběr a v téhle situaci - jen ať si uděláte představu - by byl výběrový průměr někde tady. Takže kdybyste počítali vzdálenost každého z těchto bodů od výběrového průměru, to znamená tuto vzdálenost, tuto vzdálenost a tuto vzdálenost, umocnili to a vydělili počtem pozorování ve výběru, tak dostanete mnohem nižší odhad, než kolik činí skutečný rozptyl vzhledem ke skutečnému populačnímu průměru. Tyhle hodnoty jsou mnohem, mnohem dál od průměru. Skutečný populační průměr nebude vždy úplně mimo váš výběr, ale stát se to může. Takže obecně, představme si, že vezmeme tato pozorování ve výběru a najdeme druhé mocniny jejich vzdáleností od výběrového průměru. Výběrový průměr bude vždy ležet někde mezi hodnotami ve výběru. a to i kdyby byl populační průměr úplně mimo. Nebo by mohl být někde na kraji. Každopádně v tom případě je pravděpodobné, že bychom podhodnotili skutečný populační rozptyl. Tohle by byl podhodnocený odhad. Ale ukázalo se, že pokud místo 'n' dělíme raději 'n mínus 1', tak dostaneme o něco větší výběrový rozptyl, a tento výběrový rozptyl je nevychýleným odhadem. V dalším videu bych rád vytvořil počítačový program, díky kterému se budete moct přesvědčit, že tohle je lepší odhad populačního průměru než toto.
0:00
9:44