Popisná statistika
Popisná statistika (8/17) · 10:38

Výběrový rozptyl Ukážeme si, jak odhadnout populační rozptyl za pomoci dat z výběru.

Navazuje na Pravděpodobnostní rozdělení.
Řekněme, že se zajímáte o to, jak lidé sledují televizi. Konkrétně kolik času lidé stráví sledováním televize. Představte si nějakou zemi, ... ať už to budou Spojené Státy, nebo jakákoliv jiná země s vysokou populací. V USA žije zhruba 300 milionů lidí. Ideální by bylo, kdyby se vám nějakým zázrakem podařilo sledovat všech 300 milionů lidí a zaznamenat si, kolik času stráví sledováním televize v určitý den. Z toho byste získali střední hodnotu doby sledování. (Pozn.: písmeno "mí") Už jsme si říkali, že v takovémto případě je tento způsob velmi nepraktický. Ve chvíli kdy by byl průzkum hotový, tak by byly už údaje neaktuální. Někteří lidé mezitím mohli zemřít, jiní se narodit. Kdo ví, co se mohlo stát ... Písmeno "mí" označuje skutečný ale pouze teoretický populační průměr nebo také střední hodnotu počtu hodin, po kterou člověk sleduje v určitý den televizi. V každou chvíli existuje dokonale pravdivá hodnota mí. Jen je vcelku nemožné ji přesně zjistit. Je nemožné zjistit pravdivou hodnotu průměru. Vy se však nemusíte vzdávat. Možná není nutné pozorovat všech 300 milionů lidí. Místo toho stačí pozorovat jen část - výběr. Pro jednoduchost řekněme, že máme výběr 6 lidí. Později si řekneme, proč 6 není tak vysoké číslo, jak bychom ve skutečnosti potřebovali. Budeme sledovat, kolik času našich 6 lidí stráví sledováním televize. Zjistíme, že první člověk sledoval 1,5 hodiny, druhý 2,5 hodiny a třetí 4 hodiny. Další člověk sledoval 2 hodiny a poslední dva lidé sledovali každý 1 hodinu. S pomocí dat z našeho výběru můžeme vypočítat výběrový průměr. Výběrový průměr, který značíme malým 'x' s čárkou nahoře, spočítáme jako součet všech našich pozorování vydělený počtem pozorování. Máme tedy součet 1,5 plus 2,5 plus 4 plus 2 plus 1 plus 1. A to vydělíme 6 a dostaneme ... V čítateli máme 1.5 plus 2.5 je 4, plus 4 je 8, plus 2 je 10, plus 2 je 12. Dostaneme tedy 12/6. To se rovná 2 hodinám u televize. Pro váš výběr můžete říct: Můj výběrový průměr jsou 2 hodiny sledování televize. Jde jen o odhad, který se snaží odhadnout pravdivý parametr mí, který se zjišťuje velmi obtížně. Nic lepšího ale nemáme. Možná bychom dostali lepší výsledky při větším výběru, ale pro teď nám náš výzkum stačí. Odhadnutí populačního průměru ale není náš jediný úkol. Chceme znát i další parametry. Zájímá nás také populační rozptyl. Stále nemůžeme sledovat každého člověka v populaci, takže jeho pravdivou hodnotu těžko zjistíme. Ale pokusíme se populační rozptyl odhadnout, stejně jako jsme se o to pokusili u populačního průměru. Jak rozptyl odhadneme? Rozumné bude udělat s naším výběrem totéž, co bychom udělali s celou populací. Při výpočtu populačního rozptylu spočítáme rozdíl mezi každým jedincem v populaci a populačním průměrem. Tento rozdíl pak umocníme na 2. Druhé mocniny všech rozdílů sečteme a vydělíme počtem pozorování. Zkusme to s naším výběrem. Vezmeme každé z našich pozorování a najdeme rozdíl... mezi pozorováním a výběrovým průměrem. Ne populačním průměrem, který neznáme, ale výběrovým průměrem. Máme rozdíl prvního pozorování plus rozdíl druhého pozorování. Druhá závorka je (4 mínus 2) na druhou. Plus (1 mínus 2) na druhou. A právě toto bychom dělali při výpočtu populačního rozptylu, kdyby našich 6 pozorování byla celá populace. Našli bychom čtverce rozdílů pro každé pozorování a vydělili bychom jejich součet počtem pozorování. Podívejme se na zbytek výpočtu. (1 mínus 2) na druhou, potom (2,5 mínus 2) na druhou. Dál (2,5 mínus 2) kde 2 je stále výběrový průměr. Plus (2 mínus 2) na druhou, plus (1 mínus 2) na druhou. Nakonec vydělíme počtem pozorování. V našem případě tedy dělíme 6. Jaký výsledek dostaneme? (1.5 mínus 2) je -0,5, z čehož umocněním dostaneme 0.25. (4 mínus 2) na druhou je totéž co 2 na druhou, tedy 4. (1 mínus 2) je -1, po umocnění 1. (2.5 mínus 2) je 0,5, po umocnění 0.25. (2 mínus 2) je 0. (1 mínus 2) je -1, po umocnění 1. Nyní sečteme celého čitatele. Začneme s celými čísly. 4 plus 1 je 5, plus 1 je 6. K tomu máme 2 krát 0,25. Dostaneme 6,5 lomeno 6. Mohli bychom si zlomek přepsat několika způsoby nebo výsledek prostě spočítáme na kalkulačce. 6,5 děleno 6 je po zaokrouhlení zhruba 1,08. Výsledek tohoto postupu je tedy zhruba 1,08. Nyní se musíme zamyslet, jestli náš postup dává nejlepší možný odhad populačního rozptylu s tím, jaká máme data. Vždy by se dalo namítnout, že je třeba sehnat více dat. Ale vezmeme-li to, co máme, je toto nejlepší způsob jak odhadnout populační rozptyl? Nechám vám chvilku, abyste se nad tím zamysleli. Ukazuje se, že náš výpočet je blízko idálnímu výpočtu. A někdy se náš odhad bude nazývat výběrovým rozptylem. Dělení čitatele počtem pozorování "n" je ale jen jeden z druhů výběrového rozptylu. Napíšeme tedy "n" jako dolní index k "S". Toto je jedna z definic výběrového rozptylu, tedy našeho pokusu o odhadnutí populačního rozptylu. Nejde ovšem o nejlepší odhad. V některém z dalších videí a časem snad i v počítačové simulaci vám zkusím intuitivně ukázat, proč tomu tak je. V tuto chvíli to může znít trochu jako nesmysl, ale jde udělat i lepší odhad populačního rozptylu. Ten dostaneme, pokud čitatele nevydělíme 6. Místo dělení počtem pozorování budeme dělit číslem o 1 nižší. Označíme si výběrový rozptyl S na druhou. Většinou když mluvíme o výběrovém rozptylu, máme na mysli výpočet, kde hodnotu v čitateli místo 6 vydělíme 5. Dělíme tedy (n-1). Co v takovém případě dostaneme za výsledek? Čitatel zůstane stejný, tedy 6,5. Ale ve jmenovateli budeme tentokrát dělit číslem o 1 menším než "n". Budeme dělit 5. A 6,5 děleno 5 se rovná 1,3. Proč většina lidí používá tento na první pohled divný postup? Proč dělíme "(n-1)", když v případě populačního průměru bychom dělili "n"? Uvědomte si, že se populační rozptyl pokoušíme jen odhadnout. A ukazuje se, že druhý postup dává lepší odhad. Protože první postup skutečnou hodnotu populačního rozptylu podhodnocuje. Druhý postup je lepším odhadem, přestože ani u jednoho moc nevíme, co je vlastně zač. Možná jsou oba úplně mimo, ovlivněné naším výběrem. Pokud bychom ale postupy testovali na velkém počtu různých výběrů, ukázalo by se, že druhý postup je lepší. Poskytne nám lepší odhad. Takže jak bychom náš výpočet zapsali matematicky? Děláme součet, tedy sumu, všech našich pozorování. Začneme od prvního pozorování a půjdeme až k n-tému. Malé "n" značí, že se jedná jen o výběr. Velké "N" by zpravdila znamenalo, že se zabýváme celou populací. My ovšem sledujeme jen výběr velikosti malé n. Podíváme se na každé pozorování "x s indexem i". Od něj vždy odečteme výběrový rozptyl. Jejich rozdíl pak umocníme na druhou. V čitateli tedy máme sumu čtverců rozdílů. Tu vydělíme nikoli počtem pozorování, ale číslem o 1 menší. Sumu tedy dělíme 5 a ne 6. Toto je standardní definice výběrového rozptylu. To bude pro tuto chvíli všechno a příště se vám pokusím intuitivně vysvětlit, proč dělíme (n-1), ... místo abychom dělili n.
video