Popisná statistika
Popisná statistika (10/17) · 4:30

Simulace: jak získat nestranný odhad rozptylu Simulace, pomocí které lze ukázat, že nejlepší odhad populačního rozptylu získáme tehdy, pokud při výpočtu dělíme výrazem (n - 1).

Navazuje na Pravděpodobnostní rozdělení.
Mám tu simulaci, kterou vytvořil uživatel Khan Academy s přezdívkou tetf. Asi se to čte Tetef. Je možné si díky ní lépe představit, proč dělíme výrazem (n - 1), když počítáme výběrový rozptyl, a proč díky tomu získáme nestranný odhad populačního rozptylu. Takže jak začít... a můžete si to vyzkoušet... nejdříve si musíme vytvořit nějaké rozdělení. Tady se píše: "Klikáním na tento modrý obdélník vytvořte populaci." Takže tady vytváříme populaci. Pokaždé, když sem kliknu, se populace zvětší. Klikám sem jen tak náhodně. Zkuste si to sami, tuto aplikaci najdete na Khanacademy.org. Vyzkoušejte si to tam sami. Měl bych už někdy přestat. Takže jsem vytvořil populaci. Ještě můžu přidat nějaké body náhodně třeba sem. Tohle je naše populace. Vidíte, že zatímco jsem ji vytvářel, počítaly se tu parametry této populace. Spočítal se populační průměr 204,09. A také populační směrodatná odchylka, kterou lze odvodit z populačního rozptylu. Je to odmocnina z populačního rozptylu a je rovna 63,8. Tady dole se vykreslil graf populačního rozptylu. Vidíte, je tu 63,8, což je směrodatná odchylka. Nejde to moc vidět, ale píše se tu 'na druhou'. Tato čísla jsou umocněna na druhou. Takže 63,8 na druhou je populační rozptyl. To je samo o sobě zajímavé, ale moc nám to neřekne o tom, proč dělíme výrazem (n - 1). Teď přijde ta zajímavá část. Teď můžeme z populace dělat výběry a můžeme se rozhodnout, jak velké. Začneme malými výběry. Začneme nejmenšími možnými výběry, které dávají smysl. Takže začnu opravdu malými výběry. A co se v tomto simulačním programu stane? Pokaždé, když udělám výběr, spočítá se rozptyl. Takže čitatel bude součet hodnot všech pozorování ve výběru, mínus výběrový průměr. To se umocní na druhou. A pak to vydělím výrazem (n + a). Přičemž 'a' se bude měnit. Budeme to dělit všemi výrazy mezi n plus -3, což je (n - 3), až po (n + a). A to uděláme opakovaně. Hodně mockrát. Pak v podstatě pro jednotlivá 'a' zprůměrujeme spočítané rozptyly. A zjistíme, kolik má být 'a', aby byl odhad rozptylu co nejlepší. Vygeneruji tu jen jeden výběr. Vidíme, že je tu taková křivka. Když jsou hodnoty 'a' vysoké, tak rozptyl podhodnocujeme. Když jsou hodnoty 'a' nižší, tak populační rozptyl naopak nadhodnocujeme. Ale tohle byl jen jeden výběr, nemá to moc význam. Navíc jsme to zkusili jen pro výběr jedné velikosti. Vygenerujeme několik výběrů a pak to zprůměrujeme. A když se podíváte na mnoho, mnoho výběrů, zjistíte něco zajímavého. Když se podíváte na průměr těchto výběrů, pokud všechny křivky z jednotlivých výběrů zprůměrujete, zjistíte, že nejlepší odhad rozptylu dostanete tehdy, když je 'a' okolo -1. Když tu máme n plus -1, čili (n - 1). Cokoli menšího než -1 jako například (n - 1,05) nebo (n - 1,5) způsobí, že začneme rozptyl nadhodnocovat. A cokoli menšího než -1, například (n + 0), tedy vlastně jen n, nebo (n + 0,05), prostě cokoli, způsobí, že začneme populační rozptyl nadhodnocovat. A můžete to udělat pro výběr libovolné velikosti. Zkusíme třeba výběr o velikosti 6. Výběry dělám tak, že klikám na 'Generovat výběr'. A zatímco jich generuji víc a víc tak pro jednotlivé hodnoty 'a' počítám průměrný rozptyl pro jednotlivé výběry. Ten závisí na tom, jak jsme jej spočítali. A opět vidíte, že nejlepší odhad získáme při 'a' kolem -1. A kdybyste udělali takových výběrů milion, tak uvidíte, že nejlepší odhad získáte, když 'a' se rovná -1, tedy když dělíte (n - 1). Ještě jednou, poděkujme uživateli jménem Tetéf za tuto aplikaci. Myslím, že je velmi užitečné zamyslet se nad tím, proč dělíme (n - 1).
video