Statistická indukce (6/20) · 10:52
Rozdělení výběrového průměru Centrální limitní věta a výběrové rozdělení výběrového průměru
Navazuje na
Popisná statistika.
... V minulém videu jsme se dozvěděli o nejspíš nejdůležitější myšlence statistiky. A to o centrální limitní větě. A důvod, proč je tak důležitá, je že můžeme vyjít z jakéhokoil rozložení s určitým průměrem a rozptylem. Tohle jsem si vytvořil. Tady jsem minule napsal směrodatná odchylka. Ale měl by to být průměr. A řekněme, že tu máme nějaký rozptyl. Můžeme to napsat takto. Nebo sem můžeme napsat směrodatná odchylka,. Ale jakmile máme definovaný průměr a směrodatnou odchylku, nezajímá nás, jak rozdělení vypadá. Můžeme totiž dělat výběry například velikosti 4. Takže to znamená, že čtyřikrát vybereme náhodnou veličinu z tohoto rozložení. Tohle je jeden příklad. A pak je zprůměrujeme. A zaznamenáme si výběrový průměr v tomto prvním případě. Nebo spíš bych řekl v tomto prvním výběru. Vím, že teď je to trochu matoucí, protože můžete jako výběr považovat všechny tyto čtyři hodnoty, nebo můžete za výběr považovat každou z nich. Každou hodnotu z této množiny. Takže tohle nás může trochu mást. Ale řekněme, že máme tento první výběrový průměr. A budu totéž dělat pořád dokola. Ve druhém výběru máme opět 4 hodnoty. Vybral jsem 4 náhodné veličiny z tohoto rozdělení. Zprůměrujeme je. A získáme další výběrový průměr. A skvělá věc ohledně centrální limitní věty je, že když budeme kreslit četnost výběrových průměrů, začne se to postupně blížit normálnímu rozdělení. A čím bude n větší, tím blíže normálnímu rozdělení se dostaneme. A teď trošku terminologie. Tohle rozdělení četností, které jsem tu nakreslil, tady nebo tady, které jsem začal kreslit, tomu se říká... je to opět trochu matoucí, protože používáme stále slovo "výběr." Ale říká se tomu výběrové rozdělení výběrového průměru. Podívejme se na to trochu podrobněji. Aby tenhle dlouhý popis tohoto rozdělení začal dávat trochu smysl. Když řekneme, že se jedná o výběrové rozdělení, znamená to, že bylo odvozeno z rozdělení nějaké statistiky, v tomto případě z výběrového průměru. A tuto statistiku získáme z výběrů z nějakého původního rozdělení. Takže každý z těchto... tohle je můj první výběr. Můj výběr velikosti 4. Pak spočítám výběrový průměr. Nemusel by to být nutně průměr. Mohli bychom spočítat modus nebo rozpětí nebo něco jiného. Ale výběrové rozdělení výběrového průměru je to nejběžnější. Nejlépe se na tom naučíme o centrální limitní větě. A o výběrovém rozdělení. Takže tak se tomu říká. Ještě to trochu upřesním. Dokážu toto experimentálně, ne matematicky. Myslím si ale, že v některých případech je to lepší způsob. Takže tohle bude mít stejný průměr jako naše původní rozdělení. Má nějaký průměr. Ale jak uvidíme v dalším videu, tohle se bude blížit normálnímu rozdělení. Ačkoli mé původní rozdělení nebylo zdaleka normální rozdělení. Takže ukážeme si ještě příklad. A jen pro pořádek, tohle bylo vyvinuto na univerzitě Rice. Tohle je z onlinestatbook.com. A tohle je jejich aplikace, opravdu skvělá, protože názorně ukazuje, co to je výběrové rozdělení výběrového průměru. Můžu si tady skutečně vytvořit své vlastní rozdělení. Vymyslím si něco bláznivého. Můžeme to udělat s diskrétním rozdělením nebo se spojitou hustotou pravděpodobnosti Co tady mají může nabývat jedné z 32 hodnot. Nastavím různou pravděpodobnost, že vyberu jednu z těchto 32 hodnot. Tohle očividně není normální rozdělení. Vypadá, že to má dva mody. Co chci ale udělat, je použít simulaci, abychom lépe pochopili, o čem výběrové rozdělení vlastně je. Takže co udělám. Začneme s výběrem velikosti 5. Velikost mého výběru bude 5. A když kliknu na animaci, vybere se 5 hodnot z tohoto pravděpodobnostního rozdělení. Vybere se 5 hodnot a uvidíte to, až kliknu na animaci. Zprůměruji je a zakreslím si průměr sem dolů. A pak na to opět kliknu. A udělá se to znovu. Tak jdeme na to. Mám tady výběr o velikosti 5. Zprůměroval jsem tyto hodnoty. A zakreslilo se to sem. Co jsem právě udělal? Kliknul jsem... aha. Chtěl jsem tohle smazat. Tady to smažu... udělám to ještě jednou. Takže vyberu pět hodnot. Mám výběr o velikosti 5 z tohoto rozdělení. A pak je zprůměruji. A zakreslím průměr sem. Udělám to znovu. Pět hodnot z tohoto rozdělení. Zakresleno sem. Tohle bych mohl dělat stále dokola, trvalo by to, jak vidíte, zakreslil jsem to sem. Tohle bych mohl udělat tisíckrát. To by trvalo celou věčnost. Řekněme, že bych to chtěl udělat tisíckrát. Co tenhle program vlastně dělá, je, že generuje náhodná čísla. Není to žádný podvodný program. Generuje to náhodná čísla v souladu s touto pravděpodobnostní funkcí. Takže to vybere pět hodnot a zakreslí jejich průměr. Když kliknu na 10 000, udělá se to 10 000 krát. Takže vezme 5 hodnot z tohoto rozdělení 10 000 krát. A najde jejich průměr 10 000 krát. A pak ten průměr zakreslí sem, 10 000 krát. Takže to udělejme. Tak, hotovo. Všimněte si, že už to vypadá dost jako normální rozdělení. A jak jsem řekl, původní průměr mého bláznivého rozdělení byl 14,45. A průměr tohoto, poté, co jsem udělal 10 000 výběrů, je 14,42. Takže už se blížím tomuhle průměru. Moje směrodatná odchylka je ale menší. O tom se budeme bavit v dalším videu. Stejně jako o šikmosti a špičatosti. Tohle nám vše pomáhá měřit, jak normální nějaké rozdělení je. Už jsem to zmiňoval dříve. Teď trochu odbočím. Jen pro zajímavost. Jsou to dost jasné věci. Šikmost nám říká... použiju jinou barvu. Pokud by toto bylo perfektní normální rozdělení, což můj náčrtek zcela jistě nesplňuje, ale kdyby to tak bylo, tohle by mělo sešikmení 0. Pokud máme kladnou šikmost, to znamená, že pravý ocas je delší. Pokud je něco kladně sešikmené, může to vypadat nějak takto. Takže tady napravo by to to mělo delší ocas. Tohle by byla kladná šikmost, takže už nemáme normální rozdělení. A záporná šikmost by vypadala nějak takto, měli bychom dlouhý ocas nalevo. Takže záporná šikmost vypadá nějak takto. Tohle je záporná šikmost. Pokud Vám dělá potíže si zapamatovat, co je co, tak tenhle ocas jde v záporném směru, k záporným číslům. Tenhle ocas jde v kladném směru. Takže pokud něco sešikmené není, znamená to, že je to symetrické okolo průměru. Tak a špičatost, což zní trochu legračně, až tak legrační pojem není. Špičatost. Ještě jednou, kdybych nakreslil perfektní normální rozdělení, a nezapomeňte, že normální rozdělení není jen jedno jediné, může mít různý průměr a směrodatnou odchylku. Ale řekněme, že máme perfektní normální rozdělení. A pokud mám kladnou špičatost, budu mít širší ocasy. Nakreslím to trochu lépe. Budu mít širší ocasy, ale větší špičku. Nemusel jsem to kreslit tak špičaté. Nakreslím to takto. Budu mít širší ocasy a výraznější špičku. Takže tohle je kladná špičatost. Něco, co má kladnou špičatost, je více špičaté než skutečné normální rozdělení. Kladná špičatost. A záporná špičatost znamená, že máme užší ocasy, ale uprostřed je to placatější. Asi takto. Něco takového by mělo zápornou špičatost. Možná v dalších videích to prozkoumáme trochu více. Ale v kontextu naší simulace nám to říká, jak normální je nějaké rozdělení. Když náš výběr byl velikosti 5 a udělali jsme 10 000 výběrů, tak se dostaneme blízko k normálnímu rozdělení. Udělejme dalších 10 000 výběrů, uvidíme, co se stane. Vypadá to ještě více jako normální rozdělení. Náš výběrový průměr je nyní přesně stejné číslo. Ale stále je zde trochu šikmost a špičatost. Podívejme se, co se stane, uděláme-li totéž s většími výběry. Mohli bychom to udělat zároveň. Takže tady byla velikost výběru 5. Udělejme teď výběry o velikosti 25. Vymažu to tady. Udělám výběrové rozdělení výběrového průměru. Opět udělám 10 000 výběrů. Jeden pro ukázku. Vezmu první 5 hodnot odsud, najdu jejich průměr. Teď ale místo pěti vezmu 25 hodnot. Najdu jejich průměr. A nakreslím ho sem. Takže velikost výběru je 25. Tady to bylo 5. Udělám to ještě jednou. Vezmu 5 hodnot, zprůměruju je, zakreslím průměr. Vezmu 25 hodnot, zprůměruju je a zakreslím průměr sem. Tohle je větší výběr. Totéž udělám 10 000 krát. A tohle je zajímavé. Pamatujme si, že naše původní rozdělení bylo tohle bláznivé, zdaleka ne normální rozdělení. Ale jakmile jsme toto provedli... šup. Nechci to tak velké. Jakmile jsme... trochu nahoru. Tady to je, to je zajímavé. V obou případech to vypadá jako normální rozdělení. Ale podíváme-li se na šikmost a špičatost, když je velikost výběru větší, blíží se to více normálnímu rozdělení. Má to menší šikmost než v případě výběru o velikosti 5. A nemá to tak moc zápornou špičatost proti výběru o velikosti 5. Takže tohle se více blíží normálnímu rozdělení. A co prozkoumáme v budoucnosti více, je, že se to nejen více blíží normálnímu rozdělení, ale také to má hodnoty těsněji kolem průměru. Když se nad tím zamyslíte, dává to smysl. Jakmile máme větší výběry, pravděpodobnost, že se dostaneme opravdu daleko od průměru, je menší. Protože je velmi nepravděpodobné, že vezmeme 25 hodnot nebo 100 hodnot a dostaneme všechny hodnoty odsud či odsud. Nejspíš budou docela rovnoměrně rozdělené. Takže to dává smysl, že výběrový průměr bude blíže u skutečného. O tom se budeme podrobněji bavit později. Ale snad jste spokojení, že jsme si to ukázali aspoň na tomto pokusu. Nedokázal jsem to matematicky, což uděláme snad později. Ale aspoň takto experimentálně. Vidíme, že centrální limitní věta je použitelná pro každé rozdělení. Tohle je bláznivé rozdělení. Zkuste si to na onlinestatbook.com. Pohrajte si s jinými rozděleními, abyste tomu uvěřili. Co je zajímavé, je, že když zvětšujeme velikost výběru, blížíme se čím dál více normálnímu rozdělení. -
0:00
10:52