Statistická indukce
Statistická indukce (7/20) · 13:20

Rozdělení výběrového průměru 2 Podrobněji o centrální limitní větě a o rozdělení výběrového průměru

Navazuje na Popisná statistika.
- Doufám, že nyní již máme slušné znalosti týkající se výběrového rozdělení výběrového průměru. V tomto videu bych chtěl trochu více prozkoumat, jak se bude měnit rozdělení, pokud změníme rozsah výběrového souboru "n". Sem napíšu "n". Náš rozsah výběrového souboru "n". Trochu si zopakujeme, co jsme viděli minule a začneme s jakýmkoliv šíleným rozdělením, které může vypadat nějak takto. Udělám diskrétní, nespojité rozdělení. Pokud chcete něco modelovat, musíte to v určitém okamžiku udělat nespojité. Mohlo by to být velmi hroudovité diskrétní rozdělení. Řekněme, že to bude něco šíleného, co vypadá asi takto. To skutečně není normální rozdělení. V prvním videu jsme viděli, že nejprve vybereme soubor o rozsahu, řekněme, 4. Pokud byste vzali 4 čísla z tohoto rozdělení, 4 náhodná čísla, z 1, 2, 3, 4, 5, 6, 7, 8 a 9. Pokud vyberete 4 čísla najednou a zprůměrujete je - udělám to tady - pokud vyberete 4 čísla najednou, řekněme, že jsme použili toto rozdělení, abychom vygenerovali 4 náhodná čísla. Velmi pravděpodobně nám vyjde 9. Určitě nevyjde žádná 7 ani 8. Určitě nevyjde žádná 4. Možná vyjde 1 nebo 2. Velmi pravděpodobně i 3. Velmi pravděpodobně i 5. Využijeme tedy tuto funkci, abychom si vygenerovali náhodná čísla. Vybereme tedy 4 čísla a zprůměrujeme je. Řekněme tedy, že náš první průměr bude, to máme třeba 9 a 5, pak další 9 a ještě 1. Kolik to je? 14 plus 10. 24 děleno 4. Průměr v prvním případě, pro výběrový soubor o rozsahu 4, bude 6, je to tak? Sečteme je, vyjde 24, děleno 4. Zaznamenáme to sem. Náš průměr je 6. Takto. Zopakujeme to takto několikrát. V předchozím videu jsme viděli, že pokud tyto kroky zopakujeme, začne to vypadat jako normální rozdělení. Můžeme vybrat znovu, průměr je znovu 6. Můžeme ještě jednou, průměr je 5. Znovu, průměr je 7. Ještě jednou, průměr je 6. Pokud tyto kroky zopakujete, nesčetněkrát za sebou, bude se vaše rozdělení velmi blížit normálnímu rozdělení. Tady ty krabičky jsou opravdu malé. Uděláme spoustu takových výběrů a v určitém momentě, se to bude blížit normálnímu rozdělení. Jde samozřejmě o průměrné hodnoty. Nebude to dokonalé normální rozdělení, protože ve skutečnosti vám nemůže nikdy vyjít průměr menší než 0 nebo 1. Průměr nemůže být 0. A také vám nemůže vyjít víc než 9. Nebude mít tedy nekonečně dlouhé strany, ale, alespoň ve střední části, se bude blížit normálnímu rozdělení. V tomto videu se chci zamyslet nad tím, co se stane, pokud změníme "n". V tomto případě bylo "n" 4. "n" je rozsah našeho výběrového souboru. Při každém výběru jsme vzali 4 čísla, zprůměrovali jsme je a zaznamenali ho do grafu. Kdybychom měli "n" rovno 10, vybrali bychom 10 čísel z tohoto základního souboru nebo, můžeme říci, z této náhodné proměnné, zprůměrovali bychom je a zanesli je sem. V předchozím videu jsme si spustili simulaci. Ještě se k té simulaci vrátím. Viděli jsme několik věcí. Tentokrát půjdeme trochu více do hloubky. Pokud je "n" docela malé, nedosáhne tak dobře normálního rozdělení. Když je tedy "n" malé - myslím v extrémním případě. Co se stane, když bude "n" rovno 1? Doslova to znamená, že vyberu 1 případ této náhodné proměnné a spočítám jeho průměr. Průměr bude stejný jako ten případ. Pokud provedu více takových výběrů a zaznamenám je, jak to bude vypadat? Určitě ne jako normální rozdělení. Bude to vypadat... budete mít několik 1, několik 2. Trochu víc 3. Žádnou 4. Vyjde vám spousta 5. Několik 6, které budou vypadat takto. A vyjde vám spousta 9. Vaše výběrové rozdělení výběrového průměru pro "n" = 1 nebude vypadat jako normální rozdělení, bez ohledu na to, kolik výběrů provedete. Centrální limitní věta tak nebude platit pro "n" = 1, přestože jsem řekl, že když provedete mnoho výběrů, bude to vypadat jako normální rozdělení. Smysl začne nabývat, když se "n" bude zvětšovat. Podívejme se, co se stane, když se "n" bude rovnat 2. Nevím, jak bude vypadat skutečné rozdělení, jen si to tak představuji, ale stále ani tak nevznikne přesné normální rozdělení. Když budete mít více případů, možná vám vyjde kterékoliv číslo z těch nahoře. V každém koši, který pak zprůměrujete, můžete mít ale jen 2 čísla. Vyjdou vám pouze 2 čísla. Jaká? Ve vašem výběrovém rozdělení výběrového průměru kde n = 2, vám zřejmě nikdy nevyjde 7,5, protože nevyberete žádnou 7 a nevyberete ani 8. Takže vám nikdy nevyjde 7,5. Když si to znázorníme graficky, bude to vypadat nějak takto. Bude tu mezera u 7,5, protože to vám nemůže vyjít, a bude to vypadat nějak takto. Pokud bude "n" rovno 2, nepůjde tedy stále o normální rozdělení. Tady je několik zajímavých věcí. První věc - nezmínil jsem ji hned poprvé, protože jsem chtěl, abyste opravdu dobře pochopili co je centrální limitní věta. Centrální limitní věta říká, že až když se "n" přiblíží nekonečnu, pak teprve dostanete skutečné normální rozdělení. - V praxi ale nemusíte jít příliš daleko za n = 2. Pokud budete mít "n" o rozsahu 10 nebo 15, už se normálnímu rozdělení blížíte. K normálnímu rozdělení se tak přiblížíte velmi rychle. Další věc je, že samozřejmě chcete velké množství výběrů. Toto je rozsah vašeho výběrového souboru. To je rozsah vašeho výběrového souboru. Je to velikost každého vašeho koše. V prvním videu, které jsem na toto téma vytvořil, jsem měl výběrový soubor o rozsahu 4. V simulaci, kterou jsem předvedl v předchozím videu, jsme měli výběrové soubory o rozsahu 4 a 10 a další. Tento výběrový soubor má rozsah 1. To je tedy rozsah našeho výběrového souboru. Jak se tedy přiblíží nekonečnu, bude se vaše výběrové rozdělení výběrového průměru blížit normálnímu rozdělení. Chceme-li skutečně vidět normální rozdělení a dokázat ho, museli byste to udělat mnohokrát... toto je v podstatě základní soubor nebo také náhodná proměnná. Napoví vám všechny možnosti. V praxi jen zřídka známe všechny možnosti. V praxi jen zřídka známe pravděpodobnostní funkci. Jen když ji píšeme nebo když píšeme počítačový program. Obvykle provádíme výběry a snažíme se odhadovat. Obvykle máme nějakou náhodnou proměnnou a my bychom vybrali skupinu hodnot, zprůměrovali bychom je, zaznamenali bychom je do grafu a vyšel by nám nějaký typ normálního rozdělení. Řekněme, že vybereme 100 čísel a zprůměrujeme je. Vyjde nám nějaké normální rozdělení. Když teoreticky vezmeme tyto průměry stokrát nebo tisíckrát, náš soubor dat se více přiblíží čistému výběrovému rozdělení výběrového průměru. Toto je skutečné rozdělení. Skutečné rozdělení se skutečným průměrem. Má čistý průměr. Průměr výběrového rozdělení výběrového průměru zapíšeme takto. Všimněte si, že jsem ho nezapsal jako "x" s něčím, toto je skutečný průměr základního souboru, skutečný průměr náhodné proměnné. Když se podíváte na všechny možnosti všech výběrů, které můžete vzít z vašeho původního rozdělení, z nějakého jiného náhodného původního rozdělení, a vezmete všechny možnosti rozsahu výběrového souboru. Řekněme, že pracujeme s výběrovým souborem o rozsahu 10. Když vezmete všechny kombinace 10 výběrů z nějakého původního rozdělení a zprůměrujete je, popíšete tím tuto funkci. Pokud ve skutečnosti neznáte původní rozdělení, nemůžete z něj vybrat nekonečné množství hodnot a nebudete tedy znát všechny kombinace. Pokud to ale uděláte s 1 000, pokud vyberete tisíckrát, tedy tisíckrát provedete 10 výběrů z nějakého rozdělení, uděláte 1 000 průměrů a zaznamenáte je, dostanete se už velmi blízko. Další věc, které bych se tu rád dotkl je, co se stane, když "n" - už víme, že když se "n" přiblíží nekonečnu, bude rozdělení více normální. Také jsme řekli, že když "n" bude 10, je to docela dobré a když bude 20, je to ještě lepší. V předchozím videu jsme ale viděli něco, co považuji za docela zajímavé. Začneme tady s tím šíleným rozdělením nahoře. Nezáleží na tom, s jakým rozdělením začneme. V simulaci jsme viděli, že když "n" bude rovno 5, tedy když vybereme 5 hodnot, zprůměrujeme je a provedeme to celé 10 000 krát, náš graf bude vypadat nějak takto. Je docela široký. Kdybychom pak vybrali n = 10, náš graf by vypadal takto. Byl by trochu víc zmáčknutý tady v té části. Nejenže by byl více normální, což odpovídá centrální limitní větě, protože jsme provedli výběr o větším rozsahu, ale měl by i menší směrodatnou odchylku nebo menší rozptyl. Průměr bude v obou případech stejný, ale tam, kde měl náš výběr větší rozsah, se směrodatná odchylka zmenšila. Naše směrodatná odchylka je menší než v rozdělení původního souboru nebo původní hustotě pravděpodobnosti. Nyní vám to ukážu na simulaci. Všechno si vymažu. Tato simulace je docela dobrá. První, co bych vám chtěl ukázat, je, že případ, kdy n = 2, není skutečně příliš dobrý. Porovnejme dva případy, kdy n = 2 a n = 16. Chceme tedy porovnat dva případy, kdy n = 2 a n = 16. Uděláme to nejprve jednou. Nejprve vyberete 1, 2 hodnoty a zprůměrujete je. Teď vyberete 16 hodnot a zaneseme je sem a průměr sem. Teď to uděláme 10 000 krát. Všimněte si, že když jsme vybírali "n" o rozsahu 2, nepřiblížili jsme se normálnímu rozdělení, ani když jsme vybírali 10 000 krát. Poznáte to podle hodnot šikmosti a špičatosti. Je pozitivně sešikmené doprava, což znamená, že má pravou stranu delší než levou. Zároveň má zápornou špičatost, což znamená, že je delší do stran a má nižší vrchol než standardní normální rozdělení. S n = 16 uděláme to samé. Vybrali jsme tedy pokaždé 16 hodnot z rozdělení tady nahoře a zprůměrovali jsme je - každý z těchto bodů zastupuje jeden průměr - a to celé jsme provedli 10 001 krát. Všimněte si, že průměr je stejný v obou případech, ale tento má zčistajasna mnohem menší špičatost i šikmost. Čili tento druhý případ je více normální. Ještě zajímavější je, že naše směrodatná odchylka je menší. Toto dole je více zmáčknuté k sobě než tamto a jistě také více zmáčknuté než naše původní rozdělení. Nyní to zkusíme se dvěma - všechno tu opět vymažu. Toto rozdělení se mi líbí. Je to velmi nenormální rozdělení. Vypadá jako nějaké bimodální, dvouvrcholové rozdělení. My teď budeme postupovat tak, že vezmeme nějaká dvě dobrá "n". Vezmeme n = 16 - to je takové pěkné, zdravé "n" - - a vezmeme n = 25 a oba případy trochu porovnáme. - Jeden výběr si tu zobrazíme, protože je vždy dobré to vidět. Nejdřív vybereme 16 hodnot a zprůměrujeme je a takto to vypadá. A teď vezmeme 25 hodnot, zprůměrujeme a vypadá to takto. Nyní to provedeme - - to co jsem tu teď ukázal - 10 000 krát. Zázraky počítačů... Nyní si všimněte - - zopakovali jsme 10 000 krát. Oba případy se docela dobře přiblížily normálnímu rozdělení. Případ, kde n = 25, je více normální. Má menší šikmost - - o trochu menší než n = 16. Má trochu menší špičatost, blíží se tedy trochu více normálnímu rozdělení než n = 16. Zajímavější je, že je více zmáčknutý k sobě. Má nižší směrodatnou odchylku. Směrodatná odchylka je tu 2,1 a směrodatná odchylka tady je 2,64. To je další zajímavost - - trochu jsem se toho už dotkl v předchozím videu. Čím více hodnot vyberete a zprůměrujete, tím menší směrodatná odchylka. Můžeme se podívat na nějaký extrémní příklad. Namísto 16 nebo 25 hodnot vybereme z našeho rozdělení pokaždé 1 000 000 hodnot a výběrový průměr bude zatraceně blízko mému průměru. Když vyberu 1 000 000 hodnot z čekoholiv a pokusím se na jejich základě odhadnout průměr, dostanu celkem slušný odhad takového průměru. Pravděpodobnost, že milion čísel je tady někde mimo, je velmi nízká. Pokud n = 1 000 000, budou všechny moje výběrové průměry, když je zprůměruji, soustředěny těsně kolem samotného průměru. Doufám, že vám to dává nějaký smysl. Pokud ne, zkuste o tom popřemýšlet nebo použijte tento nástroj a experimentujte s ním, abyste viděli, že to tak skutečně je. Takže se vlastně ukazuje, že existuje jasný vzorec, který vztahuje směrodatnou odchylku funkce původního rozdělení pravděpodobnosti ke směrodatné odchylce výběrového rozdělení výběrového průměru. Je to funkce rozsahu vašeho výběrového souboru, tedy kolik hodnot vyberete do každého koše předtím než je zprůměrujete. A tím se budu zabývat v následujícím videu. -
video