Statistická indukce
Statistická indukce (8/20) · 15:15

Směrodatná chyba průměru Směrodatná chyba průměru (neboli směrodatná odchylka výběrového rozdělení výběrového průměru!)

Navazuje na Popisná statistika.
- V několika předchozích videích jsme začínali s nějakým šíleným rozdělením. Nemusí být úplně šílené, může to být pěkné normální rozdělení. Ale abych ukázal, že nemusíte mít vždy normální rozdělení, používám rád ta šílená. Takže řekněme, že máte nějaké šílené rozdělení, které vypadá asi takto. Může vypadat jakkoliv. Jako mnohokrát předtím, z takového šíleného rozdělení provedete výběry. Řekněme, že máte provést výběr "n" se rovná 10. Vezmeme 10 případů této náhodné proměnné a zprůměrujeme je a zaneseme. Náš průměr zaneseme do grafu. Dostaneme 1 případ tady. A tak pokračujeme dál. Znovu. Provedeme 10 výběrů z této náhodné proměnné, zprůměrujeme je a znovu zaneseme do grafu. Znovu zakreslíme a to opakujeme trilionkrát za sebou - teoreticky nekonečně mnohokrát - a tím se pomalu přiblížíte výběrovému rozdělení výběrového průměru. "n" rovná se 10 nebude dokonalé normální rozdělení, ale bude se tomu velmi blížit. Dokonalé by bylo jen v případě, že "n" je nekonečno. Z našich výběrů dostaneme spoustu průměrů, které se budou hromadit tady a tady a nakonec získáme cosi, co vypadá nějak takto. V posledním videu jsme viděli, že pokud to zopakujeme a tentokrát bude "n" rovno 20, získáme rozdělení, které bude více normální. V některém z nadcházejících videí se možná ponoříme ještě hlouběji a řekneme si něco o špičatosti a šikmosti. Nicméně bude to normální rozdělení. Důležitější ale je, že jak je vidět, bude mít nižší směrodatnou odchylku. Všechny budou mít stejný průměr. Řekněme, že tady máme průměr 5. Pak průměr tady bude také 5. Průměr našeho výběrového rozdělení výběrového průměru bude 5. Bez ohledu na to, co je naše "n". Pokud je "n" 20, průměr bude stále 5. Ale směrodatná odchylka bude menší než v předchozích dvou případech. To zjistíme jen experimentováním. Mohlo by to vypadat nějak takhle. Bude více normální, ale bude mít těsnější směrodatnou odchylku. Může vypadat nějak takto. Pokud pokus zopakujeme s ještě rozsáhlejším výběrem - zobrazím to v jiné barvě - výběrem, kde "n" se rovná 100, dostaneme něco, co odpovídá normálnímu rozdělení ještě lépe. Vezmeme sto případů této náhodné proměnné, zprůměrujeme je a zaneseme do grafu. Sto případů, zprůměrujte a zaneste. A tak pokračujeme stále dál. Výsledek bude ještě více normální než v předchozích dvou případech. Bude se ještě více blížit skutečnému normálnímu rozdělení. Je ale zřejmé, že bude ještě těsnější. Bude tu velmi nízká směrodatná odchylka. Bude to vypadat nějak takto. Později vám to ukážu na simulaci. Stanou se tedy dvě věci. Když zvětšíte výběrový soubor pokaždé, když děláte průměr, stanou se dvě věci. Budete normálnější a vaše směrodatná odchylka se bude zmenšovat. Vyvstává tedy otázka: existuje tu nějaký vzorec? Pokud budu znát směrodatnou odchylku... toto je směrodatná odchylka mé původní hustoty rozdělení pravděpodobnosti a toto je průměr mé původní hustoty pravděpodobnosti. Tedy pokud budu znát směrodatnou odchylku a "n" - "n" se bude měnit podle toho, kolik výběrů udělám pro každý průměr - pokud budu vědět, že směrodatná odchylka nebo možná, pokud budu znát rozptyl. Rozptyl je směrodatná odchylka na druhou. Pokud si nevzpomínáte, podívejte se znovu na předchozí videa. Pokud budu znát rozptyl mého původního rozdělení a pokud budu znát "n", tedy kolik výběrů udělám pokaždé, než je zprůměruji a zanesu do grafu mého výběrového rozdělení - existuje nějaký způsob, jak předpovědět průměr těchto rozdělení? Promiňte, směrodatnou odchylku těchto rozdělení. Říkejme raději "rozptyl", ať nejste zmateni průměrem a odchylkou. Pokud budete znát rozptyl, budete schopni vypočítat směrodatnou odchylku. Odchylka je druhou odmocninou rozptylu. Toto je tedy rozptyl našeho původního rozdělení. A nyní, abychom ukázali, že toto je rozptyl našeho výběrového rozdělení a výběrového průměru, napíšeme to sem. Toto je rozptyl našeho průměru, našeho výběrového průměru. Vzpomeňte si na výběr - náš skutečný průměr je toto. Řecké písmeno Mý je náš skutečný průměr. Rovná se "průměru", zatímco "x" s čárkou nahoře znamená výběrový průměr. - Toto zde je tedy rozptyl našeho výběrového průměru, toto bude skutečné rozdělení. Nejde o odhad. Toto je - pokud nějakým zázrakem známe rozdělení - toto je skutečný rozptyl. A samozřejmě ten průměr... musíme opravit naše označení. Toto je průměr výběrového rozdělení výběrového průměru. Je to tedy průměr našich průměrů. Náhodou je stejný. Toto je průměr našich výběrových průměrů. Bude také stejný, zejména pokud provedeme pokus opakovaně. Smyslem tohoto videa je otázka, zda existuje způsob jak vypočítat tento rozptyl, pokud známe rozptyl původního rozdělení a "n". Ukazuje se, že existuje. Nebudu to zde dokazovat. Chci, abyste tomu rozuměli. Myslím, že už tušíte, že když provedete sto výběrů a zprůměrujete je, přiblížíte se pravděpodobně skutečnému průměru více než když budete mít "n" o velikosti 2 nebo 5. Je velmi nepravděpodobné, že budete daleko, když provedete 100 pokusů než když jich provedete jen 5. Já se domnívám, že by to mělo být nějakým způsobem nepřímo úměrné "n". Čím větší bude vaše "n", tím menší bude směrodatná odchylka. Je to vlastně velmi jednoduché. Jedna z kouzelných stránek matematiky. Někdy vám to dokážu. Nejprve bych vám rád předal základní znalosti. Ve statistice často bojuji s tím, zda mám hned něco formálně dokazovat, ale dospěl jsem k závěru, že je důležitější, abyste nejprve získali základní znalosti a teprve pak, až je pochopíte, se mohu ponořit do matematiky hlouběji a přejít k důkazům. Prozatím nám ale budou stačit experimentální důkazy. Použijeme tyto simulace a ukážeme si, že jsou skutečně pravdivé. Ukazuje se tedy, že rozptyl vašeho výběrového rozdělení vašeho výběrového průměru se rovná rozptylu vašeho původního rozdělení - to je tady ten chlapík - děleno "n". To je celé. Takže když je tady nahoře rozptyl 20 - - to číslo jsem si vymyslel - a "n" je 20, pak rozptyl vašeho výběrového rozdělení výběrového průměru pro n=20, vezmete rozptyl tady nahoře, tedy 20 děleno vaším "n", 20. Váš rozptyl bude 20 děleno 20 a to se rovná 1. To je rozptyl vašeho původního pravděpodobnostního rozdělení a toto je vaše "n". Jaká bude vaše směrodatná odchylka? Kolik je druhá odmocnina? Směrodatná odchylka bude druhá odmocnina z 1. To bude také 1. Můžeme to také napsat. Mohli bychom odmocnit obě strany a říci: směrodatná odchylka výběrového rozdělení výběrového průměru se často nazývá směrodatná odchylka průměru a také - napíšu to sem - směrodatná chyba průměru. - Všechno, co jsem právě zmínil, znamená směrodatnou odchylku výběrového rozdělení výběrového průměru. Je to matoucí, protože stále dokola používáte slova jako průměr a výběr. Pokud vás to mate, ozvěte se. Vyrobím jiné video nebo udělám pauzu nebo to zopakuji nebo cokoliv jiného. Pokud ale odmocníme obě strany rovnice, bude směrodatná chyba průměru nebo směrodatná odchylka výběrového rozdělení výběrového průměru rovna směrodatné odchylce vaší původní hustoty pravděpodobnosti, která může být velmi nenormální, děleno odmocninou "n". Odmocnil jsem obě strany této rovnice. Já osobně bych si zapamatoval, že rozptyl je nepřímo úměrný "n". A teď se vrátím tady k tomu. Je to velmi jednoduché. Vezmete rozptyl a vydělíte ho "n". A když budu chtít směrodatnou odchylku, odmocním obě strany rovnice a dostanu tento vzorec. Tady, kde "n" je 20, bude směrodatná odchylka výběrového rozdělení výběrového průměru 1. Tady, kde "n" je 100, se rozptyl výběrového průměru výběrového rozdělení bude rovnat 20, tedy rozptylu tady u toho prvního příkladu, děleno "n". To se rovná - "n" je 100 - to se rovná 1/5. Směrodatná odchylka nebo také směrodatná odchylka výběrového rozdělení výběrového průměru nebo jinak směrodatná chyba průměru tu bude druhou odmocninou 5, tedy 1 lomeno odmocnina z 5. Takže tento příklad bude něco málo pod polovinou směrodatné odchylky zatímco tento příklad má směrodatnou odchylku 1. Takže vidíte, že je rozhodně užší. Vím, co si teď říkáte. Dobře, Sale, dal jsi dohromady vzorec, já ti ale nemusím věřit. Podívejme se, jestli si to můžeme ověřit s pomocí simulace. Já tady jen tak z legrace trochu pozměním rozdělení. Toto je moje nové rozdělení. A "n" bude - vyberu dvě čísla, ze kterých se dá dobře vypočítat druhá odmocnina, protože se zabýváme směrodatnou odchylkou. Jedno "n" bude 16 a druhé "n" 25. Provedeme 10 000 pokusů. Z každého z nich provedeme 16 výběrů, zprůměrujeme je, zaneseme sem a vytvoříme graf. Tady provedeme 25 výběrů a zprůměrujeme je. Ukážu to zanimované. Vezmu 16 výběrů a zanesu je sem. Vezmu 16 výběrů, jak je uvedeno v této hustotě pravděpodobnosti, nebo 25 a zanesu je sem. Co se stane, když to udělám 10 000 krát? Vidíte, že tam, kde "n" bylo větší, je směrodatná odchylka menší. Je to více zmáčknuté k sobě. Teď si to zapišme. Uvidíme, jestli si to zapamatuji. V tomto náhodném rozdělení, které jsem si tu vytvořil, byla směrodatná odchylka 9,3. Budu si to pamatovat. Naše směrodatná odchylka v původním rozdělení byla 9,3. Ve druhém případě byla směrodatná odchylka 2,3 a ve třetím 1,87. Nyní se podívejme, zda to odpovídá našemu vzorci. Grafy dám na chvíli mimo obraz vrátím se zpět a budu počítat. Čísla mám teď na své druhé obrazovce, abych si je lépe zapamatoval. V pokusu, který jsme právě provedli, mělo moje nezvyklé rozdělení směrodatnou odchylku 9,3. Když se "n" rovnalo - napíšu to jinou barvou - když se "n" rovnalo 16, pokusem, zprůměrováním a všemi těmi úkony, jsme dostali směrodatnou odchylku výběrového rozdělení výběrového průměru nebo směrodatnou chybu průměru 2,33. Byla experimentálně stanovena na 2,33. Když "n" se rovná 25, dostali jsme směrodatnou chybu průměru 1,87. Podívejme se, zda to odpovídá našim vzorcům. Víme, že rozptyl, nebo můžeme říci rozptyl průměru, rozptyl výběrového rozdělení výběrového průměru, je roven rozptylu našeho původního rozdělení lomeno "n". Odmocníme obě strany rovnice. Směrodatná chyba průměru se rovná směrodatné odchylce původního rozdělení děleno druhou odmocninou "n". Teď se podívejme, jestli to odpovídá i v těchto dvou případech. Vezmu-li 9,3, 9,3 děleno druhá odmocnina 16. N je 16, že? Tedy děleno druhou odmocninou 16, což jsou 4, kolik dostanu? 9,3 děleno 4. Vezmu si kalkulačku. Kolik to je? Vynuluju a chceme 9,3 děleno 4. 9,3 děleno druhou odmocninou "n", "n" bylo 16. Tedy děleno 4, se rovná 2,32. Rovná se 2,32, což je zatraceně blízko 2,33. Po 10 000 pokusech. Později se možná podívám, co by se stalo, kdybychom provedli 20 000 nebo 30 000 pokusů, kde bychom vzali 16 výběrů a zprůměrovali je. Teď se podívejme na druhý případ. Vzali bychom 9,3 - udělám tu čáru - Bude lepší, když to trochu posunu. Vezmeme směrodatnou odchylku našeho původního rozdělení. Tady ten odvozený vzorec nám říká, že naše směrodatná chyba se rovná směrodatné odchylce našeho původního rozdělení, což je 9,3, děleno druhou odmocninou "n", děleno druhou odmocninou 25. 4 byla druhá odmocnina ze 16. Rovná se 9,3 děleno 5. Podívejme se, jestli je to 1,87. Vezmu si opět kalkulačku. 9,3 děleno 5, kolik to je? 1,86, což je velmi blízko 1,87. V tomto případě je výsledek 1,86. Jak vidíte, experimentálně jsme dostali téměř stejný výsledek, po 10 000 pokusech, jako jsme očekávali. Zkusíme udělat dalších 10 000. Máme dalších 10 000 pokusů. Jsme stále u grafů. Asi nemohu doufat, že bych dostal nějaké zaokrouhlené číslo. Jak vidíte, snad vám bude stačit, že rozptyl výběrového rozdělení výběrového průměru se rovná rozptylu původního rozdělení, ať je jakkoliv nezvyklé, děleno rozsahem výběru - - nejlépe si ho představíte jako počet výběrů, které vezmete pro každý koš, z něhož děláte průměr. Můžete být někdy zmateni, protože provádíte výběry průměrů založených na výběrech. Když někdo řekne "rozsah výběru", znamená to, kolikrát jsem vybral průměry nebo počet věcí, ze kterých pokaždé průměry vybírám? Není naškodu to vyjasnit. Když se obvykle mluví o rozsahu výběru, hovoří se o "n". Když já sám mluvím o pokusech, když vezmete 16 výběrů zprůměrujete je, je to jeden pokus a ten zanesete do grafu. Zopakujete to a provedete další pokus. A tak pořád dál. Doufám, že tím je vše jasné a vy už také nyní rozumíte, jak se dostanete k směrodatné chybě průměru. -
video