Statistická indukce
Statistická indukce (5/20) · 9:49

Centrální limitní věta Úvod do centrální limitní věty a výběrového rozdělení průměru

Navazuje na Popisná statistika.
- V tomhle videu chci mluvit o jednom z nejzákladnější konceptů ve statistice, či dokonce v matematice obecně. A to je centrální limitní věta. - Říká nám, že můžeme pracovat s jakýmkoli pravděpodobnostním rozdělením s definovaným průměrem a rozptylem. Jestli má toto rozdělení nějaký rozptyl, má i určitou směrodatnou odchylku. A může jít o spojité nebo diskrétní rozdělení. Nakreslím sem diskrétní pravděpodobnostní rozdělení, protože je jednodušší si jej představit, aspoň tedy pro účel tohoto videa. Řekněme tedy, že mám nějakou pravděpodobnostní funkci diskrétního pravděpodobnostního rozdělení. Musíme být opatrní, aby nevypadalo příliš jako normální rozdělení, protože bych Vám rád ukázal, k čemu je dobrá centrální limitní věta. Řekněme tedy, že mám nějaké takové rozdělení. Řekněme, že zde máme hodnoty od 1 do 6, tedy 1, 2, 3, 4, 5, 6. Je to nějaká poblázněná kostka. Máme velkou pravděpodobnost, že padne 1, ale téměř nemožné, ne tak nakřivo... takže máme velkou pravděpodobnost, že padne 1, téměř nulovou pravděpodobnost, že padne 2, jakž takž pravděpodobnost, že padne 3 nebo 4, velmi malou pravděpodobnost, že padne 5. A velkou pravděpodobnost, že padne 6. Tohle je tedy pravděpodobnostní funkce našeho rozdělení. Tohle je symetrické, takže kdybych nakreslil průměr, byl by někde tady. Přibližně v polovině. Tohle by byl náš průměr. Směrodatná odchylka by byla - řekněme takhle daleko od průměru. Ale tohle je tedy pravděpodobnostní funkce mého pravděpodobnostního rozdělení. Tentokrát nebudu jenom dělat výběry z tohoto rozdělení, které je popsáno danou pravděpodobnostní funkci. Totiž, budu dělat výběry, ale z nich spočítám průměr a podívám se na četnost jednotlivých takto získaných průměrů. Tím myslím aritmetický průměr. Řekněme tedy... nejprve si musíme určit velikost výběru, mohlo by to být jakékoli číslo, ale řekněme, že budeme dělat výběry o velikosti 4. Což znamená, že budeme vybírat 4 hodnoty z tohoto rozdělení. Takže poprvé vezmeme 4 hodnoty. Velikost našeho výběru se rovná 4. Řekněme, že takto dostaneme 1, pak znovu 1, pak 3 a pak 6. Tohle je náš první výběr velikosti 4. Vím, že terminologie je možná trochu matoucí. Vybereme zkrátka 4 hodnoty, a to bude náš první výběr. Vždycky, když mluvíme o výběrovém průměru a výběrovém rozdělení výběrového průměru, o čemž bude řeč v dalších videích, jedná se o výběr několika hodnot z původního pravděpodobnostního rozdělení. A velikost výběru nám říká, kolik hodnot takto tedy vybereme. Ale někdy se může terminologie zdát trochu matoucí, protože někdo může nazývat výběrem pouze jednu z těchto hodnot. Ale my máme hodnoty čtyři. Máme výběr o velikosti 4. A co teď udělám je, že je zprůměruji. Takže řekněme, že průměr - s tímhle musíme být opatrní - kolik je průměr těchto 4 hodnot? 1 plus 1 je 2. 2 plus 3 je 5. 5 plus 6 je 11. 11 děleno 4 je 2,75. Tohle je náš první výběrový průměr z výběru o velikosti 4. Zkusme udělat další. Můj druhý výběr o velikosti 4 je tento. Řekněme, že dostaneme 3, 4, pak další 3, pak třeba 1. Tentokrát nepadne šestka. A 2 ani 5 nemůže padnout. Pro tohoto rozdělení je to nemožné. Protože pravděpodobnost, že padne 2 či 5, je rovna 0. Takže nemůžu získat dvojku ani pětku. Takže pro druhý výběr o velikosti 4 bude výběrový průměr roven 3 plus 4, což je 7. 7 plus 3 je 10 plus 1 je 11. 11 děleno 4 je zase 2,75. Uděláme ještě jeden výběr, aby bylo jasné, co to tady provádíme. Takže ještě jeden... ve skutečnosti bychom jich dělali obrovské množství, ale pro ilustraci už jen jeden. Takže máme třetí výběr velikosti 4. Vybereme tedy 4 hodnoty. Náš výběr se skládá ze 4 hodnot z původního bláznivého rozdělení. Řekněme, že padne 1, 1, 6 a 6. Takže náš třetí výběrový průměr se rovná 1 plus 1, což je 2, 2 plus 6 je 8. 8 plus 6 je 14. 14 děleno 4 je 3,5. - Takhle zjistíme výběrové průměry. Pro každý výběr velikosti 4 spočítáme průměr. A jakmile toto uděláme, zakreslíme jejich četnost. A tohle pro Vás bude překvapení. Takže zakreslíme četnost průměrů. Řekněme, dobře, můj první výběrový průměr byl roven 2,75. Vlastně kreslíme četnost výběrových průměrů z jednotlivých výběrů. Poprvé jsme dostali 2,75. Takže to sem zakreslíme. Tohle je hodnota průměru z prvního výběru. Podruhé jsme ale dostali také 2,75. Takže to sem opět zakreslíme. Dostali jsme tento průměr dvakrát. Nakreslíme si sem četnost. Pak jsme dostali hodnotu 3,5. Mohli jsme získat řadu hodnot, třeba 3 nebo 3,25 nebo 3,5. Nám zrovna vyšlo 3,5, což sem právě kreslím. A co teď uděláme, bude, že budeme provádět další a další výběry. Třeba 10 000 výběrů. Takže budeme dělat další výběry, dokud jich nebude 10 000. Prostě hromada výběrů. A po čase tohle bude vypadat nějak takto. Nakreslím to sem jenom jako tečky. Takže když se na to podíváme, tak tady máme všechny možné hodnoty, které bychom mohli získat. Tak třeba 2,75 by mohlo být někde tady. To bude takhle první tečka zde. A druhá tečka bude právě zde. A tahle třetí tečka zde odpovídá průměru 3,5. Uděláme totéž 10 000 krát. Budeme tedy mít 10 000 výběrových průměrů. Tyhle průměry si sem vždycky zakreslíme. Zakreslíme tedy četnosti jednotlivých průměrů. Budeme je zakreslovat znovu a znovu. A to, co uvidíte, je, že pokud budeme opakovaně provádět výběry o velikosti 4, začne se nám tohle podobat přibližně normálnímu rozdělení. Každá z těchto teček odpovídá výskytu jednoho výběrového průměru. Když budeme navyšovat tento sloupec, znamená to, že se nám opakovaně vyskytl výběrový průměr 2,75. Po čase získáme něco, co bude vypadat přibližně jako normální rozdělení. A tohle je ta skvělá věc ohledně centrální limitní věty. Tohle je ukázka platnosti centrální limitní věty pro velikost výběru 4. Toto byl výběr o velikosti 4. Ale mohli bychom provést totéž s výběrem třeba o velikosti 20, takže bychom místo 4 hodnot vždy vybrali 20 hodnot z tohoto bláznivého rozdělení, a pak těchto 20 hodnot zprůměrovali a pak zakreslili výběrové průměry sem. V tomto případě budeme mít rozdělení, které bude vypadat přibližně takto, ale o tom se pobavíme v dalších videích podrobněji. Ale ukazuje se, že zakreslíme-li 10 000 výběrových průměrů, bude platit následující: bude se to ještě více blížit normálnímu rozdělení. A v dalších videích uvidíme, že ve skutečnosti bude mít toto rozdělení menší... musím to říct jasně... bude mít stejný průměr. Tohle je průměr. A tohle bude mít stejný průměr. Ale bude to mít menší směrodatnou odchylku. Měl bych tohle kreslit zespodu, protože se to tady jakoby hromadí. Tohle je první případ a další a další. Ale po čase se to bude čím dál více blížit normálnímu rozdělení. A ve skutečnosti tedy - což je naprosto dokonalé ohledně centrální limitní věty - ve skutečnosti s rostoucím rozsahem výběru neboli když se výběr blíží nekonečnu, se tohle bude blížit normálnímu rozdělení, i když nepotřebujeme ani výběr velikosti blízko nekončenu. I když máme třeba výběr o velikosti 10 nebo 20, dostaneme se již blízko k normálnímu rozdělení. Ve skutečnosti něco podobného vídáme i v běžném životě. Nejlepší je, že můžeme vyjít i z nějakého bláznivého rozdělení. Tohle rozdělení nemá s normálním rozdělením nic společného. Zde jsme měli výběr o velikosti 4. Ale mohli bychom mít výběr o velikosti 10 nebo 100, pak bychom vybírali místo 4 hodnot 100 a zprůměrovali je, načež bychom zakreslili četnosti těchto průměrů. Opakovali bychom to s dalšími a dalšími výběry velikosti 100, získali bychom průměr, znovu jej zakreslili. A pokud bychom to udělali mnohokrát, pokud bychom měli nekonečný počet těchto výběrů, a zejména pokud bychom navíc měli výběry o velikosti nekonečno, pak bychom dostali přesně normální rozdělení. Tohle je ta bláznivá věc ohledně centrální limitní věty. A netýká se to pouze výběrového průměru. Zde jsme vždycky dělali výběrový průměr, ale mohli bychom hodnoty třeba sčítat. I tak by centrální limitní věta platila. Což je opravdu užitečné. Protože v běžném životě máme mnoho různých jevů, bílkoviny narážející do sebe, lidé dělající potrhlosti, nebo různé podivné lidské interakce. A jejich pravděpodobnostní rozdělení častokrát neznáme. Ale to, co nám říká centrální limitní věta, je, že pokud se tyto činnosti budou opakovat za předpokladu, že mají stále stejné rozdělení, pak zakreslíme-li četnost průměrných hodnot, dostaneme normální rozdělení. A proto se ukazuje, že normální rozdělení je ve statistice velmi dobrým způsobem, jak aproximovat součty nebo průměry mnohých jevů. Normální rozdělení. To, co ukážu v dalších videích, je že tohle skutečně platí. Že s rostoucím rozsahem výběru, tedy s vyšším počtem n, a s rostoucím počtem opakování získáme graf četností velmi, velmi blízký normálnímu rozdělení. -
video