Statistická indukce
Statistická indukce (2/20) · 26:04

Cvičení na normální rozdělení v Excelu Presentace spojená s tabulkou s cílem ukázat, že se při velkém množství měření binomické rozdělení přibližuje rozdělení normálnímu.

Navazuje na Popisná statistika.
V tomto videu se podíváme na to, co je jedním z nejklíčovějších konceptů statistiky. Pokud se navíc podíváte na téměř jakýkol vědecký obor, může se zdát, že se jedná o ten vůbec nejklíčovější. Dokonce jsem už mnohokrát říkal, že je poněkud smutně, když se to neprobírá na středních školách. Každý by měl být s tímto konceptem seznámem, protože se dotýká všech aspektů našich životů. A tím konceptem je normální rozdělení neboli Gaussovo rozdělení. A jen abych Vám přiblížil, o co se jedná, toto video Vám může připadat chvílemi nesrozumitelné, ale s postupem času snad získáte trochu lepší porozumění o čem to celé je. Gaussovo rozdělení, nebo normální rozdělení jsou dva výrazy popisující totéž. Ve skutečnosti to byl Gauss, kdo s ním přišel. Mám za to, že studoval astronomické jevy, když se mu to podařilo. Ale je to ve skutečnosti jen funkce hustoty pravděpodobnosti, stejná jako například Poissonovo rozdělení. Je to to samé. A abych Vám to přiblížil, tak vypadá takto. Popisuje pravděpodobnost, že se vyskytne jakékoli x a je to funkce rozdělení. Normální rozdělení je stejné jako binomické a jako Poissonovo rozdělení a je založeno na několika parametrech. Toto je verze, v jaké jej obvykle uvidíte zapsané ve většině učebnic, a pokud budeme mít čas, tak bych to rád trochu přepsal, jen abyste lépe pochopili, jak to celé funguje. Nebo aby bylo jasné, odkud to vlastně vzešlo. Nebudu to v tomto videu dokazovat, to je trochu nad rámec tohoto kurzu. Přestože bych rád, dokonce se přitom objeví trocha velice pěkné matematiky. Pokud jste matematicky zaměření, existuje něco, co se nazývá Sterlingův vzorec, který si můžete najít na Wikipedii, a který je dosti zajímavý. Dává Vám odhady faktoriálů něčeho, co lze považovat za spojitou funkci. Ale tím se teď nebudeme zabývat. Normální rozdělení je 1 děleno -- tak se to obvykle zapisuje -- směrodatná odchylka krát odmocnina ze dvou pí krát e na -1/2. Já osobně to raději zapisuji takhle, protože je to jednodušší, tedy krát cokoli, co se snažíte nalézt mínus průměr vzorku děleno směrodatnou odchylkou našeho vzorku na druhou A když se nad tím zamyslíte, tak tohle je docela důležité uvědomit si teď. Toto nám říká, jak daleko jsem od průměru a dělíme to naší směrodatnou odchylkou vzorku. Toto je nákres normálního rozdělení, které jsem si nehcal vynést do grafu fialovou barfou. Celé toto cvičení je -- chápu, že trochu přeskakuji-- je o tom Vám ukázat, že normální rozdělení je dobrou aproximací binomického rozdělení a naopak. Pokud máte dostatečně pozorování ve Vašem binomickém rozdělení, a ... k tomu se dostaneme později. Důležité je pochopit tuhle část, protože to nám říká, jak daleko od průměru jsme vzdáleni, a dělíme to směrodatnou odchylkou. Takže toto říká, kolik směrodatných odchylek od průměru jsme. Tomuto ve skutečnosti řkáme z-skór. Jendou z věc, které jsem si ve statistice uvědomil, je, že hodně věcí zní nabubřele a komplikovaně, jako standardní z-skór. Ale jejich prinip je poměrně jednoduchý. Řekněme, že máme rozdělení a dáme mu nějakou hodnotu x, kteour máme tady, tedy 3,5 směrodatné odchylky od průměru, takže z toho vychází, že z-skór je 3,5. Nicméně soustřeďme se na cíl tohoto videa. Takže toto je, jak nurmální rozdělení, tedy funkce hustoty pravděpodobnosti pro normální rozdělení vypadá. Ale jak jsme se k ní dostali? Ke konci tohoto videa byste měli být alespoň částečně smíření s tím, že toto je dobrou aproximací binomického rozdělení pro mnoho měření. A co je zajímavé na normálním rozdělení je, že pokud spočítáte sumu -- a na centrální limitní teorém udělám asi další video -- ale když sečtete mnoho nezávislých pozorování, tak v nekonečnu se Vaše rozdělení blíží normálnímu, přestož ekaždé jednotlivé pozorování normální rozdělení nemá. Tedy mnoho pozorování dohromady vytváří normální rozdělení kde prve nebylo. O tom si budeme povídat později. Ale toto je důvod, proč se normální rozdělení objevuje v tolika přírodních jevech. Pokud napříkald modelujete chování počasí nebo interakce léků, a budeme si povídat o tom, kde to fungovat může a kde naopak ne. Někdy mohou lidé předpokládat, že se věci řídí normální rozdělením, například v peněžnictví, a pak kvůli tomu dojde ke krachu, jak se už v minulosti stalo. Ale vraťme se k tomuto. Tady máme tabulku. Jen jsem přidělal černé pozadí, můžete si ji stáhnout na khanacademy.org/downloads. A když na tu stránku zabrousíte, uvidte všechny soubory ke stažení. Ještě jsem ji tam nenahrál, udělám to jen co uploaduju tyto videa. Bude to dowloads/normalintro.xls Když půjdete na khanacademy.org/downloads uvidíte tam všechny soubory, aplikace a také tuto tabulku. Doporučuji Vám si s ní pohrát a možná zkusit vytvořit další tabulky. Zkrátka experimentujte. Takže v téhle tabulce jsou zapsány výsledky hry, nebo řekněme, že sedím na ulici a házím mincí, zcela vyváženou mincí. Pokud padne pana, tahle pana, pak udělám krok dozadu, nebo třeba krok doleva. A pokud padne orel, pak udělám krok doprava. Tedy vždy mám stejnou šanci -- znovu, je to vyvážená mince -- 50 procentní šanci udělat krok doleva a 50 procentní šanci udělat krok doprava. Takže si představte že když byste házeli 1000 krát, pak byste stále dělali kroky doleva a doprava Pokud by se Vám podařilo hodit několik panen po sobě, pak byste se mohli trochu posunout doleva. A pokud by Vám padlo několik orlů, pak byste se posunuli doprava. A už jsme si říkali, že pravděpodobnost, že Vám pade mnohem více orlů než panen, je mnohem menší než pravděpodobnost, že budou jakž takž stejné. Tady vidíte -- jen tam trochu sjedu, nechci přejet všechno --- že tu mám pár parametrů a doporučuji Vám to vyplnit či pozměnit jak se Vám bude líbit. Toto je počet kroků, o které se posunu. Toto je průměrný počet úkroků doleva a tady je pravděpodobnost a průměr binomického rozdělení. Průměr binomického rozdělení je vlastně pravděpodobnost úkroku doleva krát celkový počet hodů mincí. Takže se to v našem případě rovná 5. A pak rozptyl -- a teď si nejsem jistý, zda jsem to probíral a zda Vám to musím dokázat, každopádně udělám celé video o rozptylu binomického rozdělení -- je to v podstatě počet hodů, což je deset, kdát pravděpodobnost úkroku doleva, či pravděpodobnost úspěšného hodu -- teď si jako úspěšný definuji pannu, ale může to být cokoli -- krát pravděpodobnost 1 mínus úspěšný hod, nebo neúspěšný hod. V tomto případě jsou obě dvě situace stejně pravděpodobné a proto vyšlo 2,5. A to všechno máte v patřičné tabulce. Pokud kliknete na tuto buňku, pak uvidíte, jakou rovnici jsem použil. I když občas to může v Excelu vypadat trochu chaoticky. A toto je jen odmocnina z čísla, co nám vyšlo. Směrodatná odchylka je jen odmocnina z rozptylu. Toto je odmocnina z 2,5. A když se podíváte sem, tak Vám to říká, jaká je pravděpodobnost, že udělám 0 kroků. Máme celkem deset kroků -- jen aby to bylo jasné -- a já je pravděpodobnost, že jich udělám nula doleva? A tím míníme, že pokud udělám 0 kroků doleva, musím udělat deset doprava. A tuto pravděpodobnost spočítáte -- možná jsem tady mohl udělat čáru -- a to spočítáte za pomoci binomického rozdělení. A jak to uděláte? Jen si změním barvy, aby to bylo celé barevnější. Mám tu někde fialovou? Udělám to modrou. Takže binomické bude modře. Tady máme kolik kroků celkem? Celkem deset kroků. Tedy 10 faktoriál, to je počet jevů které máme. Z toho chci mít nula doleva. Takže 0 faktoriál krát 10 - 0 faktoriál. Což je 10, zajímá mě 0. Zajímá mě 0 kroků doleva z celkových 10 kroků krát pravděpodobnost 0 úkroků doleva, takže to je pravděpodobnost kroků doleva, kterých musí být 0, krát pravděpodobnost kroků doprava, kterých musí být deset. A výsledek je zde, tedy 0,001. To je, co nám binomické rozdělení říká. Zbylé jsou totožné, např. toto je 10 faktoriál nad 1 faktoriál děleno 10 - 1 faktoriál. Takhle se k tomu dostanete. A ještě jednou, pokud kliknete na konkrétní buňku, uvidíte to tam vysvětlené. Dělali jsme to několikrát. Jsou to jen binomické počty. A odsud, od této čáry, to můžete prakticky ignorovat. Udělal jsem to jen abych měl možnost ukázat to na více příkladech. Kupříkladu, kdybych se podíval do své tabulky, a místo deseti jsem chtěl udělat 20 kroků, pak by se všechno změnilo. A to je důvod, proč se v určitém bodě začnou všehchny věci jakoby opakovat. Nechám Vás popřemýšlet o tom, proč jsem to tak udělal. Možná jsem měl vytvořit jasnější tabulku. Ale to neovlivní tento scatterplot, který jsem si vykreslil. Tento graf je v modré, a Vy to bohužel nemůžete vidět, protože téměř hned vedle je fialová. Zkusím to udělat trochu menší, ať to vidíte jasněji. Řekněme, že udělám pouze 6 kroků. Vypadá to, že i tak je obtížně mezi nimi vidět jasnější rozdíl. Ještě jednou, celým principem tohoto cvičení je Vám ukázat že normální rozdělení je dobrou aproximací. Ale jsou si tak podobné, že v nich bohužel vůbec nemůžete vidět rozdíl. Pokud byste měli udělat jen čtyři kroky, ano, tady to je vidět. Vezmu si elektronické pero. Modrá křivka je zde. Toto je binomické rozdělení. Zde máme jen pár bodů, které se postupně dostanou až sem. Toto je situace 1 kroku doleva, 2 kroků doleva, 3 kroků doleva, 4 kroků doleva. A když to dám do grafu a pak se zeptám, jaká je pravděpodobnost za použití binomického rozdělení? A toto je moje finální pozice- Pokud udělám 0 kroků doleva, pak musím udělat 4 kroky doprava, tedy moje konečná pozice je na 4, tedy to je situace, co máme zde. Změním si barvu na žlutou, ať je to lépe vidět. Pokud udělám 4 kroky doleva, pak udělán 0 kroků doprava a má konečná pozice bude na mínus 4. Tedy zde. Pokud udělám obojího stejně, což je tato situace, pak zůstanu na nule. Což je veprostřed. Pokud udělám 2 kroky doprava a poté 2 kroky doleva nebo naopak, pokud udělám 2 kroky doleva a poté 2 kroky doprava, skončím zde. Snad to dává smysl. Zvoní mi telefon. Nebudu ho zvedat, protože normální rozdělení je velice důležité. Dokonce mě teď pozoruje můj 9 týdenní syn, takže tu mám i živé publikum. Možná i pochytává něco o normálním rozdělení. Modrá linka tady -- udělám to raději žlutou abyste to lépe viděli -- je graf binomického rozdělení. Spojil jsem úsečky, ale Vy možná znáte binocmké rozdělení spíše takto. Toto je pravděpodobnost, že skončíte na mínus 4. Toto je pravděpodobnost, že se dostanete na mínus 2. Toto je pravděpodobnost, že zůstanete tam, kde jste začali. A toto je pravděpodobnost, že uděláte 2 kroky doprava a toto, že uděláte 4 kroky doprava. Toto je pouze binomické rozdělení, jen jsem si nechal vynést tyto body zde. Toto je 0,375. Toto je 0,375. Toto je výška v tomto bodě. To, co jsem Vám chtěl ukázat je, že normální rozdělení se přibližuje tomu binomickému. Kdybych se chtěl zeptat, co by mi graf normálního rozdělení pověděl, kdyby mě zajímala pravděpodobnost, že udělám přesně 0 kroků doleva? To je trochu obtížnější. Binomické rozdělení je rozdělení nespojité. Můžete se jen tak podívat na graf a vyčíst z něj pravděpodobnost přesně jednoho kroku doleva a 3 doprava, která mě dostane přesně sem. Stačí se podívat na tuto část zde a hned víte, kolik to vychází. Stačí jen nalézt hodnotu, která je v tomto případě 0,25. Lze tedy hned říci, mám 25 procentní pravděpodobnost, že udělám přesně 2 kroky doprava. 25 procentní pravděpodobnost. Normální rozdělení je spojité rozdělení, tedy kontinuální křivka. Vypadá tato, jako zvon, a jde až do nekonečna, kde se na obou stranách blíží nule. Vypadá to asi takto. A je to spojitá funkce rozdělení pravděpodobnosti. Nemůžete si tedy jen tak vybrat bod a zeptat se, jaká je pravděpodobnost, že skončím přesně 2 stopy doprava? Protože pokud byste se tak zeptali, pak tato pravděpodobnost přesně 2 stop existuje -- a měli byste se podívat na mé video o funkcích hustoty pravděpodobnosti -- ale tato pravděpodobnost přesně 2 stop, a přesně je míněno na atom, je téměř nula. A proto musíte funkci dát nějaký rozsah. Tedy co předpokládám zde je půl stopy (15 cm) na obě dvě strany. Jasné? Pokud bychom se bavili o jedné stopě jako jednom kroku. Aby bylo jasné, co jsem zde udělal, tak jsem vzal hodnotu funkce hustoty pravděpodobnosti zde. A ukáži Vám, jak jsem k tomu dospěl. A pak to vynásobím 1. Výsledkem je tato plocha. A tu použiji jako odhad pro tuto plochu. Pokud byste chtěli přesně vědět, jak to spočítat na milimetr, pak byste potřebovali udělat integrál této křivky mezi těmito body, a to by byl lepší odhad. Na to se podíváme v budoucnu. Teď bych jen rád, aby jste dobře pochopili, že binomické rozdělení konverguje k normálnímu rozdělení. Takže jak jsem se k tomuto číslu dostal? Jak jsem řekl, jaká je pravděpodobnot že udělám 1 krok doleva. -- zde míním jedním krokem jeden úspěšný pokus -- A to se rovnalo 1 děleno směrodatnou odchylkou. Když jsem udělal celkem 4 kroky, směrodatná odchylka byla 1. Tedy 1 děleno 1. Vlastně to raději změním. Změním to na něco většího. Vrátíme se k tomu příkladu, kde jsem dělal 10 hodů. Takže toto je 10. Zase si vezmu kreslící nástroj. A tohle si spočítáme. Anebo si spočítáme toto. Takže jaká je pravděpodobnost, že udělám 2 kroky doleva. Pokud udělám 2 kroky doleva z celkových 10 kroků, pak musím udělat osm kroků doprava a tedy být ve výsledku 6 vpravo. To je tento bod zde. Jaká je pravděpodobnost? jak to vyřešíme za pomoci funkce hustoty pravděpodobnosti? jak spočítáme tuto výšku? Pokud uvažujeme, že pravděpodobnost dvou kroků doleva -- tak to počítám, pokud kliknete na buňku, uvidíte předpis -- je 1 děleno směrodatnou odchylkou 1,581 -- a v tom přímo odkazuji na patřičnou buňku -- krát odmocnina ze 2 pí. Vždycky mě mrazí při představě, že e na i pí je rovno mínus 1. Ale zde máme jinou úžasnou věc. Najednou, když máme dostatek pozorování, dostaneme tento předpis zde, který má e a pi a nějaké odmocniny, ale zase se tu tyto čísla objevují. To Vám říká něco o podstatně celého vesmíru. Nicméně pokračujme ... krát e ma mínus 1/2 krát x. X je to, k čemu se chceme dostat, tedy dva úspěchy. Abychom dostali přesně dva úspěchy, musíme mít 2 - průměr. Tedy pokud je průměr 5, 2 - průměr děleno směrodatnou odchylkou, děleno 1,581, to vše pod odmocninou. Odtud tato rovnice. Už jsem Vám říkal, že tot mi jen značí hodnotu zde. Pokud chci znát přesně tuto přesnou pravděpodobnost, zajímá mě tato plocha. Pokud by to byla jen úsečka, pak by plocha byla 0. Pamatujte, že v tomto případě musíte být přesní na 30 cm, protože nás zajímají jen přesné kroky. Ale normální rozdělení je spojitá funkce hustoty pravděpodobnosti, takže nám je schopná říci, jaká je pravděpodobnost, že jsme přesně 2,183 stopy vzdálení. Což se může stát, pokud bychom dělali čím dál menší a menší kroky. Ale v tomto je to užitečné. Může se to hodit, když by Vás zajímala situace nekonečného množství kroků. A může to být dobrý odhad nespojité funkce. A to, jak to zde aproximujeme, je, že se budeme ptát na pravděpodobnost, že jsem jednu stopu odsud. Tedy vynásobíme tuto výšku, kterou jsem spočítal zde, krát 1. Řekněme, že toto má základnu 1, abychom si ukázali, jak to lze přiblížit. Pokud vynásobíte toto krát 1, vyjde Vám toto číslo. A chtěl bych Vám ukázat. I s 10 pozorováními se křivky, normální rozdělení ve fialové a binomické rozdělení je zde v modré téměř se překrývají. A když se zvyšuje počet kroků, tak se sbíhají tak, že na sobě téměř kompletně sedí. Doporučuji Vám si s tím trochu pohrát. Vlastně Vám můžu ukázat, jak se překryjí. V této tabulce je konvergenční pracovní list, nebo můžete klepnout na kartě dole na konvergenci. Je to totéž, ale chci Vám jen ukázat, co se stane v různých případech. Dovolte mi vysvětlit tuto tabulku. Tak to je, jaká je pravděpodobnost přesunutí se vlevo. To Vám říká, jen tu ukáži bod, ve kterém je pravděpodobnost – a vy můžete změnit – mého konečného postavení 10. A to v podstatě říká, že pokud se pohnete desetkrát, tak aby bylo konečné postavení 10 napravo, musím udělat 10 kroků vpravo a 0 kroků doleva. Tady máme překlep, mělo by být pohyby ne pohybsy. Pokud udělám celkem 20 kroků, skončt 10 tahů napravo znamená udělat 15 kroků napravo a 5 nalevo. Stejně tak když si udělám celkem 80 kroků, když 80 krát hodím mincí na mincí, a půjdu podle ní doleva nebo doprava, abych nakonec skončil na 10 napravo, musím se hnout 45 kroků doprava a 35 doleva a to v jakémkoli pořadí, a skončím 10 napravo. Co chci zjistit je, jak začínám zvyšovat počet kroků/hodů– zde jsem zvolil max 170 – pokud začnu házet minci nekonečněkrát, zajímá mě, jaká je pravděpodobnost, že nakonec budu 10 napravo. A chci Vám ukázat, že čím více kroků uděláte, tím více se normální rozdělení stává lepší a lepší aproximací binomického rozdělení. Toto zde počítá pravděpodobnost binomickou, stejně jako jsme ji počítali dříve, a můžete se podívat do buňky na vzorec. Považuji pohyby vlevo jako úspěch. Toto je 10 a hledáme 0, už tušíte, co to znamená. Je to 10 faktoriál nad 0 faktoriál krát 1/2 na 0 krát 1/2 na 10. Odsud to číslo pochází. Toto zde máme už spočítané. Ve skutečnosti, dovolte mi to rozepsat, protože si myslím, že to je zajímavé. Mám celkem 60 kroků, takže je to 60 faktoriál děleno, musím mít 25 kroků vlevo takže 25 faktoriál. Tedy 60 mínus 25 faktoriál krát pravděpodobnost kroku vlevo a těch je 25, krát pravděpodobnost kroku vpravo, a těch je 35. To je, co nám binomické rozdělení pravděpodobnosti řekne. A pak musíme znát průměr a rozptyl pro každou ze situací a můžete se podívat na vzorec. Ale průměr je jen pravděpodobnost kroku doleva krát celkový počet kroků. Odchylka je pravděpodobnost kroku doleva krát pravděpodobnost kroku doprava. krát celkový počet kroků. A pak normální pravděpodobnost, ještě jednou, pravděpodobnost na základě normálního rozdělení pravděpodobnosti. Odhadněme ji stejným způsobem. A Excel má funkci normálního rozdělení, ale já jin zadal vzorcem, protože jsem chtěl trochu vidět, co se děje pod peřinou té funkce, kterou Excel ve skutečnosti používá. Ve skutečnosti mě tak zajímá, jaká je pravděpodobnost 25 kroků doleva? Ne, 45 kroků doleva. Pravděpodobnost 45 kroků doleva je rovna 1 děleno směrodatnou odchylku. V této situaci je směrodatná odchylka druhá odmocnina z 25. Takže je to 5 krát 2 pí krát e na minus 1/2 krát 45 mínus průměr, mínus 50 děleno směrodatnou odchylkou, která nám vyšla 5, na druhou. To mi říká hodnotu, jakou referuje normální rozdělení pro tuto situaci s touto směrodatnou odchylkou a tímto průměrem a to vynásobíme 1 – to ve vzorci nevidíte, protože tam nepíšu násobení 1 – zjistit oblast pod křivkou. Pamatujte, je to spojitá funkce. To tady mi dává číslo, ale přijít na pravděpodobnost, že jsem stopu od toho, to musím násobit 1. Je to jen aproximace. Sem tam bych měl použít integrál, ale tento malý obdélník je docela dobrý odhad plochy. V tomto grafu Vám chci ukázat, že jak celkový počet kroků roste a roste, rozdíl mezi tím, co nám říká normální rozdělení pravděpodobnosti a binomické rozdělení pravděpodobnosti se zmenšuje a zmenšuje co do pravděpodobnosti, že se na konci ocitnete 10 kroků vpravo. A toto číslo lze změnit. Dovolte mi ho pozměnit, abych to mohl předvést. Mohli byste se ptát jaká je pravděpodobnost, že skončíte 15 kroků vpravo? Myslím, že se něco děje s "float" proměnnou, protože když máte velké faktoriály tak se tady stane něco divného. Možná jen potřebujete zadat ještě něco vzdálenějšího. Pro 10 můžete jasně vidět, že se funkce sblíží a já se pokusím zjistit, proč jsem dostával ty divné zubovité vzory. Možná se děje něco divného při snímání obrazovky. Hlavním cílem bylo ukázat, že pokud chcete zjistit pravděpodobnost, že na konci budete 10 napravo, tak jak se zvyšuje počet hodů, tak se i normální rozdělení stává lepší aproximací pro binomické rozdělení. A jak jste blížíte nekonečnu tak se skutečně navzájem překryjí. Každopádně, to je z tohoto videa vše. Udělám ještě několik dalších videí na normální rozdělení, protože to je důležitý koncept. Zatím.
video