Popisná statistika (7/17) · 3:56
Populační rozptyl Ukážeme si, jak určit populační rozptyl, tedy jak vyjádřit, jak moc jsou data rozptýlena okolo populačního průměru.
Navazuje na
Pravděpodobnostní rozdělení.
Řekněme, že se snažím posoudit, kolik let zkušeností mají lidé u nás v Khanově akademii. Nebo kolik let zkušeností mají v průměru, a zaměřím se konkrétně na aritmetický průměr Takže půjdu a budu se ptát lidí tady u nás. Představme si situaci, kdy byla Khanova akademie malou organizací, kdy zde bylo jen 5 lidí. Takže je najdu a zeptám se každého v celé této populaci. Zajímá mě počet let zkušeností v celé populaci osob v Khanově akademii. Počet let zkušeností v naší organizaci, v Khanově akademii, když tu bylo jen 5 lidí. Nyní je nás celkem 36. Takže řekněme, že tu máme jednoho člověka hned po škole s jedním rokem zkušeností, takže sotva vyšel ze školy, někoho se 3 roky zkušeností, někoho s 5 lety zkušeností a někoho se 7 lety zkušeností. A nakonec někoho velmi zkušeného, nebo dostatečně zkušeného, se 14 lety zkušeností. Takže tohle jsou naše data, jde o celou populaci, v níž zkoumáme počet let zkušeností. Předpokládám, že máme v naší organizaci jen 5 lidí. Jaký bude populační průměr počtu let zkušeností? Jaký je průměrný počet let zkušeností v této populaci? Můžeme to prostě spočítat, průměrný počet let zkušeností, a zapíšu to jako μ, protože mluvíme o celé populaci. Tohle značí parametr populace. Bude se rovnat součtu hodnot všech pozorování, od prvního, takže tato první hodnota, až po páté pozorování. V tomto případě máme pět hodnot, takže budeme sčítat hodnoty od první přes druhou, třetí až po pátou. takže to se bude rovnat x1 plus… a ještě jsem zapomněl napsat, že to vydělím počtem všech pozorování plus x2 plus x3 plus x4 plus x5 a to vše vydělíme pěti. Vlastně je to totéž, jako kdybychom řekli: „Všechny tyhle věci sečtu a vydělím je jejich počtem.“ Tak pojďme na to. Vyndáme si kalkulačku. Všechno to sečtu: 1 plus 3 plus 5 plus 7 plus 14. Máme pět hodnot, takže to vydělím pěti a dostanu výsledek šest. Populační průměr počtu let praxe v naší organizaci je 6. Tedy 6 let praxe. To je sice zajímavé, ale mě zajímá ještě něco jiného. Chtěl bych vědět, jak moc jsou data rozptýlená okolo průměru. jak moc jsou rozptýlená okolo průměru, a mohl bych někomu dát prostě samotná data, ale raději bych našel parametr, který nám řekne, jak moc jsou tato data v průměru rozptýlená okolo tohoto čísla. Budeme tomu říkat „rozptyl.“ Takže se budeme bavit o populačním rozptylu, jen abychom si to ujasnili. Je to parametr. Populační rozptyl označíme řeckým písmenem sigma, malým sigma na druhou. A co teď uděláme: zjistíme vzdálenost každého z těchto bodů od průměru, pak tuto vzdálenost umocníme na druhou, abychom měli vždy kladnou hodnotu, a vydělíme výsledek počtem hodnot. Takže vlastně hledám průměrnou čtvercovou vzdálenost, což může znít docela složitě. Ale zkusme to prostě udělat. Takže vezmeme první pozorování: od dané hodnoty odečteme průměr. Tak dostaneme záporné číslo, ale pokud ho umocníme, bude to už kladné číslo. Bude to tedy čtverec vzdálenosti mezi jedničkou a naším průměrem. K tomu přičteme čtverec vzdálenosti mezi trojkou a průměrem. A pak přičteme čtverec vzdálenosti mezi pětkou a průměrem. A protože to umocňujeme, nezáleží na tom, jestli odečteme pětku od šestky nebo naopak. Když to umocníme, dostaneme tak jako tak kladné číslo. Pak přičteme druhou mocninu rozdílu vzdálenosti mezi sedmičkou a průměrem, to je 7 mínus 6 na druhou. Tohle je nás populační průměr a my hledáme rozdíl. A konečně, přičteme čtverec rozdílu mezi 14 a průměrem. Nakonec najdeme průměr těchto druhých mocnin vzdáleností. Máme pět hodnot umocněných na druhou, takže je vydělíme pěti, takže to tady spočítám a co dostanu? To bude 1 mínus 6, což je mínus pět. Mínus pět na druhou je 25. Tři mínus šest je mínus tři, mínus tři na druhou je 9. Pět mínus šest je mínus jedna, po umocnění dostaneme plus 1. Sedm mínus šest je jedna, po umocnění dostaneme 1. A čtrnáct mínus šest je osm, když to umocníme, dostaneme 64. To všechno vydělíme pěti. Nepotřeboval bych ani kalkulačku, ale mám sklon dělat spoustu zbytečných chyb, když tvořím video. Takže to máme 25 + 9 + 1 + 1 + 64, to vše děleno pěti, což je 20. Takže střední čtvercová vzdálenost, nebo průměr druhých mocnin vzdáleností od populačního průměru, je roven 20. Možná si řeknete: ale vždyť ty hodnoty nejsou vzdálené od průměru o 20. Ale nezapomeňte, je to druhá mocnina vzdáleností od průměru, všechno jsem to umocnil, aby to bylo kladné. Uvidíme později, že to má i další pěkné vlastnosti. Ale ještě poslední věc: jak to vyjádřit matematicky? Už víme, jak zapsat populační a výběrový průměr. Takže tohle už nám snad nebude připadat strašidelné. Ale jak tedy zapsat to, co jsme tu právě udělali? Promysleme si to, říkáme, že populační rozptyl získáme tak, že vezmeme každé pozorování, začneme prvním, a budeme pokračovat až do n-tého pozorování v naší populaci, přičemž tady mluvíme skutečně o celé populaci. A nebudeme pracovat se samotným pozorováním, ale odečteme od něj populační průměr, to celé umocníme, a součet toho všechno bude v čitateli zlomku. Tohle všechno jsem sečetl, sečetl jsem rozdíly mezi každou z těchto hodnot a populačním průměrem a umocnil je. Chci, ať je jasné, jak jsem dostal tenhle rozptyl, vydělil jsem to všechno počtem pozorování, který máme. Může se to zdát strašidelné, nebo vás to může odrazovat, ale prostě jen říkáme: spočítejte populační průměr, to udělejte nejdříve, a pak od každého pozorování v populaci tento populační průměr odečtěte. Výsledek umocněte na druhou, pak to všechno sečtěte a nakonec to prostě vydělte počtem pozorování. A tak dostanete populační rozptyl.
0:00
3:56