Popisná statistika
Popisná statistika (6/17) · 12:34

Rozpětí, rozptyl a směrodatná odchylka Co je to variační rozpětí, rozptyl a směrodatná odchylka a jak je spočítat?

Navazuje na Pravděpodobnostní rozdělení.
- V předchozím videu jsme mluvili o různých způsobech, jak vyjádřit míru polohy, nebo průměr nějakých dat. V tomto videu to trochu rozšíříme. Bude nás zajímat, jak vyjádřit rozptýlenost neboli variabilitu dat. Zamysleme se nad tím trošku. Řekněme, že máme čísla -10, 0, 10, 20 a 30. Řekněme, že tohle je jeden datový soubor. A pak máme další datový soubor obsahující čísla 8, 9, 10, 11 a 12. Nyní spočítáme aritmetický průměr v obou těchto souborech. Tak spočítejme průměr. Když se hlouběji ponoříte do statistiky, pochopíte rozdíl mezi populací a výběrem. Budeme předpokládat, že tohle je celá populace. Takže budeme pracovat s populačním průměrem. A jak uvidíte, budeme se bavit o populačních mírách variability. Vím, že tohle jsou všechno taková zvláštní slova. Později ale nebudete pracovat se všemi daty. Budete z nich mít pouze nějaký výběr a budete se snažit odhadnout, jak to vypadá v celé populaci. - Ale teď si s tím nemusíte lámat hlavu. Ale pokud se budete statistice věnovat více, chci jen, aby to bylo jasné. Takže populační průměr, nebo aritmetický průměr těchto dat, je -10 plus 0 plus 10 plus 20 plus 30. A to vše děleno 5, protože máme 5 hodnot. A čemu se tohle rovná? Mínus 10 plus 10 nám dá nulu. 20 plus 30 je 50. To vše děleno 5 se rovná 10. A jaký je průměr těchto dat? 8 plus 9 plus 10 plus 11 plus 12, to vše děleno 5. Můžeme na to jít takto: 8 plus 12 je 20. 9 plus 11 je dalších 20, to je 40. Takže tady máme 50. Přičetli jsme 10. Takže ještě jednou, tohle je 50 děleno 5. Takže populační průměr je v obou případech stejný. Nebo jestli se nechcete zabývat slovem "populační" a "výběrový", tak zkrátka oba tyto soubory mají přesně stejný aritmetický průměr. Když zprůměrujete všechna tato čísla, nebo když je sečtete a vydělíte 5, dostanete 10. A když sečtete tato čísla a vydělíte je 5, dostanete také 10. Ale je zřejmé, že se tyto skupiny čísel liší. Kdybyste se podívali pouze na toto číslo 10, řekli byste: možná jsou si tyto soubory velmi podobné. Ale když se na ně pořádně podíváte, můžete si všimnout jedné věci. Všechna tato čísla napravo jsou velmi blízko čísla 10. Nejvzdálenější číslo je pouze o 2 větší či menší než 10. 12 je jen o 2 větší než 10. Proti tomu tato čísla jsou mnohem dále od 10. Dokonce i ta nejbližší čísla jsou dále od čísla 10. A tato čísla jsou dokonce o 20 větší či menší než 10. Takže tato data zde jsou více rozptýlená, je to tak? Tato čísla jsou více vzdálená od průměru než tato čísla. Takže se zamysleme nad různými způsoby, jak měřit rozptýlenost. Neboli jak měřit to, jak daleko jsme v průměru od středu. Jeden z nejjednodušších způsobů je variační rozpětí. S tím se moc nesetkáte, ale je to jednoduchý způsob, jak porozumět tomu, jak daleko jsou od sebe největší a nejmenší číslo. Zkrátka vezmete největší číslo, což je v našem příkladu 30, a od něj odečtete nejmenší číslo. Takže 30 mínus -10, což se rovná 40. To nám řekne, že rozdíl mezi největší a nejmenší hodnotou je 40. Takže tento datový soubor má rozpětí 40. Tady je rozpětí opět rozdíl největšího čísla, což je 12, a nejmenšího čísla, což je 8. To se rovná 4. Takže zde je variační rozpětí skutečně dobrou mírou variability. Řekneme si, dobře, v obou případech je průměr 10. Ale když se podíváme na rozpětí, v tomto souboru je rozpětí mnohem větší. Takže zde budou hodnoty více rozptýlené. Ale z rozpětí si ne vždy můžeme udělat dobrý obrázek. Mohli byste mít dva soubory dat se stejným rozpětím. Přesto by v závislosti na tom, jak jsou tam čísla seskupená, mohly mít tyto soubory zcela jiné rozložení čísel. Míru variability, se kterou se setkáte nejčastěji, nazýváme rozptyl. Rozptyl. V tomhle videu si vlastně ukážeme směrodatnou odchylku. Ta se používá úplně nejčastěji, ale má velmi blízký vztah k rozptylu. Napíšeme symbol rozptylu. Budeme pracovat s populačním rozptylem. Ještě jednou, předpokládáme, že tahle data představují celou naši populaci, nejen výběr. Nejen podmnožinu dat. Takže rozptyl značíme sigma na druhou, tímto řeckým písmenem. Tohle je symbol pro rozptyl. A uvidíme, že písmenem sigma se značí směrodatná odchylka. A má to svůj důvod. Ale každopádně, definice rozptylu je následující. Vezmeme každou z těchto hodnot. Najdeme rozdíl mezi každou z těchto hodnot a průměrem. Umocníme tento rozdíl na druhou. A pak všechny tyto druhé mocniny rozdílů zprůměrujeme. Zní to dost složitě, ale až to budeme počítat, uvidíte, že to není tak špatné. Pamatujte si, průměr je 10. Takže vezmu první hodnotu, Udělám to tady. Trochu to posunu dolů. Takže první hodnota je -10. Od ní odečtu průměr. A výsledek umocním. Takže jsem právě zjistil rozdíl mezi první hodnotou a průměrem a umocnil ho. Díky tomu bude výsledek kladný. Plus druhá hodnota, 0, mínus 10, tedy mínus průměr, tohle je průměr. Tohle je ta desítka tady. To celé na druhou. Přičteme 10 mínus 10 na druhou, to je ta prostřední desítka tady. Plus 20 mínus 10, to je tato dvacítka, to celé na druhou. Plus 30 mínus 10, to celé na druhou. Takže tohle jsou druhé mocniny vzdáleností každé z těchto hodnot od průměru. Tohle zde je průměr. Zjišťujeme rozdíl mezi každou hodnotou a průměrem. Tyto rozdíly umocníme, sečteme a vydělíme je počtem hodnot. Takže dělám průměr všech těchto čísel, neboli druhých mocnin vzdáleností. Když to řeknete slovně, zní to velmi složitě. Ale prostě berete jedno číslo po druhém, zjistíte jeho vzdálenost od průměru, umocníte ji a pak to vše zprůměrujete. To máme 1, 2, 3, 4, 5 hodnot, takže děleno 5. Čemu se to rovná? -10 mínus 10 je rovno -20. -20 na druhou se rovná 400. 0 mínus 10 je -10. Umocněno na druhou je 100, takže plus 100. 10 mínus 10 na druhou, to je 0 na druhou, což je 0. plus 20 mínus 10 je 10, 10 na druhou je 100. plus 30 mínus 10 je 20, umocněno na druhou je to 400. A to vše vydělíme 5. A co dostaneme? 400 plus 100 je 500, plus 500 je 1000. To se rovná 1000 děleno 5, což je rovno 200. Takže v tomto případě bude rozptyl 200. Tohle je naše míra variability v tomto případě. A porovnejme to s tímto souborem. Porovnejme to s rozptylem těchto méně rozptýlených dat. Trochu to posunu dolů, i když už mi tu dochází místo. Možná to můžu posunout nahoru. To je lepší. Spočítám rozptyl tohoto souboru. Už známe jeho průměr. Rozptyl tohoto souboru se bude rovnat 8 mínus 10 na druhou, plus 9 mínus 10 na druhou, plus 10 mínus 10 na druhou, plus 11 mínus 10 na druhou, Ještě to trochu posunu. Plus 12 mínus 10 na druhou. Pamatujte si, těchto 10 je průměr, který jsme předtím spočítali. Nejdříve musíte spočítat průměr. Druhé mocniny vydělíme kolika? Máme 1,2,3,4,5 hodnot, takže pěti. Takže to bude 8 mínus 10 je -2, -2 umocněno na druhou je 4. 9 mínus 10 je -1, umocněno na druhou je 1. 10 mínus 10 je 0. 0 na druhou je prostě 0. 11 mínus 10 je 1. 1 na druhou je 1. 12 mínus 10 je 2. 2 na druhou je 4. Čemu se to celé rovná? To vše vydělíme 5. Takže to je 10 děleno 5. Takže to bude 10 děleno 5, což je rovno 2. Takže rozptyl těchto dat... ještě se ujistím, že to mám správně. Ano, je to 10 děleno 5. Takže rozptyl těchto méně rozptýlených dat je o hodně menší. Rozptyl tohoto souboru je jen 2. Takže tohle vám už něco ukázalo. To vám říká: podívejte, tohle jsou méně rozptýlená data než tato data. Problém s rozptylem je ten, že nepracujete se samotnými čísly, nýbrž s jejich vzdáleností od průměru, kterou umocňujete na druhou. Je to trochu takové umělé číslo. Pokud pracujete s nějakými jednotkami, řekněme, že toto jsou vzdálenosti v metrech, pak toto bude -10 metrů, 0 metrů, 10 metrů, 8 metrů a tak dále, a pak když to umocníte, dostanete rozptyl v metrech čtverečních. Je to trochu zvláštní systém jednotek. Proto lidé rádi uvádějí směrodatnou odchylku, což je prostě odmocnina z rozptylu. Neboli odmocnina ze sigma na druhou. A směrodatná odchylka se značí samotným písmenem sigma. Takže když zjistíme rozptyl, je snadné dopočítat směrodatnou odchylku obou těchto souborů. Směrodatná odchylka tohoto prvního souboru se bude rovnat odmocnině z 200. Kolik je odmocnina z 200? To je odmocnina ze dvou krát odmocnina ze 100. To je 10 odmocnin ze dvou. Tohle byl první soubor. A směrodatná odchylka druhého souboru je odmocnina z jeho rozptylu, takže odmocnina ze dvou. Takže směrodatná odchylka druhého souboru je rovna desetině směrodatné odchylky prvního souboru. Tohle je 10 odmocnin ze dvou, tohle jen odmocnina ze dvou. Takže tohle je desetinásobek směrodatné odchylky. Desetinásobek směrodatné odchylky. Tohle snad dává docela smysl. Zamysleme se nad tím. Tenhle soubor má desetkrát větší směrodatnou odchylku než tento. Nezapomeňme, jak jsme ji spočítali. Rozptyl jsme spočítali tak, že jsme vzali jednotlivé hodnoty, zjistili, jak daleko jsou od průměru, umocnili tento rozdíl na druhou a pak to zprůměrovali. Pak jsme výsledek odmocnili, abychom dostali hezčí jednotky. Ve výsledku jsme zjistili, že první soubor má desetkrát větší směrodatnou odchylku než druhý soubor. Takže se podívejme na tyto dva soubory. Tenhle má desetkrát větší směrodatnou odchylku, což intuitivně dává smysl, nemyslíte? Tím chci říct, že oba obsahují číslo 10, ale číslo 9 je jen o 1 menší než 10, zatímco 0 je o 10 menší než 10. 8 je jen o 2 menší. Ale tahle hodnota je o 20 menší. V průměru je desekrát dále. Takže směrodatná odchylka podle mě mnohem lépe ukazuje, o kolik jsou v průměru hodnoty vzdálené od průměru Každopádně, snad Vám to připadá užitečné.
video