Popisná statistika
Popisná statistika (12/17) · 13:07

Směrodatná odchylka

Navazuje na Pravděpodobnostní rozdělení.
.. Připomeňme si, co jsme se zatím naučili a snad to do sebe všechno trochu líp zapadne. Pak uděláme trochu výpočtů s reálnými čísly a to myslím celou látku usadí. Takže nejprve -- udělám tady tabulku. Když pracujeme s -- říkejme tomu koncept a pak si řekneme jestli pracujeme s populací nebo se vzorkem Prvním statistický koncept se kterým jsme přišli, byla průměrná hodnota, neboli centrální tendence a naučili jsme se jeden způsob, jak určit průměrnou hodnotu nějaké množiny dat. Další ukazatele byly medián a mód. Ale průměrná hodnota ukazuje víc, obzvlášť když mluvíme o rozptylu a směrodatné odchylce. Průměr populace jsme značili řeckým písmenem Mí , rovná se sumě všech bodů dat v té populaci. To je i. ... Takže to všechno sečteme. Začneme s prvním a jdeme až k tomu n-tému. Předpokládám, že je tam N dat v populaci. A pak to vydělíte celkovým počtem čísel co máte. To je ten průměr o kterém jste mluvili, ještě než jste se učili statistiku. Sečíst čísla a vydělit to počtem čísel, která máte. U vzorku je to to samé. Jenom používáme jinou terminologii. Průměr vzorku -- změním barvu -- píše se to jako x s pruhem. A to se rovná součtu všech dat ve vzorku. Takže každé xi v tom vzorku. Ten vzorek bude asi menší než ta celá populace. Takže začneme s tím prvním. A pak jdeme k malému n, předpokládejme, že malé n je menší než velké N. To je to samé, jako když jsme mluvili o průměru a brali jsme průměr celé populace. Pak to vydělíš počtem všech těch dat. ... To nám dává centrální tendenci. Jeden z ukazatelů centrální tendence. Ale co kdybychom chtěli vědět, jak dobrý ukazatel to je pro tu populaci, či ten vzorek? Nebo, průměrně, jak dalako leží data od tohoto průměru. A to přichází na řadu rozptyl. Jenom zas přehodím barvičky. Rozptyl. ... V populaci ta proměnná, neboli notace pro rozptyl je sigma na druhou. To znamená rozptyl. A to se rovná -- vezmeme každý bod .. Zjistíme jeho rozdíl od průměru. který jsme zjistili tady. Dáme to na druhou, abychom získali rozdíl nadruhou. A pak z toho zjistíme průměr. Vezmeme průměr všech těch vzdáleností. Takže -- vezmeme sumu od i rovno 1 do n a vydělíme n. To je roztpyl. A potom rozptyl vzorku -- a tohle bude trochu zajímavější a o tom jsme mluvili v minulém videu. Když chcete dobře odhadnout rozptyl v populaci, když mluvíme o rozptylu vzorku. Abychom mohli dostat nezaujatý odhad uděláme to podobně, ale na konci budeme dělit n-1 . Tak si to napíšeme. .. Rozptyl vzorku, tedy nezaujatý rozptyl se značí s na druhou. A uděláme to tak, že vezmeme rozdíl mezi každým bodem a tím průměrem a průměrem vzorku. předpokládám, že neznáme průměr populace.- Možná známe. Ale kdybychom ho znali, tak se nemusíme zabývat tou nezaujatostí, tady ve jmenovateli. Ale když máte vzorek, tak většinou jediná cesta, jak zjistit průměr populace, je odhadnout ho z průměru vzorku. Takže předpokládám, že máme pouze průměr vzorku. A teď ty rozdíly dáme na druhou a sečteme od i = 1 do n , protože máme n dat. Jestliže chceme nezaujatý odhad, vydělíme n - jedna. A už jsme trochu mluvili o tom, proč tady chceme n-1 , místo n. V jednom z dalších videí to dokážu. Nejdřív experimentálně v Excelu a potom -- což by nebyl důkaz -- potom to dokážu trochu formálněji. Teď to nechme. Další co se naučíme o čem jste asi slyšeli: směrodatná odchylka. Možná nejpoužívanější slovo statistiky. Hodně lidí to používá, možná ne všichni to úplně doceňují. ... Snad brzy doceníte vše, co je do toho zahrnuto. Směrodatná odchylka, jakmile znáte rozptyl, je docela jasná. Je to odmocnina z rozptylu. Směrodatná odchylka populace se zapisuje jako sigma, což se rovná odmocnině z rozptylu. A teď asi chápete, proč se rozptyl zapisuje jako sigma na druhou. To se rovná odmocnině z tohohle celého. To se rovná odmocnině -- nejspíš mi dojde místo -- z tohohle celého. Takže ta suma, -- nebudu psát ani nahoru, ani dolů, ať v tom není nepořádek -- xi - Mí to celé na druhou, děleno n. A když chcete směrodatnou odchylku vzorku, tady to bude trochu zajímavější. Směrodatná odchylka vzorku, se rovná odmocnině z rozptylu vzorku, -- ukazuje se, že to není nezaujatý ukazatel pro tohle -- teď nechci zacházet do podrobností -- A tohle je vlastně docela dobrý ukazatel pro tohle. Střední hodnota tohohle, bude toto. Do hloubky to prozkoumáme později. Ukazuje se, že tohle není úplně to samé jako střední hodnota tohohle. To teď nechme. Proč vlastně vůbec hovořit o směrodatné odchylce. Tak za prvé, ty jednotky vyjdou trochu líp. Kdybychom měřili v metrech, jo, měřili bychom třeba délku, potom ty jednotky rozptylu by vyšly v metrech čterečních. ne? Protože bereme metry minus metry to jsou metry a to na druhou jsou metry čtvereční. A to je trochu divné, když řeknete, že průměrný rozptyl od centra je v metrech čtverečních. Tak nejprve vezmeme tu odmocninu dostaneme tohle v metrech. Tak říkáme, směrodatná odchylka je x nebo y metrů. Pak se naučíme trochu o tom, že můžeme modelovat data podle Gaussovy křivky, když očekáváme normální distribuci dat . To nám řekne něco o tom o kolik směrodatných odchylek jsme daleko od průměru. To je fuk..Nechci tedˇ zacházet do technických detailů. Pojďme si jich pár vypočítat. Počítáme: máme čísla 1, 2, 3, 8 a 7. Řekněme, že to je naše populace. Jaký bude průměr? 1 + 2 +3 + 3 +3 + 6 14 14 + ´7 ´= 21 takže průměr, součet všech dat je 21 děleno celkovým počtem dat to je 12345 21 / 5 to je 4,2 Ok Teď chceme rozptyl. Předpokládáme, že tohle je celá populace. Rozptyl této populace se bude rovnat součtu druhých mocnin těch rozdílů čísel z 4.2. Vezmu kalkulačku 1 - 4,2 + 2 - 4,2 atd atd. Tohle všechno -- vím vypadá to trochu divně -- děleno počtem datových bodů -- děleno 5. Vytáhnu kalkulačku. OK Tady to máme. Vezmu radši grafickou kalkulačku. .. .. Tak, to bude lepší. Uvidím co píšu. Vymažu to. Vezmu 1 - 4,,2 na druhou, + 2 - 4,2 na druhou + 3 - 4,2^2 + 8 -4,2^2 , jen beru sou4et vzdáleností od středu na druhou, ještě jeden, +7-4,2^2. Takže ten součet je 38,8. Takže čitatel se rovná 38,8 dělono 5 Takže tohle je součet druhých mocnin těch vzdáleností. Každé z těchto, jenom abyste si to dali do vztahu s tím vzorcem. je xi - průměr, to celé na druhou. A když vezmeme tu sumu -- tento čitatel je suma všech xi mínus průměr na druhou z i se rovná od 1 do n. To je 38,8. to jsem teď spočítal. Jenom jsem vzal každý prvek minus ten průměr na druhou a sečetl jsem to , máme 38,8 - A teď to vydělím n , což je 5. Tady to n nahoře je taky 5. Jasné? 38,8 děleno 5 je 7,76. Takže rozptyl -- -- je roven 7,76. Kdyby to byl vzorek, nějaké větší distribuce, kdyby to byl vzorek, větší populace. místo děleno 5 , bychom měli děleno 4. A kdybychom měli rozptyl 38,8 / n minus 1, což jsou 4. Dostali bychom rozptyl 9,7 kdybychom dělili n minus 1 namísto n. Ale to je teď jedno. Změníme n. Jakmile máte rozptyl, směrodatná odchylka je snadná. Vezmete odmocninu. Odmocnina z 7,76, je 2,78. 2,78 je ta směrodatná odchylka, tohle nám dává informaci o tom , jak je v průměru daleko číslo od toho průměru. A dává nám to v jednotkách původního měření. Dochází nám čas. Uvidíme se v příštím videu. Ještě jedna věc. Kdyby to byl vzorek. říkali jsme, že rozptyl je 9,7, Potom směrodatná odchylka bude jen odmocnina z tohohle. To nám dává 3,11. 3,11. Doufám, že si to teď konkrétně představíte. Měli jsme tu zatím sigmy. Když to vidíte s konkrétními čísly tak to snad není tak těžké. Uvidíme se příště. ..
video