Popisná statistika (1/17) · 3:56
Průměr, medián a modus Jaká existují měřítka střední hodnoty, jak je spočítáme a jak se mezi sebou liší?
Navazuje na
Pravděpodobnostní rozdělení.
Nyní se vydáme na cestu do světa statistiky, což je ve skutečnosti cesta k tomu, porozumět datům. Statistika je celá o datech. Když se vydáme na tuto cestu do světa statistiky, budeme se hodně věnovat něčemu, co nazýváme "popisná statistika." Pokud máme kupu dat a chceme o nich něco zjistit, můžeme tato data nějak popsat pomocí menšího množství čísel? Na tohle se nyní zaměříme. Jakmile budeme vybaveni znalostmi z popisné statistiky, můžeme začít data analyzovat a vyvozovat z nich závěry a úsudky, čili se začneme věnovat "statistické indukci," Takže když jsme si toto vyjasnili, zamysleme se nad tím, jak můžeme popsat data. Řekněme, že máme množinu čísel, budeme je považovat za "data." Například bychom mohli měřit výšku rostlin v naší zahraně. Řekněme, že máme šest květin, jejichž výšky jsou: 4 palce, 3 palce, 1 palec, 6 palců, 1 palec a 7 palců. Řekněme, že se někdo ve vedlejším pokoji zeptá, aniž by na tyto květiny díval: "Jak vysoké jsou tvé květiny?" A chce slyšet pouze jedno číslo, které co nejlépe odpovídá výšce našich květin. Co bychom mu měli odpovědět? Jak to vůbec můžeme zjistit? Možná, že chceme nějaké typické číslo. Možná, že chceme číslo, které nějakým způsobem zachycuje střední výšku květin? Nebo raději číslo odpovídající výšce, kterou má většina květin? Nebo spíše číslo, které je v řadě těchto čísel někde uprostřed? Ať už bychom vybrali kterýkoli z těchto způsobů, udělali bychom vlastně totéž, s čím přišli i tvůrci popisné statistiky. Ti se také nejprve zeptali: "No... tak co s tím?" Nejprve si povíme, co to je Průměr. Slovo průměr se používá v běžné řeči, kde má poměrně specifický význam. Když lidé mluví o průměru, mají na mysli "aritmetický průměr," u kterého se také na chvíli zastavíme. Ale ve statistice, průměr je něčím obecnějším. Znamená to: řekněte mi "typické" nebo "střední" číslo. Je to vlastně pokus najít měřítko střední hodnoty. Takže ještě jednou, máme kupu čísel a snažíme se najít jedno číslo (průměr), které reprezentuje typickou či střední hodnotu těchto čísel. Uvidíme, že existuje více druhů průměrů. První z nich znáte asi nejlépe. Právě ten mají lidé na mysli, když mluví o průměrné známce ze zkoušky nebo průměrné výšce. Je to aritmetický průměr. Napíšu to žlutě: "aritmetický průměr." Pochází ze slova aritmetika, což je matematická disciplína zabývající se čísly. A je to vlastně jen součet všech čísel dělený... A je to jen něco, co si vymysleli lidé, protože jim to přišlo užitečné. ... je to tedy součet všech čísel dělený jejich počtem. Jaký je tedy aritmetický průměr této množiny dat? Spočítejme si to. Bude to 4 + 3 + 1 + 6 + 1 + 7, a protože máme 6 čísel, vydělíme tento součet šesti. A dostaneme: 4 plus 3 se rovná 7 plus 1 se rovná 8 plus 6 se rovná 14 plus 1 se rovná 15 plus 7 se rovná 22. Ještě jednou, to máme 7, 8, 14, 15, 22. A tohle vydělíme šesti. Můžeme to napsat jako smíšený zlomek: 6 se vejde do 22 třikrát a zbytek bude 4. Takže to máme 3 a 4/6, což je totéž jako 3 a 2/3. Lze to vyjádřit i jako periodické číslo 3,6. Můžeme to napsat jakýmkoli z těchto způsobů. Každopádně jde o jakési reprezentativní číslo, které zachycuje střední hodnotu. Ještě jednou si připomeňme, že tohle všechno si vymysleli lidé. Není to tak, že by někdo našel třeba jakýsi náboženský dokument a řekl si: "Takhle se musí definovat aritmetický průměr." Není to výsledek žádného zázračného výpočtu jako třeba zjištění, jak spočítat obvod kružnice. Což skutečně vzešlo z jakéhosi záhadného zkoumání vesmíru. Je to jen lidský výtvor, který považujeme za užitečný. Existují ale i jiné způsoby, jak najít "typickou" hodnotu pro skupinu dat. Dalším běžným způsobem je medián. Napíšu růžově "medián." Dochází mi barvy... Medián je vlastně číslo nacházející se uprostřed. Pokud seřadíte všechna čísla a vyberete to prostřední, tak získáte medián. Tak jaký je medián této skupiny dat? Zkusíme si je seřadit. Máme číslo 1, znovu 1, 3, 4, 6 a 7. Které číslo je uprostřed? Vidíme, že máme sudý počet čísel, takže uprostřed se nachází dvě čísla, a to 3 a 4. Pokud máme 2 prostřední čísla, pak vezmeme jejich prostředek, tedy vlastně aritmetický průměr těchto dvou čísel, čímž najdeme medián. Medián tedy leží uprostřed mezi čísly 3 a 4. V našem případě je roven 3,5. Pokud tedy máme sudý počet čísel, medián je aritmetickým průměrem dvou prostředních. Pokud máme lichý počet čísel, je to jednodušší. Vezměme si jinou skupinu dat. Vezměme si tato data, která jsem už seřadil. Tato data jsou 0, 7, 50, 10 000 a 1 000 000. Trochu bláznivá data... Co je v tomto případě medián? Máme 5 čísel, což je lichý počet. Je tedy snadné najít prostřední z nich. Medián je číslo, které je větší než dvě z nich a menší než dvě z nich. Tedy číslo přesně uprostřed. V našem případě je mediánem číslo 50. Třetím, asi nejméně používaným měřítkem střední hodnoty je modus. Zní to složitě, ale jde zkrátka o číslo, které se mezi daty vyskytuje nejčastěji, pokud mezi nimi nějaké takové je. Pokud by se každá hodnota v datech vyskytla jen jednou, pak by tato data žádný modus neměla. Jaký je modus v našich původních datech? Máme tady jedenkrát 4, jedenkrát 3, dvakrát 1, pak máme jedenkrát 6 a jedenkrát 7. Nejčastěji tady máme číslo 1, takže toto je modus. Tohle všechno byly způsoby, jak zjistit typickou nebo prostřední hodnotu skupiny dat. Dělali jsme to ale několika různými způsoby. A časem uvidíme, že každý z těchto způsobů se hodí k něčemu jinému. Průměr je používaný nejčastěji. Medián je důležitý, pokud máme nějakou bláznivou skupinu dat, která by nám mohla s průměrem pěkně zamávat. Modus může být v některých situacích také užitečný. Zvlášť pokud se v datech jedno číslo vyskytuje mnohem častěji než ostatní. Tak to bychom měli. V dalším videu se na to podíváme více do hloubky.
0:00
3:56