Popisná statistika
Popisná statistika (5/17) · 8:18

Jak vytvořit krabicový graf s vousy Jak analyzovat data s pomocí krabicového grafu s vousy (box-and-whisker plot).

Navazuje na Pravděpodobnostní rozdělení.
Majitel restaurace chce zjistit, odkud jsou jeho stálí zákazníci. Jednoho dne se rozhodl, že shromáždí údaje o tom, z jak velké vzdálenosti (v mílích) k němu zákazníci přijíždějí. Zákazníci uvedli tyto vzdálenosti. Majitel chce vytvořit graf, který by mu pomohl najít rozpětí vzdáleností, toto je klíčové slovo, rozpětí vzdáleností, a průměrnou vzdálenost, střední hodnotu. Jaký typ grafu by měl použít? Odpověď na tuto otázku by měla být jednodušší, než skutečné vytvoření grafu, k tomu se také dostaneme, ale majitel si chce lépe představit rozpětí informací a zároveň chce medián. Jaký graf tedy zachycuje obě tyto informace? Krabicový graf s vousy! Zkusme tedy nakreslit krabicový graf s vousy! Abychom ho mohli nakreslit, budeme potřebovat medián a také medián každé poloviny dat. Pokud potřebujeme pracovat s mediánem něčeho, je vždy dobré si svá data nejprve uspořádat. Pokusme se tedy uspořádat naše údaje. Které číslo je tu tedy nejmenší? Máme tu jednu 2, škrtneme si jí. Pak je tu další 2 a to jsou už všechny. Pak tu máme 3, další 3 a to jsou asi všechny. Pak tu máme 4 a další 4. Jsou tu nějaké 5? Žádné. Máme tu nějaké 6? Ano, tady. Je to zřejmě jediná 6. Nějaké 7? Ano, jednu máme tady. Zapomněl jsem ještě 1, dám jí na začátek. Vlastně jsem zapomněl na dvě 1. Obě 1 jsou hned na začátku řady. Takže mám 1, 2, 3, 4, žádnou 5, jednu 6, jednu 7, jednu 8 Jsou tu nějaké 9? Žádné. Nějaké 10? Ano, jedna 10. Nějaké 11? Ano, jedna 11. Nějaké 12? Ne. Pak tu máme 14 a 15 a ještě 20 a 22. Uspořádali jsme tedy všechna naše data a mělo by být relativně snadné najít prostředek. Medián. Kolik tedy máme datových bodů? 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 11, 12, 13, 14, 15, 16, 17 Prostřední hodnota je číslo, pro které platí, že 8 čísel bude větších a 8 čísel menších než ono samo. 1, 2, 3, 4, 5, 6. 7, 8. Číslo 6 je větší než prvních 8 hodnot a pokud jsem správně počítal, menší než 8 následujících hodnot. 1, 2, 3, 4 5, 6, 7, 8. Je to tak, je to medián. Nyní se podívejme na krabicový graf s vousy. Máme medián, který vpodstatě dělí náš soubor hodnot na dvě části. Nyní vezmeme medián každé z těchto dvou částí. Je zvykem, že medián vyjmeme a pracujeme jen se zbývajícími hodnotami. Někdy medián mezi hodnotami zůstává, ale standardně se dává pryč a pak se pracuje s tímto souborem zvlášť a s tímto také zvlášť. Pokud se nejprve podíváme na tuto část, tedy vpodstatě spodní polovinu čísel, jaký je medián těchto čísel? Máme 1, 2, 3, 4, 5, 6, 7 8 datových bodů. Vyjdou nám tedy vlastně dvě středová čísla. Ta dvě středová čísla jsou 2 a 3. Tři čísla jsou menší než tato dvě čísla a tři čísla jsou větší. Medián dostaneme tak, že vypočítáme průměr těchto dvou čísel. V polovině mezi 2 a 3 je tedy 2,5. 2 plus 3 je 5, děleno 2 je 2,5 Medián této spodní poloviny je 2,5. A nyní střed horní poloviny. Opět máme 8 datových bodů a prostřední dvě čísla jsou 11 a 14. Průměr těchto dvou čísel je 11 plus 14 je 25. Polovina z 25 je 12,5. 12,5 je přesně v polovině mezi 11 a 14. Nyní už máme všechny informace, které potřebujeme k tomu, abychom mohli vytvořit náš krabicový graf s vousy. Nakreslím číselnou osu jak nejlépe dovedu. To je ona. Řekněme, že tady je 0. Musí to být dostatečně dlouhé, abych mohl vyznačit 22. Tady je 0, tady je 5, tady 10 tady někde 15, tady někde 20 tady bude 25, můžeme pokračovat dál 30, možná 35. Existuje několik způsobů, jak graf nakreslit. Nejprve krabicová část krabicového grafu s vousy. Krabice představuje střední polovinu našich hodnot. Představuje tuto část hodnot, tedy hodnoty mezi dvěma... mezi mediány obou polovin. Toto je tedy část, kterou bude představovat krabice. Začneme přímo tady na té spodní...s hodnotou 2,5, která v podstatě odděluje první kvartil od druhého, první čtvrtinu čísel od druhé čtvrtiny čísel. Vyznačíme to sem. Toto je 2,5. 2,5 je v polovině mezi 0 a 5. To je 2,5 a tady nahoře máme 12,5. 12,5 je přímo tady. Je to přímo tady, 12,5. Je to v polovině. V polovině mezi 10 a 15 je 12,5. 12,5 přímo tady. Odděluje třetí kvartil od čtvrtého kvartilu. A teď naše krabice, všechno mezi tím bude střední polovina našich čísel, střední polovina našich čísel a chceme ukázat, kde je skutečný medián, což je jedna z věcí, kterou jsme chtěli zjistit v našem původním zadání majitele restaurace, tedy z jaké vzdálenosti zákazníci přijíždějí. Medián je tedy 6. Můžeme to tu vyznačit. 6 je někde tady, růžovou barvou. Tady je 6. A nyní vousy našeho grafu nám ukazují rozsah našich hodnot. Nakreslím to nějakou novou barvou, třeba oranžovou. Podíváme se, jak čísla stoupají nahoru až k 22. Tady je 22, naše čísla jdou až sem k 22. A na druhé straně klesají až k 1. 1 je někde tady. Klesají až k 1... Tady ho máme - náš krabicový graf s vousy. Vidíte, že když máte takový graf, můžete už pouhým okem vidět, kde je medián. Je uprostřed krabice. Znázorňuje střední polovinu, kam až sahá rozpětí, jádro rozpětí. Kromě toho znázorňuje také rozsah, kam až jsou naše hodnoty rozloženy. Velmi dobře nám znázorňuje jak medián, tak i rozpětí našich dat.
video