Statistická indukce
Přihlásit se
Statistická indukce (10/20) · 14:03

Intervaly spolehlivosti Jak se odhaduje pravděpodobnost, že skutečný průměr populace leží v určitém intervalu kolem průměru výběru?

Navazuje na Popisná statistika.
Vybereme 36 jablek z více než 200 000 jablek, která se urodila ve zkoumaném sadu. Průměrná váha vybraných jablek je 112 gramů se směrodatnou odchylkou 40 gramů. Jaká je pravděpodobnost, že průměrná váha všech 200 000 jablek je v rozmezí 100 až 124 gramů? Zamysleme se nad tím. Existuje nějaké rozložení vah všech 200 000 jablek, respektive více než 200 000 jablek. Dokonce ani nevíme kolik jablek přesně je, je jich prostě hodně. Takže existuje rozdělení vah v celé této populaci. Možná vypadá nějak takto. Bude existovat nějaká průměrná váha. Existuje nějaká průměrná váha. Nevíme, kolik ten průměr přesně je. A také tu existuje směrodatná odchylka populace. Tohle by mohla být jedna směrodatná odchylka na populačním průměrem, tohle bude přibližně jedna směrodatná odchylka pod ním. Řekněme, že tato vzdálenost se rovná standardní odchylce populace. Jsou to parametry, které neznáme, a které se týkají celé populace. Toto je rozložení vah v celé populaci. Z předchozích videí jsme se už vidali, že z populace můžeme provádět opakovaně výběr, Představme si, že opakovaně provádíme výběry jisté velikosti, v tomto videu se soustředíme na výběry o velikosti 36. V každém výběru zjišťujeme průměrnou hodnotu těchto výběrů a nakreslíme graf zobrazující četnost jednotlivých průměrů. Získáme tak nakonec cosi, čemu se říká výběrové rozdělení výběrového průměru. Napíšu to sem. Výběrové rozdělení výběrového průměru. Mohlo by vypadat nějak takto. Zkusím to nakreslit trochu větší, protože to asi ještě budeme potřebovat. Bude se velmi blížit normálnímu rozdělení. Bude mít nějaký průměr, řekneme si ho, a já ho nakreslím sem. Toto je průměr výběrového rozdělení. A víme, že průměr výběrového rozdělení, nebo jinak řečeno průměr z průměrné hodnoty všech výběrů, se bude ve skutečnosti rovnat průměru původní populace. Tohle rozdělení má také nějakou směrodatnou odchylku. Možná, že tohle je směrodatná odchylka nad průměrem, tohle pak směrodatná odchylka pod průměrem, právě tady. A můžeme ji určit ze standardní odchylky výběrového rozložení průměrů Víme, že může být dáno, nebo jej lze nějak aproximovat, protože pro velmi rozsáhlé výběry je to velmi přesný odhad. Existují opravné faktory, které se používají pro menší výběry. Tohle, ale bude standardní odchylka naší populace vydělená druhou odmocninou - viděli jsme to v našich dvou posledních videích - druhou odmocninou počtu prvků ve výběru, které jsme měli k dispozici, když jsme vypočítávali každý z těchto průměrů. V tomto příkladu víme, že vybíráme 36 prvků. Tak tohle je druhá odmocnina z 36. Tohle je výběrové rozložení průměru výběru napíši to sem. Pro n, které se rovná 36. V každém z košíků vybraných jablek je 36 kusů a pak zjistíme jejich průměrnou váhu. A každý takový průměr je vlastně výběr z rozložení, které máme tady. Průměry jsou výběry z tohoto - to, co používáme k výpočtu výběrů jsou výběrové hodnoty, neboli to, co jsme používali k výpočtu průměrů jsou výběry z tohohle. Doufám, že to není příliš matoucí. Není to však poprvé, co to vidíme. Standardní odchylka tohoto rozložení bude standardní odchylkou téhle standardní odchylky populace, kterou vydělíme 6. Tohle však stále neznáme. Neznáme tenhle parametr tady. Když jsme si tohle řekli, soustřeďme se znovu na to, na co se nás ptají. Chtějí vědět, jaká je pravděpodobnost toho, že průměrná váha těchto 200 000 jablek. Že průměrná váha těchto 200 000 jablek vyhovuje těm parametrům tady. Chtějí vědět, jaká je pravděpodobnost toho, že váha je mezi 100 a 124 gramy. Ptají se se nás vlastně na to, zda něco, co je mezi 100 a 124, se liší nejvýše o 12 od našeho výběrového průměru. To je celé. Jaká je pravděpodobnost, že tohle se neliší více než o 12 výběrového průměru? Liší-li se to o méně než 12 nebo o 12, dostaneme se na 100. Je-li to o 12 více, dostáváme se na 124. Ptají se nás tedy na to, jaká je pravděpodobnost, že průměr populace, tento parametr, tato neznámá, se liší nejvýše o 12 od průměru našeho výběru. Kdybych vám řekl, že jsem 5 metrů od vás, pak to také znamená, že jste 5 metrů ode mne. Je to přesně totéž, jako to, že pravděpodobnost, že výběrový průměr se liší nejvýše o 12 od skutečného průměru. Chtěl bych, aby to dávalo smysl. Kdybych řekl, jaká je pravděpodobnost, že jsem buď 5 metrů za vámi nebo 5 metrů před vámi, pak je to totéž, jako pravděpodobnost, že jste 5 metrů za mnou nebo 5 metrů přede mnou. To je, jako se ptát, jaká je pravděpodobnost, že jsme 12 metrů od sebe, nebo jaká je pravděpodobnost, že jsem 12 metrů od tebe. A to je stejné jako pravděpodobnost, že jsi 12 metrů ode mne. Ptají se na přesně stejnou věc. Přeformulujme-li to však takto, může vás napadnout, že by šlo použít výběrové rozložení výběrového průměru. Mám tu nějaký neznámý průměr, ale to je totéž jako ta hodnota tady. A tady to - chci to podtrhnout - je také totéž, protože tato hodnota a tato hodnota jsou totéž. Je to přesně stejné, jako bychom se ptali, jaká je pravděpodobnost, že náš výběrový průměr, se neliší o víc než 12 od stávajícího průměru výběrového rozložení. Tak říkáme jen to, jaká je pravděpodobnost, že jeden výběrový průměr se neliší o víc než 12 od tohoto skutečného výběrového průměru. Teď už byste měli přemýšlet co kdybych tak mohl říci kolik standardních odchylek tedy o kolik standardních odchylek se to liší od průměru tohoto rozložení, mohl bych pak použít tabulku Z a zjistit tuto pravděpodobnost. A přesně to uděláme. Je tu však jedna malá komplikace. Neznáme skutečnou standardní odchylku výběrového rozložení. Víme jen to, že je tady tohle vydělené šesti. Tohle tady však neznáme. Uděláme to tak, že zjistíme nejlepší odhad této hodnoty. Potřebujeme dobrý odhad standardní odchylky aktuální populace. Co je náš nejlepší odhad této hodnoty? Vybírali jsme 36 položek a máme výběrové rozložení 40. Máme výběrové rozložení - napíšu to takhle. Bude to přibližně rovno našemu výběrovému rozložení nebo výběrové standardní odchylce což je 40. Vzali jsme - zjistili jsme, že průmět našich 36 jablek. že jejich průměrná váha byla 112 gramů. Pak jsme zjistili, druhou mocninu rozdílu váhy těchto jablek a tohoto. Z toho jsme vypočetli průměr. Nevzali jsme přímo průměr vydělili jsme to n minus 1. To víme již z předchozích videí. To jsme odmocnili a dostali tak standardní odchylku výběru. To je její nejlepší odhad. Je-li toto nejlepší odhad tohoto, pak nejlepší odhadovací funkce pro toto tady bude rovna standardní odchylce výběru vydělené 6, což je 40 děleno 6 a to je rovno, vyndáme si kalkulačku, Je to 40 děleno 6, dostáváme 6, napíši to sem, dává to 6,67. Tak to tady je rovno 6.67. Náš nejlepší odhad standardní odchylky výběrového rozložení výběrového průměru je 6,67. ta vzdálenost tady je 6,67 Kolikrát se vejde standardní odchylka do 12, když se podíváme na toto rozložení? Stačí 12 vydělit 6,67. Znovu si vyndám kalkulačku. Máme 12 a dělíme 6,67 - přesně tímto číslem - tj. tou hodnotou, kterou jsme naposled dostali. Dává to přesně 1,8. Čísla nám tak pěkně vyšla. To je naprosto analogické jako kdybychom řekli, že je to pravděpodobnost toho, výběrový průměr se neliší od průměru o více než 1,8 standardní odchylky. Napíši to takto. Nelišilo se to o více než 1,8 standardní odchylky výběrového průměru - tj. o 1.8 tohoto od skutečného průměru našeho výběrového rozložení. A doslova na to se ptáme. A podívejme se na toto rozložení tady nahoře, posouváme se o 1,8 standardní odchylky - jedna o 1 standardní odchylku je to sem a o dalších 0,8 je to někde tady. Jsme v oblasti 1,8 standardní odchylky nad a přidáme-li oblast 1,8 standardní odchylky pod, hodnota o 1,8 standardní odchylky nad průměrem je zde a tady je 1,8 standardní odchylky pod průměrem. Tak se chystáme říci, jaká je pravděpodobnost toho, že z při tomto jednom výběru 36 jablek se dostaneme do této oblasti tady? Zjistím to tak, že použiji naši Z-tabulku, abych zjistil velikost této oblasti. Jaká je pravděpodobnost, že hodnota je 12 nad ní. a pak ji můžeme jen zdvojnásobit, protože normální rozložení je symetrické. Podívejme se do naši Z-tabulky.. Jaká je pravděpodobnost, že hodnota bude mezi průměrem a hodnot 1,8 krát standardní odchylka nad průměrem. Podíváme-li se do naší Z-tabulky, 1,8 je právě tady. Dostáváme číslo 0,9641. Buďme však velmi opatrní. Dává nám číslo 0,9641 - tak, nakreslím-li normální rozložení - nakreslím ho trochu lépe. Nakreslím-li normální rozložení takto a je-li toto náš průměr, pak číslo 0,9641 je pravděpodobnost, že jsme průměr překročili o méně než 1,8 standardní odchylky. Tohle je tedy 1,8 standardní odchylky nad průměrem, a náš průměr je tady. Je to tahle celá oblast. Chci-li však dostat jen tuto oblast, musím od hodnoty 0,9641 odečíst toto, což je pravděpodobnost toho, že jsme hodně pod průměrem. A to je tohle. To je pravděpodobnost toho, že hodnota je pod průměrem nebo-li toho, že je pod průměrem plus 0 standardní odchylky. Hodnota tady je 0,5. Celá oblast, kterou jsem vám tady ukázal, je 0,9641. A tak ta oblast tady bude rovna 0,9641 minus 0,5, což je rovno 0,4641. Ta oblast tady vpravo, kde je vybarvena fialově, je mezi tímto bodem a 0,4641. Přesvědčím se o tom, že je to správně. 0,4641. Chci-li zjistit celkovou velikost této oblasti, hodnotu zdvojnásobím. Chci-li zahrnout i tuto část, musím tuto hodnotu zdvojnásobit. Použiji znovu svoji spolehlivou kalkulačku. Musíme 0,4641 vynásobit 2. To dává 0,9282. Obsah celé této oblast je tedy roven 0,9282. Podařilo se nám udělat něco pěkného. Pravděpodobnost toho, že - uvědomme si, že odpovídáme na otázku tady nahoře. Pravděpodobnost toho, že náš výběrový průměr bude lišit nejvýše o 1,8 standardní odchylky od skutečného průměru, vzpomeňme si, bylo to 1,8 standardní odchylky je rovna 0,9282 tj. je 92,82 procentní šance. Říká to však také, že s pravděpodobností 92,82% se skutečný průměr neliší od změřeného průměru o více než 12. A to je pěkné. Je to poprvé, kdy jsme na začátku měli jen málo informací. Začali jsme s velmi malým výběrem. Ze vzorku jsme však získali všechny informace, které jsme z něj mohli vytěžit. A nyní můžeme říci, že existuje 92,82% pravděpodobnost, že skutečný průměr se neliší od průměru, který jsme změřili, o více než 12 gramů.. Zjistili jsme, že skutečný průměr je mezi 100 a 124 neboli, že skutečný průměr je mezi 100 a 124 s 92,82% pravděpodobností. Myslím si, že to je hezký výsledek.
video