Regrese
Regrese (8/10) · 9:27

Příklad: hledání „nejlepší“ regresní přímky V předchozích videích jsme si odvodili vzorce pro výpočet směrnice "nejlepší" regresní přímky a jejího průsečíku s osou y. Pojďme teď tyto vzorce zkusit použít.

Navazuje na Pravděpodobnostní rozdělení.
- V několika minulých videích jsme se zabývali docela složitou matematikou. Možná jste je dokonce přeskočili. Ale výsledek byl vcelku jasný. Dostali jsme vzorec pro výpočet parametrů nejlepší regresní přímky - takové, pro niž platí, že součet čtvercových odchylek bodů od této přímky je nejmenší možný. Náš vzorec je takovýto... přepíšu to sem, ať se máme na co dívat. Takže sklon této přímky se bude rovnat průměr x krát průměr y mínus průměr xy. Nedělejte si starosti, tohle se zdá matoucí, ale ukážeme si to za chvíli na příkladu, hned za pár sekund. To vše vyděleno rozdílem druhé mocniny průměru x a průměru druhých mocnin x. Možná to vypadá trochu jinak, než na co jste zvyklí z hodin statistiky nebo z učebnice. Možná jste tento výraz viděli upravený. Pokud bychom vynásobili jak čitatel, tak jmenovatel mínus jedničkou, mohli bychom to přepsat jako průměr xy mínus průměr x krát průměr y v čitateli a průměr druhých mocnin x mínus průměr x umocněný na druhou ve jmenovateli. Což je zjevně totéž. Jen bychom vynásobili čitatel i jmenovatel mínus jedničkou, což je totéž, jako kdybychom tohle vše vynásobili jedničkou. A pochopitelně, ať už Vám vyjde m jakékoli, pak stačí získaný výsledek vložit zpátky sem, abyste zjistili b. Takže Vaše b se bude rovnat průměru y mínus m, ať už vyjde m jakkoli. Napíšu to žlutě, aby to bylo zcela jasné. Vypočítali jsme hodnotu m. Mínus m krát průměr x. Mínus m krát průměr x. Víc toho nepotřebujeme. Tak si to ukažme na příkladu. Řekněme, že máme tři body, a uděláme to tak, aby mezi nimi určitě nebyla lineární závislost. Protože jinak by to nebylo zajímavé. Nakreslím je sem. Řekněme, že tenhle bod má souřadnice [1, 2]. Tohle je bod [1, 2]. První bod máme tady, máme bod [1, 2]. A pak máme bod [2, 1]. Bod [2, 1]. A pak máme třeba také bod... zkusme něco trochu bláznivého, třeba [3, 4]. Nebo raději [4, 3], aby se nám to sem vešlo. Takže tohle je [4, 3]. Toto jsou naše tři body. A co chceme udělat, je najít nejlepší regresní přímku, která bude nejspíš vypadat přibližně takhle. Jak vypadá ve skutečnosti zjistíme za chvíli pomocí vzorců, které jsme si odvodili. Nejlepší bude začít tak, že si dopředu tohle spočítáme a pak dosadíme výsledek zpět do rovnice. Takže jaký je průměr x? Průměr x se bude rovnat 1 + 2 + 4 děleno 3. A kolik to bude? 1 + 2 = 3, 3 + 4 = 7 děleno 3 se rovná sedm třetin. Kolik je průměr y? Průměr y se rovná 2 plus 1 plus 3. To vše děleno třemi. Takže to máme 2 plus 1 je 3. plus 3 je 6. Děleno 3 je rovno 2. Tedy 6 děleno 3 je rovno 2. A čemu se rovná průměr xy? Jaký je průměr xy? To máme nejprve (1 krát 2) plus (2 krát 1) plus (4 krát 3). - A body máme celkem tři, takže to vydělíme třemi. Čemu se toto vše bude rovnat? Máme 2 plus 2, což je 4, 4 plus 12, což je 16, takže výsledek bude 16/3. A poslední, co nám zbývá, je průměr druhých mocnin x. Jaký je tedy průměr druhých mocnin x? Pro první x je druhá mocnina 1 na druhou. Tady máme druhou mocninu 1. K tomu přičteme 2 na druhou a 4 na druhou. Plus 4 na druhou. A máme opět 3 body. Takže tohle je 1 plus 4, což je 5. Plus 16. Výsledek se tedy rovná 21/3, což se rovná 7. Tohle nám vyšlo pěkně. Teď zjistíme, čemu se rovná m a b. Takže zjistíme sklon naší přímky, naší optimální regresní přímky. Průměr x se rovná 7/3. Sedm třetin. Krát průměr y. Ten se rovná 2. Mínus průměr xy. To bylo 16/3. A nakonec pod zlomkovou čárou budeme mít průměr x umocněný na druhou. Průměr x je 7/3 a to umocníme na druhou. Sedm třetin na druhou. Mínus průměr druhých mocnin x. Což bude mínus 7 zde. A pak to musíme prostě spočítat. Jsem v pokušení vytáhnout si kalkulačku, ale odolám mu. Je hezké nechat to ve tvaru zlomků. Podívejme se, zda tohle zvládneme spočítat. To máme 14/3 mínus 16/3. A pod zlomkovou čarou bude... tohle je 49/9. A pak mínus 7. Kdybychom to chtěli vyjádřit s devítkou ve jmenovateli, bylo by to rovno 63/9. V čitateli máme tedy mínus 2/3. A ve jmenovateli... kolik je 49 mínus 63? To je mínus 14/9. Zlomek můžeme přepsat jako mínus 2/3 krát mínus 9/14. Vydělíme čitatel i jmenovatel třemi. Tak předně se vlastně vykrátí mínusy. Vydělíme to tedy třemi. Tohle bude 1. Z tohohle se stane trojka. Vydělíme 2. Tohle bude 1. Tohle bude 7. Takže sklon je roven 3/7. To není špatné. Teď ještě dopočítáme průsečík s osou y. Tento průsečík zjistíme pomocí tohoto vzorce. Takže náš průsečík, b, se bude rovnat průměru y, přičemž průměr y je 2, mínus sklon přímky. Teď jsme zjistili, že to je 3/7. Takže mínus 3/7. Krát průměr x, což je 7/3. Krát 7/3. Jde o převrácené hodnoty, takže se vykrátí. Zde zůstane jen 1. Takže průsečík s osou y se rovná 2 mínus 1. Což je rovno jedné. Takže máme rovnici naší přímky. Naše regresní přímka bude následující: y se rovná... Spočítali jsme m. m se rovná 3/7. y se rovná 3/7 x plus průsečík s osou y, což je 1. A to je všechno. Zkusíme si to nakreslit. Průsečík s osou y se rovná 1. Což bude zde. A skon se rovná 3/7. Takže s každými sedmi body se hodnota na ose y zvedne o 3. Nebo jinak řečeno, pro každých 3,5 bodů se hodnota y zvýší o 1,5. Takže tady se posuneme o 1,5. Takže tato přímka, kdybychom si ji chtěli nakreslit, což očividně není jednoduché, takže to nebude zcela přesné, bude vypadat přibližně takto. Tento bod nebude ležet přesně na ní, nerad bych, aby to tak vypadalo. Mohla by vypadat nějak takto. A pro tuto přímku platí, jak jsme si ukázali, že součet druhých mocnin vzdáleností všech těchto bodů od přímky je minimální. Každopádně tohle se zdá vcelku jasné. -
video