Regrese
Přihlásit se
Regrese (9/10) · 12:41

Koeficient determinace Už víme, jak proložit daty nejlepší přímku. Existuje ale nějaké měřítko toho, jak dobře se naše přímka shoduje s daty? Existuje, a říká se mu koeficient determinace. V tomto videu si pojem vysvětlíme.

Navazuje na Pravděpodobnostní rozdělení.
- V několika posledních videích jsme viděli, že když máte n bodů, každý z nich má souřadnice x, y. Nakreslím teď těchto n bodů. Toto bude bod 1. Má souřadnice x1, y1. Tady je druhý bod. Má souřadnice x2 a y2. A budu pokračovat, až se dostanu k n-tému bodu. Ten má souřadnice xn a yn. Viděli jsme v předchozích videích, že existuje přímka, která minimalizuje čtvercovou vzdálenost. Minimalizuje čtvercovou vzdálenost bodů od přímky. Ta přímka je tady. Nazvu ji: y = mx + b Je to přímka, která minimalizuje druhou mocninu vzdálenosti bodů od této přímky. Zkontroluji teď, jaké ty vzdálenosti jsou. Někdy se tomu říká čtvercová odchylka. Tady to je odchylka bodu 1 od přímky. Nazvu ji odchylka 1. Tady je odchylka mezi přímkou a bodem 2. Bude to odchylka 2. A tady je odchylka mezi přímkou a bodem n. Jestli chcete celkovou odchylku, celkovou čtvercovou odchylku, kvůli které to všechno vlastně začalo, jestli tedy chcete celkovou čtvercovou odchylku mezi body a přímkou, doslova vezmete hodnotu y každého bodu. Například tady to bude y1. To je tady ta hodnota, spočítáte y1 minus hodnota y, která odpovídá bodu na přímce. Tuto hodnotu y získáte tak, že do rovnice dosadíte hodnotu x1. Dosadíte tam tedy x1. Takže minus x1 plus b. Tady toto je ta hodnota y. Takže to bude m krát x1 plus b. Nechci tu mít binec, takže toto umažu. Toto bude odchylka 1. A my budeme chtít čtvercové chyby mezi přímkou a každým odpovídajícím bodem. Tohle je první. Teď uděláte to stejné pro druhý bod. A takhle jsme začali. (y2 minus m krát x2 plus b) na druhou, stále dokola. Vytečkuju to, protože bychom jich museli vypočítat fakt hodně, než bychom se dostali k n-tému bodu. Až k (yn minus m krát xn plus b) na druhou. Už víme, jak vypočítat ta m a b. ukázal jsem vám vzoreček. Vlastně jsme teď ten vzorec dokázali. Můžeme najít přímku. A když tedy chceme říct, jak velká je ta odchylka, můžeme si ji spočítat. Známe už všechna ta m a b. Můžeme to spočítat pro určitou sadu dat. Teď bych chtěl ovšem přijít s trochu smysluplnějším odhadem, jak dobře ta přímka vystihuje data, která máme. Abychom to dokázali, musíme si položit otázku, jaký podíl variability proměnné y jsme vysvětlili variabilitou proměnné x. Zamysleme se nad tím. Jak moc z celkové variability y ... protože v příapdě y tu očividně nějaká variabilta je, podívejte... Hodnota y je tady. Hodnota bodu y je tady. Takže o variabilitu v případě proměnné y není nouze. A jaký podíl z této variability umíme vysvětlit variabilitou proměnné x? Neboli popsat tou přímkou? Zamysleme se nad tím. Zaprvé, jaká je celková variabilita? Jaká je celková variabilita proměnné y? Vypočítejme celkovou variabilitu y. - Je to opravdu jen nástroj k měření. - Když se zamyslíme nad variabilitou, a platí to i pro rozptyl, což je něco jako průměrná variabilita proměnné y... Zamysleme se nad čtvercem vzdálenosti od nějaké míry polohy, a nejlepším takovou mírou polohy, kterou máme, je aritmetický průměr. Mohli bychom prostě říct, že celková odchylka y je prostě součet vzdáleností každého z těchto bodů... To máme y1 minus průměr všech y, to celé na druhou. Plus y2 minus průměr všech y, to celé na druhou. Plus... a tak dále až k n-té hodnotě. K yn minus průměr všech y, to celé na druhou. To dá dohromady celkovou odchylku y. Takže prostě vezmeme všechny hodnoty y a najdeme jejich průměr. Bude to nějaká hodnota, možná někde tady. Možná je průměr někde tady. A můžete si to představit stejným způsobem jako čtvercovou vzdálenost od přímky. Představte si to, je tu nějaká přímka, která odpovídá průměru y. Vypadala by nějak takto. A co tu měříme... tenhle první člen se rovná čtverci vzdáleností tohoto bodů od přímky. Jde o vertikální vzdálenost mezi tímto bodem a touto přímkou. V případě druhého bodu půjde o tuto vzdálenost. Vzdálenost od přímky. A v případě n-tého bodu to bude vzdálenost odsud až sem dolů k přímce. A mezi tímto máme ještě další body. Tohle je celková variabilita y. Dává to smysl. Kdybyste to vydělili počtem bodů, dostanete to, co si obvykle spojujeme s rozptylem y. byl by to průměr čtvercových vzdáleností. Tomuhle říkáme celkový součet čtverců. A teď bych chtěl zjistit, jaký podíl celkové variability v proměnné y je vysvětlen variabilitou v proměnné x. Možná nad tím můžeme popřemýšlet takto. Co bude ve jmenovateli? Chceme zjistit podíl na celkové variabilitě y. Napíšu to takto. Nazvěme to čtverec odchylek od průměru. - Nebo tomu můžeme říkat čtvercová odchylka od průměru 'y'. A to je vlastně celková variabilita proměnné y. Tohle bude ve jmenovateli. Celková variabilita y, což je součet čtverců odchylek jednotlivých bodů od průměru y. A my chceme zjistit, jaký podíl této variability je vysvětlen variabilitou proměnné x. Jaký podíl není vysvětlen variabilitou x? Chceme zjistit, kolik je vysvětleno variabilitou x. Ale co kdybychom chtěli vědět, kolik z celkové variability není vysvětleno regresní přímkou? Jaký podíl vysvětlen není? Už víme, jak to zjistit. Víme, co je rezidiuální součet čtverců. Říká nám, kolik je součet čtverců vzdáleností každého bodu od naší přímky. Takže přesně tak to můžeme vyjádřit. Říká nám, jaký podíl celkové variability není vysvětlen regresní přímkou. Takže pokud chceme vědět, jaký podíl celkové variability není vysvětlen regresní přímkou, byla by to prostě čtvercová chyba regresní přímky (reziduální součet čtverců) protože ta říká, jaká je celková variabilita, která není vysvětlená regresní přímkou, děleno celkovou variabilitou. Ještě si to ujasníme. Tohle nám říká, jaký podíl celkové variability y není vysvětlen variabilitou x. - Neboli regresní přímkou. - Takže jaká je odpověď na otázku, jaký podíl variability je vysvělten regresní přímkou? No, zbytek musí být tím pádem vysvětlen variabilitou v x. Protože naše otázka je, jaký podíl celkové variability y je vysvětlen variabilitou x. A tohle je zatím jen podíl variability, který vysvětlen není. Takže kdyby toto číslo bylo 30 %, kdyby 30 % celkové variability y nebylo vysvětleno regresní přímkou, pak by ten zbytek byl vysvětlen regresní přímkou. Takže nám stačí tohle odečíst od 1. Takže to je 1 mínus součet čtverců vzdáleností bodů od přímky děleno součet čtverců vzdáleností bodů od průměru y. To nám řekne, jaký podíl celkové variability je vysvětlen regresní přímkou. Můžeme říkat regresní přímkou nebo variabilitou proměnné x. - A tohle číslo se nazývá koeficient determinace. Koeficient determinace. Takhle to statistici pojmenovali. Koeficient determinace. Takdy se mu říká R na druhou. Možná jste tenhle pojem slyšeli v souvislosti s regresí. Zamysleme se nad tím. Pokud je čtvercová chyba regresní přímky malá, co to znamená? Znamená to, že tyto odchylky jsou velmi malé. Což znamená, že přímka se dobře shoduje s daty. Že se přímka dobře shoduje s daty. Napíšu to sem. Pokud je čtvercová chyba přímky malá, znamená to, že přímka se dobře shoduje s daty. Přímka se dobře shoduje s daty. A co by se stalo tady? Kdyby bylo tohle číslo opravdu malé, tohle bude jen malý zlomek tohoto. 1 mínus velmi malý zlomek bude číslo blízké jedné. Takže když je R na druhou blízký 1, říká nám to, že velký podíl variability y je vysvětlen variabilitou x. Což dává smysl, protože přímka se dobře shoduje s daty. A co v opačném případě? Pokud je čtvercová chyba přímky velká, znamená to, že odchylky bodů od přímky jsou velké. Takže tohle číslo je velké a toto číslo bude velké. Tento podíl se bude blížit 1. A 1 mínus tohle se bude blížit 0. Takže když je čtvercová chyba regresní přímky velká, tohle všechno bude blízké 1, a pokud je to blízké 1, pak koeficient determinace, R na druhou, bude blízký 0, což dává smysl. Koeficient determinace se bude blížit 0. To nám říká, že jen malý podíl variability y je vysvětlen variabilitou x, čili regresní přímkou. Každopádně jsem se tím dosud zabýval jen abstraktně. V dalším videu se podíváme na konkrétní data. A spočítáme odhady parametrů regresní přímky. A také spočítáme R na druhou, abychom viděli, jak dobře se tato přímka shoduje s daty. -
video