Regrese
Přihlásit se
Regrese (2/10) · 7:48

Jak proložit daty přímku Máme k dispozici hodnoty příjmu v letech 1995 až 2002. Naším úkolem je zakreslit tyto body do grafu a proložit jimi co nejlepší přímku. Jak na to? Ukážeme si to v Excelu a zároveň předpovíme hodnotu příjmu pro rok 2010.

Navazuje na Pravděpodobnostní rozdělení.
- V tomto videu chci na příkladu ukázat, co to znamená proložit daty přímku. Místo toho, abych jako obvykle používal svůj tablet, to budu dělat přímo v Excelu, abyste viděli, jak to můžete udělat sami, pokud máte Excel či jiný tabulkový kalkulátor. Nebudeme se zabývat matematickou stránkou věci. Jen bych chtěl, abychom pochopili, co to znamená, když prokládáme daty přímku nebo děláme lineární regresi. Takže si přečtěme problém. Následující tabulka ukazuje mediánový příjem v Kalifornii, připomeňme si, že medián znamená hodnotu příjmu v Kalifornii, která je přesně uprostřed. A to od roku 1995 do roku 2002, přičemž tato data pochází z amerického statistického úřadu. Máme tyto body zakreslit do grafu a najít rovnici přímky. Jaký mediánový roční příjem bychom očekávali u kalifornské rodiny v roce 2010? Jaký význam má sklon přímky a průsečík s osou y v tomto případě? Nejprve tedy co bychom chtěli udělat... jen jsem překopíroval a vložit příslušná data sem, máme data v takovém formátu, aby jim program porozuměl. Takže si uděláme nějaké tabulky. Sem napíšeme roky od roku 1995. Uděláme si tady jeden sloupec. Uděláme ho trochu širší. Sem zapíšeme mediánový příjem. Tohle je mediánový příjem kalifornské rodiny. Začneme rokem 1, nebo 0 od roku 1995, 0, 1, 2, 3, 4. Pokud bychom chtěli, trend se spočítá sám, když to jen tady přetáhneme dolů. Program pochopí, že pouze zvyšujeme o 1. Co se týče příjmu, jen překopírujeme tato čísla. To mám 53 807 dolarů, 55 217 dolarů, 55 209 dolarů, 55 415 dolarů, 63 100 dolarů, 63 206 dolarů, 63 761 dolarů a nakonec 65 766 dolarů. Takže tohle už nepotřebujeme. Takže to smažu. Tohle můžu vymazat. Ještě je třeba se ujistit, že máme správný počet vstupních dat. Tohle je 1, 2, 3, 4, 5, 6, 7, 8 a máme 1, 2, 3, 4, 5, 6, 7, 8 řádků. Ujistěme se také, že máme data správně. 53 807 dolarů, 55 217 dolarů, 55 209 dolarů, 415, 100, 206, 761, 766. Tak to by bylo. Teď zjistíme, že Excel všechno dost usnadňuje, pokud víme, na co máme kliknout. Nejprve si zakreslíme tato data, a pak navíc najdeme regresní přímku, kterou lze daty proložit. Vše, co musíme udělat, je vybrat data. Pak klikneme na vložit a vložíme bodový graf. Pak můžeme vybrat různé druhy bodových grafů. Chceme prostě zakreslit data. Tak to by bylo. Zakreslilo to naše data. To bychom měli. Tohle je skutečný příjem a tohle je rok od roku 1995. Takže tohle je rok 1995. Mediánový příjem byl roven 53 807 dolarů. V roce 1996 to bylo 55 217 dolarů. Zakreslilo to všechna data. Co teď chceme udělat, je proložit daty přímku. Tohle není zrovna přímka. Ale podívejme se na to... předpokládejme, že pomocí přímky můžeme dobře modelovat tato data. Excel přímku proloží za mě. Co můžu udělat je toto: mám tady různé možnosti jak proložit daty přímku, všechny tyhle možnosti. Vyberu si tuto. Možná to moc nevidíte. Vypadá jako přímka mezi body. Také má funkci, která nám řekne rovnici této přímky. Pokud na to kliknu... tak to bychom měli... tak to nejen proloží daty přímku, ale zakreslilo to i tatáž data do jiného grafu. Uděláme to trochu větší. Trochu větší. Ne, takhle ne. Uděláme to trochu větší. Nevadí, když tahle data neuvidíme, protože myslím, že víme, o co tu jde. Takže to takhle posunu. Tedy nejenom že to zakreslilo různé body, také to jimi proložilo přímku a odhadlo to rovnici této přímky. Říká, že rovnice této přímky je... Zkusím to ještě trošku zvětšit. Chtěl bych to ještě trochu zvětšit... Posunu to tak, abyste si to mohli aspoň přečíst. Tohle mi říká, že rovnice naší přímky je y se rovná 1 882,3x plus 52 847. Vzpomeňme si, co víme o sklonu přímky a průsečíku s osou y. Průsečík s osou y je 52 847. Jde vlastně o hodnotu příjmu v roce 0, tedy v roce 1995. Pokud bychom tedy k modelování použili tuto přímku, v roce 1995 by nám řekla, že vyděláme 52 847 dolarů. Skutečnost byla trochu jiná. Bylo to o něco více, 53 807 dolarů. Takže medián byl trochu vyšší. Ale snažíme se najít přímku, která odpovídá datům co nejlépe. A to všem těmto datům. Tato přímka se snaží minimalizovat vzdálenost, a to čtvercovou vzdálenost, mezi každým z těchto bodů a touto přímkou. Teď se matematikou zabývat nebudeme. Ale díky tomu jsme našli tuto rovnici přímky. Teď ji můžeme použít k předpovědím. Kdybychom řekli, že toto je dobrý model dat, posunu to trochu dolů... zkusíme si zodpovědět tuto otázku. Nakreslili jsme bodový graf... nebo lépe řečeno jej nakreslil Excel za nás. Našli jsme tuto rovnici. Jaký mediánový roční příjem bychom očekávali v kalifornské rodině v roce 2010? Tady máme rovnici, kterou program spočítal za nás. Tohle byl rok 2002. Takže můžeme zapsat tento rok. Tohle byl rok 2002. Takže rok 2010 je o 8 let dále. Udělám tady další sloupec. - Tohle je rok 1995, 1996, pak bude Excel schopen dodělat zbytek, jestliže toto označíme a potáhneme dolů za tento malý čtvereček. Excel pochopí, že chceme přidávat vždy jeden rok v každé další buňce. Pokud chceme mít roky od 1995, prostě jen potáhneme tohle dolů. Takže 2010, to by byl rok 15. Pak jen použijeme tuto rovnici. Můžeme říct, že podle rovnice této přímky... napíšu to sem, snad to přečtete, takže to bude 1 882,3 krát x, přičemž x znamená počet let od roku 1995, a můžu prostě vybrat tuto buňku, nebo napsat číslo 15. To 1 882,3 krát tato buňka, tedy krát 15. Plus 52 847, neboli plus toto. Klikneme na enter a předpoví to hodnotu 81 081,50 dolarů. Pokud bychom protáhli tuto přímku o 8 let, předpoví , že mediánový roční příjem kalifornské rodiny bude roven 81 000 dolarů. Snad Vám to přišlo zajímavé. Tabulkové kalkulátory jsou velmi užitečné pro práci s daty. Pomohou Vám pochopit, jak jsou lineární modely zajímavé. Proč jsou přímky zajímavé a jak je lze použít k interpretaci dat a dokonce k extrapolaci, pokud máme zájem o předpovědi. Tohle je právě extrapolace za použití této lineární regrese. -
video