Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

REGRESSIOANALYYSI.

Samankaltaiset esitykset


Esitys aiheesta: "REGRESSIOANALYYSI."— Esityksen transkriptio:

1 REGRESSIOANALYYSI

2 REGRESSIOANALYYSIN PERIAATE
Analysoidaan selitettävän eli vaste-muuttujan ja selittävien muuttujien välillä vallitsevaa suoraviivaista yhteyttä Pyritään löytämään muuttujien välistä yhteyttä kuvaava yhtälö – selitettävän muuttujan arvojen ”ennustaminen” selittävien muuttujien arvojen perusteella Riippuvuuden suunta ja voimakkuus

3 REGRESSIOANALYYSIN PERUSOLETUKSET
Muuttujat vähintään välimatka-asteikollisia Riippuvuus on suoraviivainen (lineaarinen) Selittävät muuttujat eivät saa korreloida keskenään voimakkaasti (multikollineaarisuus) Vastemuuttujan hajonta on selittävien muut-tujien arvoista riippumaton (homoskedas-tisuus) Jäännösmuuttuja noudattaa normaalijakaumaa Oletusten paikkansa pitävyys mahdollistaa sen, että tulosten perusteella voidaan tehdä päätelmiä perusjoukosta, jota otos edustaa (tilastollinen päättely)

4 DUMMY-MUUTTUJAT Luokittelu- ja järjestysasteikollisia selittäjiä voidaan analysoida tekemällä niistä dummy-muuttujia Kaksiluokkaisen muuttujan arvot 0 ja 1 Moniluokkaiselle muuttujalle koodataan yksi luokista ykköseksi, muut nollaksi Miten selitettävän muuttujan arvo muuttuu, kun siirrytään dummy-muuttujan luokasta 0 luokkaan 1 Analyysista pois jätetty luokka vertailu-luokkana

5 REGRESSIOMALLI YHDELLE SELITTÄJÄLLE
y = a + bx + e, missä y= selitettävä muuttuja a = vakiotermi (kohta, jossa regressiosuora leikkaa y-akselin selittävän muuttujan arvolla 0; constant, intercept) b= regressiokerroin (regressiosuoran kulmakerroin, beta) e=virhetermi (regressiosuoralla selittämättä jäänyt selitettävän muuttujan vaihtelu, residual, error term)

6 YHTEYDEN SUUNTA y y * * y=a-bx+e y=a+bx+e * * * * * * * * e * * * * *

7 REGRESSIOMALLI USEALLE SELITTÄJÄLLE
y = a + b1x1+ b2x2 + … bixi + e, missä selittäviä muuttujia on i kappaletta

8 REGRESSIOANALYYSIN MERKITYS
Regressiokerroin kertoo, kuinka paljon yhden yksikön suuruinen muutos selittä-vässä muuttujassa vaikuttaa selitettävään muuttujaan Standardoidun regressiokertoimen avulla voidaan verrata muuttujien suhteellista selityskykyä, mutta vain kyseisessä aineistossa Saadaan tietoa yksittäisen selittävän tekijän merkityksestä, kun muiden selittäjien vaikutus on otettu huomioon

9 KERROINTEN ESTIMOINTI
Etsitään havaintoaineistoon parhaiten sopiva malli (the line of best fit) = kaikki havaintojen poikkeamat suorasta minimoitu Pienimmän neliösumman menetelmä (PNS, least squares) – virheiden neliöt e2 mahdollisimman pienet Jos regressiokerroin on nolla, selittäjän ja selitettävän välillä ei ole yhteyttä

10 SELITETTÄVÄN JA SELITTÄVIEN MUUTTUJIEN YHTEYDEN MITTALUVUT
Regressiokerrointen ”hyvyyttä” (= selit-täjän merkitystä) testataan t-testillä kerroin jaetaan varianssillaan Korkea t-arvo (noin 2 tai suurempi) tai p<0.05 => selittäjä käyttökelpoinen Ei vielä kerro selittäjän selitysvoimasta

11 MALLIN RAKENTAMINEN – LISÄÄVÄ MENETTELY
Menettely selittäjien lisäämiseksi (forward selection) ensin valitaan selittäjä, jolla yksinään suurin selitysvoima tämän jälkeen vuorollaan ne, joilla eniten lisäselitysvoimaa ja jotka parantavat mallin selitysosuutta tilastollisesti merkitsevästi multikollineaarisuus ei ongelma

12 MALLIN RAKENTAMINEN – POISTAVA MENETTELY
Menettely selittäjien poistamiseksi (backward elimination) selittäjien joukosta poistetaan yksi kerrallaan selitysvoimaltaan heikoin jäljelle jääneet ja selitysvoimaltaan tilastollisesti merkitsevät muuttujat muodostavat parhaan mallin => Onko malli mielekäs teoreetti-sesti ?

13 MALLIN RAKENTAMINEN – ASKELTAVA MENETTELY
Askeltava menettely (stepwise selection) yhdistää lisäävän ja poista-van menettelyn Muuttujia lisätään ja poistetaan mallin sovituksen kuluessa Voidaan myös pakottaa halutut selittä-jät malliin (forsing) Monien menettelyjen vertaaminen parhaan tuloksen saavuttamiseksi

14 MALLIN SOPIVUUDEN ARVIOINTI
Varianssianalyysilla (F-testi) testataan, onko kyseinen regressiomalli käyttökelpoinen vastemuuttujan vaihtelun selittämiseksi Testaa, ovatko kaikki regressiokertoimet nollia vai eivät Jos koko mallin merkitsevyys on suuri, yleensä myös yksittäisten selittäjien merkitsevyys on suuri Mallin sopivuutta kutsutaan mallin hyvyydeksi (the goodness of fit)

15 SELITYSASTE Multippelikorrelaatiokerroin R (multiple correlation) eli havaittujen ja mallin avulla ennustettujen y-muuttujan arvojen välinen korrelaatio R2 * 100 = mallin selitysaste (determinaatio-kerroin kertoo, kuinka monta prosenttia malli pystyy selittämään vastemuuttujan vaihtelusta R2 =regressiomallin selittämä osuus vasteen vaihtelusta jaettuna selittymättömällä osalla R2adj = korjattu selitysaste – ottaa huomioon muuttujien määrän ja otoskoon => kahden analyysin vertailu mahdollista

16 DIAGNOSTIIKKA Jäännösten normaalisuus eli asettuvatko suoralle kuviossa ”normal probability plot” Jäännösten jakauman tasaisuus (varianssien yhtäsuuruus) eli homoskedastisuus kuvioista, joissa kuvataan (standardoidut) jäännökset ja (standardoidut) ennustearvot sekä jäännökset ja kunkin yksittäisen selittävän muuttujan arvot (scatter plot) jos kuviossa esiintyy selkeää rakennetta, oletus ei pidä paikkaansa Muuttujamuunnokset mahdollisena ratkaisuna

17 OUTLIER-ARVOT Ongelmien taustalla saattaa olla outlier-arvoja eli muista havainnoista suuresti poikkeavia ja harhaa aiheutta-via arvoja Löytämiseen tapauskohtainen kuvio (casewise plot) Voidaan poistaa havainnot, joilla standardoidut jäännökset ovat suuria => analyysin suorittaminen uudelleen


Lataa ppt "REGRESSIOANALYYSI."

Samankaltaiset esitykset


Iklan oleh Google