Kvantitatiiviset tutkimusmenetelmät Luento 5 Lineaarinen regressioanalyysi I Kaisu Puumalainen
Lineaarisen regression peruskäsitteet
Tavoite ja peruskäsitteet Yksi selitettävä muuttuja (dependent, y) ja yksi tai useampia selittäviä muuttujia (explanatory, independent, regressor, x) Selitettävä on jatkuva muuttuja, selittävät pääasiassa jatkuvia, mutta dummy-muunosten avulla myös nominaalisia selittäjiä voi käyttää Tavoitteena ennustaa selitettävän muuttujan (y) arvoa, kun selittävien (x1 ja x2) arvot tunnetaan Regressioanalyysi perustuu muuttujien väliseen korrelaatioon, suhde voi olla joko positiivinen (kun x kasvaa, y kasvaa myös) tai negatiivinen (kun x kasvaa, y pienenee) Mallin lineaarisuus tarkoittaa, että se on parametrien suhteen lineaarinen; muuttujien x ja y suhde voi alun perin olla epälineaarinen, ks. Excel-demo
Esim. Tulojen vaikutus ruokamenoihin Kirjoista Hill et al. Undergraduate Econometrics ja Principles of Econometrics
Esim. Sirontakuvio Jokainen havainto on pisteenä kuviossa, positiivinen korrelaatio nähtävissä
Esim. Y:n ehdollinen jakauma Kullakin x:n arvolla y:llä on ehdollinen jakauma, jonka keskiarvo kasvaa x:n kasvaessa, mutta varianssi pysyy samana kaikilla x:n arvoilla
Esim. Y:n ehdollinen jakauma
Esim. Regressiosuoran parametrit Tuntemattomat β1, β2 ja e estimoidaan aineistosta (esim. OLS-menetelmällä) Estimoidut parametrit (parameter estimates) Vakiotermi (intercept, constant) β1 on regressiosuoran ja y-akselin leikkauspiste, arvo jonka y saa kun x saa arvon nolla Regressiokerroin (regression coefficient) β 2 on regressiosuoran kulmakerroin (slope), kertoo montako yksikköä y muuttuu jos x kasvaa yhdellä yksiköllä
Esim. Residuaalit Jäännöstermi eli residuaali e (residual, error) Teoreettisesti se on mallin selittämättä jäänyt osa, jonka suuruutta ei voida tietää. Estimoitaessa sitä kuvataan y:n ja ennustetun y:n erotuksella Hyvässä mallissa jäännöstermi on pieni ja täysin satunnainen
Taustaoletukset
Yhden muuttujan lineaarinen Regressiomalli: oletukset Y:n saama arvo jokaiselle x:n arvolla on: - X ja Y yhteyden oikea spesifiointi, lineaarisuus - Oikeiden X-muuttujien valinta - X-muuttujien täydellinen reliabiliteetti II Jäännöstermin odotusarvo on E(e)=0 koska oletetaan, että: III Jäännöstermin varianssi on vakio: - homoskedastisuus
Yhden muuttujan lineaarinen Regressiomalli: oletukset IV Minkä tahansa jäännöstermiparin kovarianssi on nolla: - Havaintojen riippumattomuus - Virhetermin (auto-)korreloimattomuus V Selittävä muuttuja x ei ole satunnaismuuttuja, ja se saa vähintään kaksi erilaista arvoa VI Jäännöstermit noudattavat normaalijakaumaa, jos y noudattaa normaalijakaumaa (ja päinvastoin) (tämä ei ole välttämätön oletus)
Yhden muuttujan lineaarinen regressiomalli: oletukset Jos oletukset eivät päde estimoidun mallin kertoimet ovat harhaisia (biased) ja/tai niiden keskivirheet (standard errors) vääriä tai epäluotettavia Oletusten paikkansapitävyyden tarkistaminen tärkeää Yksittäisen muuttujien, muuttujien välisten suhteiden sekä estimoitujen virhetermien tarkastelu Silmämääräisesti sirontakuvioilla (”scatter plot”) Tilastollisesti testaamalla Jos käy ilmi että oletukset eivät päde, voidaan tilanteesta riippuen käyttää esimerkiksi muuttujamuunnoksia, mallimuunnosta, tai poikkeaman edellyttämää estimointimenetelmää.
Yhden selittäjän mallin estimointi ja parametriestimaattien tulkinta
Pienimmän neliösumman estimointimenetelmä OLS Estimointiin voidaan käyttää esim. pienimmän neliösumman menetelmää (ordinary least squares, OLS) suurimman uskottavuuden menetelmää (maximum likelihood, ML) Pienimmän neliösumman menetelmä minimoidaan havaintojen ja regressiosuoran (vertikaalisen) etäisyyden neliöt estimoitu suora on nyt ŷ=b1+b2xi vertikaalinen etäisyys regressiosuorasta kuhunkin havaintopisteeseen on jäännöstermi êi = yi-ŷi = yi- b1- b2xi Etsitään sellainen suora jossa näiden erotuksien neliösumma on mahdollisimman pieni. Matemaattisesti, minimoidaan neliösumma: ’hattu’ = kyseessä on estimaatti todellisesta parametriarvosta
Pienimmän neliösumman estimointimenetelmä OLS Derivoimalla edellisestä kaavasta saadaan estimaatit parametreille β1 ja β2:
Esim. Tulojen vaikutus ruokamenoihin Pienimmän neliösumman menetelmällä estimoidut regressiokertoimet. Miten kertoimet tulkitaan?
Esim. Tulojen vaikutus ruokamenoihin kuva 3.9 s.55 Esimerkin tulkinta Mitä ongelmia vakion tulkitsemisessa?
OLS-menetelmän ominaisuuksia estimoitu regressiosuora kulkee x:n ja y:n keskiarvon kautta virhetermien keskiarvo on nolla kun taustaoletukset lineaariselle regressiomallille pätevät, estimaattoreilla b1 ja b2 on pienin varianssi vaihtoehtoisten lineaaristen ja harhattomien β1 ja β2 -estimaattoreiden joukossa (Gauss-Markovin teoreema) →OLS-menetelmä on ”best linear unbiased estimator” (BLUE) Paras, koska pienin varianssi Unbiased, harhaton: E(b2)=β2
Parametriestimaattien keskivirheet, luottamusvälit ja tilastollinen merkitsevyys
Virhetermin varianssi ja keskivirhe Todelliset perusjoukon virhetermit (random error) ei ovat tuntemattomia, mutta voimme arvioida niitä pienimmän neliösumman jäännöstermillä (residuaalit, residuals), joka siis on: ei = yi - β1 - β2xi jäännöstermin estimaatti saadaan kun korvataan tuntemattomat parametrit niiden OLS-estimaattoreilla: êi = yi – b1 – b2xi nyt voidaan määritellä jäännöstermin varianssiksi Jossa nimittäjässä vähennetään otoskoosta regressioparametrien määrä, ja saadaan harhaton estimaattori. Joten: Jäännöstermin keskivirhe on varianssin neliöjuuri (standard error of regression)
Parametriestimaattien varianssit Estimaattorin varianssi kuvaa estimaattorin tarkkuutta, se kertoo siitä, kuinka paljon estimaatti vaihtelee eri otoksissa. Estimaattori on sitä täsmällisempi, mitä pienempi sen varianssi on. Keskivirhe on varianssin neliöjuuri Estimaattorien varianssien ja kovarianssin kaavat:
Parametriestimaattien varianssit Huomataan, että: virhetermin varianssi σ2 esiintyy jokaisessa kaavassa. Mitä suurempi virhetermin varianssi sitä epätarkempaa tieto koskien β1 ja β2 sitä suurempaa on epävarmuus siitä mitä arvoja y saa verrattuna E(y):n sitä suurempi on teoreettisen malliin liittyvä epävarmuus Neliösumma esiintyy jokaisessa kaavassa: kuvaa sitä kuinka kaukana havainnot ovat keskiarvosta, eli kuinka laajalle levittäytyneitä x- havainnot ovat Mitä suurempi neliösumma on sitä pienempi on OLS estimaattorin varianssi
Parametriestimaattien varianssit Mitä suurempi otoskoko n sitä pienempi on OLS-estimaattoreiden varianssi Mitä suurempi on havaintojen etäisyys origosta (Σx2) sitä suurempi on b1:n varianssi vakiotermi β1 on y:n odotettu arvo kun x=0. Mitä kauempana havainnot ovat sitä vaikeampaa/epävarmempaa on vakiotermin tulkitseminen ja estimoiminen Saamme siis sitä varmemmin oikeaan osuvat parametriestimaatit, mitä Suurempi otos Enemmän vaihtelua muuttujassa x Pienemmät itseisarvoltaan ovat virhetermit eli residuaalit
Parametriestimaattien keskivirheet Keskivirheet saadaan ottamalla variansseista neliöjuuret Keskivirhe kuvaa sitä miten paljon eri otoksista estimoidut parametrit eroavat toisistaan
Esim. Keskivirheet Sijoittamalla ed. kaavoihin saadaan keskivirheet yi xi yhat=b1+b2xi ei=yi-yhat 52,25 258,3 73,9045 -21,6545 58,32 343,1 84,7834 -26,4634 81,79 425 95,2902 -13,5002 119,9 267,5 100,7424 19,1576 125,8 482,9 102,7181 23,0819 jne. Sijoittamalla ed. kaavoihin saadaan keskivirheet
Parametriestimaattien keskivirheet otos b1 b2 1 51,13 0,14 2 61,20 0,13 3 40,79 4 80,14 0,09 5 31,01 0,17 6 54,31 0,11 7 69,67 0,10 8 71,15 9 18,83 0,18 10 36,14 0,16 keskiarvo 51,43859 0,13182 keskihajonta 19,65472 0,031145 Vertaa estimaattien keskiarvoja esimerkissä laskettuihin 40,7676 ja 0,1283 Vertaa estimaattien keskihajontoja esimerkissä laskettuihin 22,1387 ja 0,0305
Kertoimien luottamusväli Kertoimen luottamusväli: [bk–tcse(bk), bk+tcse(bk)] jossa bk=estimoitu kerroin, tc=taulukosta saatava raja-arvo (vapausasteet n-2), se(bk)=kertoimen keskivirhe kapeampi luottamusväli → tarkempi informaatio jos luottamusväli kattaa nollan, kerroin ei ole merkitsevä Esim. kaksisuuntainen 5% t-arvo vapausasteilla 38 = 2,024 Vakiotermin luottamusväli 40,7676+/- 2,024*22,1387 = -4,04 …85,58 Kulmakertoimen luottamusväli 0,1283 +/- 2,024*0,0305 = 0,067 … 0,190
Kertoimen merkitsevyyden testaaminen Kun regressiosuora on estimoitu, voidaan testata tukeeko aineisto sitä että x-muuttujalla on vaikutusta y-muuttujaan (sillä tavoin kuten mallia muodostettaessa oletettiin). Testataan kertoimen tilastollista merkitsevyyttä, testataan poikkeaako kerroin nollasta. H0: βk= 0 ja H1: βk ≠ 0 t-testi: t=(bk-c) / se(bk) ~t(n-K) koska c=0 → t= bk / se(bk) ~t(n-K) jossa ”~t(n-K)” tarkoittaa: ”noudattaa t-jakaumaa vapausasteella (n-K)”, jossa n havaintojen lukumäärä ja K estimoitavien parametrien lukumäärä Jos testisuure on suurempi tai yhtä suuri kuin taulukosta saatava kriittinen raja-arvo, nollahypoteesi hylätään.
Kertoimen merkitsevyyden testaaminen Ohjelmat laskevat kertoimen merkitsevyyden automaattisesti (the p-value, probability, prob., significance level, sig.) p-arvo: ”tarkka merkitsevyystaso”, todennäköisyys ykköstyypin virheelle (hypoteesin hylkääminen kun se on tosi) jos p-arvo on pienempi kuin valittu merkitsevyys/riskitaso α, H0 hylätään esim. jos testataan 95% luottamustasolla, α=0.05; jos 99%:n α=0.01 Esimerkissä vakiotermin merkitsevyys t= 40,7676 / 22,1387 = 1,84 < kriittinen arvo 2,024 -> H0 jää voimaan Esimerkissä kulmakertoimen merkitsevyys t= 0,1283 / 0,0305 = 4,21 > kriittinen arvo 2,024 -> H0 hylätään
Mallin hyvyys, selityskerroin
y:n vaihtelun komponentit Toivottavaa, että selittävät muuttujat (x) selittäisivät mahdollisimman paljon selitettävän muuttujan (y) vaihtelusta Selitettävän muuttujan (y) kokonaisvaihtelu keskiarvonsa ympärillä voidaan jakaa osiin neliösummien avulla siten, että: = total sum of squares = SST , kokonaisneliösumma Mittaa y:n kokonaisvaihtelua = explained /regression sum of squares = SSR Se osuus y:n vaihtelusta jonka malli selittää = error /residual sum of squares = SSE , jäännösneliösumma Se osuus y:n vaihtelusta jota malli ei selitä Siis: SST=SSR+SSE
Selityskerroin r2 on Pearsonin korrelaatiokertoimen neliö, ja samalla todellisen ja ennustetun y:n välinen korrelaatio toiseen
Selityskerroin r2 = selityskerroin eli selitysaste, coefficient of determination, r square 0< r2<1, kertoo kuinka monta prosenttia y:n vaihtelusta malli selittää Mitä lähempänä 1 sitä suuremman osan selitettävän muuttujan vaihtelusta malli selittää Jos r2 = 1 kaikki havainnot ovat täsmälleen samoja kuin estimoidussa mallissa, SSE = 0 Jos x:n ja y:n välillä ei ole mitään yhteyttä, SSR=0 ja r2=0 Yhden selittävän muuttujan regressiossa pätee, että rx.y2=r2=ry.ŷ2 Huom. Eri mallien selityskertoimet ovat täysin vertailukelpoisia vain jos muuttujat ovat samat Jos malli ei sisällä vakiotermiä, r2 ei ole mielekästä tulkita
ANOVA-taulukko ja mallin merkitsevyys Vaihtelun komponentit on tapana esittää ANOVA-taulukossa Taulukossa k on estimoitujen parametrien määrä F on testisuure, jonka p-arvo saadaan F-jakaumasta F-testin H0: r2=0 Source DF Sum of Squares Mean Square F p Regression, Model k-1 SSR SSR / (k-1) MSR / MSE F (alpha, k-1;n-k) Error, Residual n-k SSE SSE / (n-k) Total n-1 SST SST / (n-1)
Esimerkin selityskerroin ja mallin merkitsevyys Selityskerroin r2=25221,22 / 79532,55 = 0,317 Ruokamenojen vaihtelusta 31,7% selittyy tulojen avulla Malli on tilastollisesti merkitsevä, koska F-testin p-arvo jää alle 5% riskitason Source DF Sum of Squares Mean Square F p Regression 1 25221,22 17,64653 <0,01 Error 38 54311,33 1429,246 Total 39 79532,55
SAS ohjelmisto ja CAPM-malli
CAPM-malli Osakkeen tuotto lasketaan logaritmisten hintojen välisenä muutoksena ajanhetkestä t-1 ajanhetkeen t seuraavasti (hinnat ovat maksetut osingot, liikkeellelaskut ja splitit huomoiden korjattuja): Footer
CAPM-malli Osakkeen hinnoittumista ja riskiä kuvataan markkinaperusteisesti Capital Asset Pricing –mallilla (CAPM) seuraavasti: Riskitöntä tuottoa voi edustaa esim. Euribor-korko Footer
CAPM-malli Em. teoreettista CAPM- mallia voidaan testata empiirisesti Sharpen markkinamallilla (aikasarjamalli) seuraavasti Footer
CAPM-esimerkki Estimoidaan CAPM-malli Nokian ja Rautaruukin osakkeille aikaväliltä 1.1.2003 – 31.12.2005 käyttäen päivittäistä dataa Markkinaportfoliota edustaa OMX Helsinki – indeksi Alla hintaindeksien kuvaajat Pit ja Pmt Footer
CAPM-esimerkki Vasemmalla Rautaruukin logaritmiset tuotot (rit) Oikealla Rautaruukin logaritmiset ylituotot (rit – rft) Footer
Tunnusluvut logaritmisille tuotoille SAS: describe – summary statistics Variable Mean Std Dev Minimum Maximum N Lower Quartile Median Upper Quartile Lower 95% CL for Mean Nok_lnret Raut_lnret OMXH_lnret 0.000109199 0.0024172 0.000442512 0.0223509 0.0202121 0.0130909 -0.1842814 -0.0689830 -0.0923183 0.1191167 0.1387735 0.0581318 783 783 783 -0.0102088 -0.0077602 -0.0052792 0.000604066 0.0015415 0.000748325 0.0114894 0.0131842 0.0070119 -0.0014588 0.000999316 -0.000475839 Variable Upper 95% CL for Mean t Value Pr > |t| Coeff of Variation Nok_lnret Raut_lnret OMXH_lnret 0.0016772 0.0038352 0.0013609 0.14 3.35 0.95 0.8913 0.0009 0.3445 20468.00 836.1668852 2958.31 Footer
Jakaumahistogrammit Footer
Sirontakuviot (graph – scatter) Footer
SAS: analyze – regression – linear regression Footer
Mallin määrittely Footer
Tulostettavat tunnusluvut ja testit Footer
Tulostettavat kuviot Footer
Tallennettavat ennusteet ja tunnusluvut Footer
Mallin sopivuus ja merkitsevyys Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 0.35302 7325.82 <.0001 Error 781 0.03764 0.00004819 Corrected Total 782 0.39066 Root MSE 0.00694 R-Square 0.9037 Dependent Mean 0.0001092 Adj R-Sq 0.9035 Coeff Var 6357.0189 Footer
Covariance of Estimates Test of First and Second Moment Specification Vakio ja kulmakerroin Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| 95% Confidence Limits Intercept 1 -0.00060901 0.00024822 -2.45 0.0144 -0.00110 -0.00012175 OMXH_lnret 1.62304 0.01896 85.59 <.0001 1.58581 1.66026 Covariance of Estimates Variable Intercept OMXH_lnret 6.1614109E-8 -1.591205E-7 0.0003595843 Test of First and Second Moment Specification DF Chi-Square Pr > ChiSq 2 4.77 0.0920 Footer
Virhetermin jakauma Footer
Virhetermin jakauma Footer
Virhetermin riippumattomuus (homoskedastisuus) Footer
Havaintojen diagnostiikkaa Footer
Havaintojen diagnostiikkaa Footer
Rautaruukki: tulokset Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 0.02132 55.85 <.0001 Error 781 0.29815 0.00038175 Corrected Total 782 0.31947 Root MSE 0.01954 R-Square 0.0667 Dependent Mean 0.00242 Adj R-Sq 0.0655 Coeff Var 808.29976 Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| 95% Confidence Limits Intercept 1 0.00224 0.00069865 3.21 0.0014 0.00086928 0.00361 OMXH_lnret 0.39887 0.05337 7.47 <.0001 0.29410 0.50364 Covariance of Estimates Variable Intercept OMXH_lnret 4.8811065E-7 -1.260562E-6 0.0028486484 Test of First and Second Moment Specification DF Chi-Square Pr > ChiSq 2 4.83 0.0893 Footer
Rautaruukki: mallin sopivuus Footer
Raportointi
Raportointi Mainittava Selitettävä ja selittävä muuttuja Estimointimenetelmä OLS Taustaedellytysten tarkistaminen: homoskedastisuustesti ja residuaalikuvaajat Havaintojen diagnostiikka Muut asiat taulukkoon esim. seuraavan dian mukaisesti Liitteiksi Residuaalikuvaajat Havaintojen diagnostiikkakuvaajat
Raportointi Rautaruukki Nokia *p<.10, **p<.05, ***p<.01 Dependent variable Rautaruukki Nokia Explanatory Variable Parameter Estimate Standard Error t Value Intercept 0.00224*** 0.00069865 3.21 -0.000609** 0.0002482 -2.45 OMXH_lnret 0.39887*** 0.05337 7.47 1.62304*** 0.01896 85.59 Model fit R Square Adj. R sq F (d.f.) .0667 .0655 55.85*** (1;781) .9037 .9035 7325.82 *p<.10, **p<.05, ***p<.01