Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Kvantitatiiviset tutkimusmenetelmät

Samankaltaiset esitykset


Esitys aiheesta: "Kvantitatiiviset tutkimusmenetelmät"— Esityksen transkriptio:

1

2 Kvantitatiiviset tutkimusmenetelmät
Luento 5 Lineaarinen regressioanalyysi I Kaisu Puumalainen

3 Lineaarisen regression peruskäsitteet

4 Tavoite ja peruskäsitteet
Yksi selitettävä muuttuja (dependent, y) ja yksi tai useampia selittäviä muuttujia (explanatory, independent, regressor, x) Selitettävä on jatkuva muuttuja, selittävät pääasiassa jatkuvia, mutta dummy-muunosten avulla myös nominaalisia selittäjiä voi käyttää Tavoitteena ennustaa selitettävän muuttujan (y) arvoa, kun selittävien (x1 ja x2) arvot tunnetaan Regressioanalyysi perustuu muuttujien väliseen korrelaatioon, suhde voi olla joko positiivinen (kun x kasvaa, y kasvaa myös) tai negatiivinen (kun x kasvaa, y pienenee) Mallin lineaarisuus tarkoittaa, että se on parametrien suhteen lineaarinen; muuttujien x ja y suhde voi alun perin olla epälineaarinen, ks. Excel-demo

5 Esim. Tulojen vaikutus ruokamenoihin
Kirjoista Hill et al. Undergraduate Econometrics ja Principles of Econometrics

6 Esim. Sirontakuvio Jokainen havainto on pisteenä kuviossa, positiivinen korrelaatio nähtävissä

7 Esim. Y:n ehdollinen jakauma
Kullakin x:n arvolla y:llä on ehdollinen jakauma, jonka keskiarvo kasvaa x:n kasvaessa, mutta varianssi pysyy samana kaikilla x:n arvoilla

8 Esim. Y:n ehdollinen jakauma

9 Esim. Regressiosuoran parametrit
Tuntemattomat β1, β2 ja e estimoidaan aineistosta (esim. OLS-menetelmällä) Estimoidut parametrit (parameter estimates) Vakiotermi (intercept, constant) β1 on regressiosuoran ja y-akselin leikkauspiste, arvo jonka y saa kun x saa arvon nolla Regressiokerroin (regression coefficient) β 2 on regressiosuoran kulmakerroin (slope), kertoo montako yksikköä y muuttuu jos x kasvaa yhdellä yksiköllä

10 Esim. Residuaalit Jäännöstermi eli residuaali e (residual, error)
Teoreettisesti se on mallin selittämättä jäänyt osa, jonka suuruutta ei voida tietää. Estimoitaessa sitä kuvataan y:n ja ennustetun y:n erotuksella Hyvässä mallissa jäännöstermi on pieni ja täysin satunnainen

11 Taustaoletukset

12 Yhden muuttujan lineaarinen Regressiomalli: oletukset
Y:n saama arvo jokaiselle x:n arvolla on: - X ja Y yhteyden oikea spesifiointi, lineaarisuus - Oikeiden X-muuttujien valinta - X-muuttujien täydellinen reliabiliteetti II Jäännöstermin odotusarvo on E(e)=0 koska oletetaan, että: III Jäännöstermin varianssi on vakio: - homoskedastisuus

13 Yhden muuttujan lineaarinen Regressiomalli: oletukset
IV Minkä tahansa jäännöstermiparin kovarianssi on nolla: - Havaintojen riippumattomuus - Virhetermin (auto-)korreloimattomuus V Selittävä muuttuja x ei ole satunnaismuuttuja, ja se saa vähintään kaksi erilaista arvoa VI Jäännöstermit noudattavat normaalijakaumaa, jos y noudattaa normaalijakaumaa (ja päinvastoin) (tämä ei ole välttämätön oletus)

14 Yhden muuttujan lineaarinen regressiomalli: oletukset
Jos oletukset eivät päde estimoidun mallin kertoimet ovat harhaisia (biased) ja/tai niiden keskivirheet (standard errors) vääriä tai epäluotettavia Oletusten paikkansapitävyyden tarkistaminen tärkeää Yksittäisen muuttujien, muuttujien välisten suhteiden sekä estimoitujen virhetermien tarkastelu Silmämääräisesti sirontakuvioilla (”scatter plot”) Tilastollisesti testaamalla Jos käy ilmi että oletukset eivät päde, voidaan tilanteesta riippuen käyttää esimerkiksi muuttujamuunnoksia, mallimuunnosta, tai poikkeaman edellyttämää estimointimenetelmää.

15 Yhden selittäjän mallin estimointi ja parametriestimaattien tulkinta

16 Pienimmän neliösumman estimointimenetelmä OLS
Estimointiin voidaan käyttää esim. pienimmän neliösumman menetelmää (ordinary least squares, OLS) suurimman uskottavuuden menetelmää (maximum likelihood, ML) Pienimmän neliösumman menetelmä minimoidaan havaintojen ja regressiosuoran (vertikaalisen) etäisyyden neliöt estimoitu suora on nyt ŷ=b1+b2xi vertikaalinen etäisyys regressiosuorasta kuhunkin havaintopisteeseen on jäännöstermi êi = yi-ŷi = yi- b1- b2xi Etsitään sellainen suora jossa näiden erotuksien neliösumma on mahdollisimman pieni. Matemaattisesti, minimoidaan neliösumma: ’hattu’ = kyseessä on estimaatti todellisesta parametriarvosta

17 Pienimmän neliösumman estimointimenetelmä OLS
Derivoimalla edellisestä kaavasta saadaan estimaatit parametreille β1 ja β2:

18 Esim. Tulojen vaikutus ruokamenoihin
Pienimmän neliösumman menetelmällä estimoidut regressiokertoimet. Miten kertoimet tulkitaan?

19 Esim. Tulojen vaikutus ruokamenoihin
kuva 3.9 s.55 Esimerkin tulkinta Mitä ongelmia vakion tulkitsemisessa?

20 OLS-menetelmän ominaisuuksia
estimoitu regressiosuora kulkee x:n ja y:n keskiarvon kautta virhetermien keskiarvo on nolla kun taustaoletukset lineaariselle regressiomallille pätevät, estimaattoreilla b1 ja b2 on pienin varianssi vaihtoehtoisten lineaaristen ja harhattomien β1 ja β2 -estimaattoreiden joukossa (Gauss-Markovin teoreema) →OLS-menetelmä on ”best linear unbiased estimator” (BLUE) Paras, koska pienin varianssi Unbiased, harhaton: E(b2)=β2

21 Parametriestimaattien keskivirheet, luottamusvälit ja tilastollinen merkitsevyys

22 Virhetermin varianssi ja keskivirhe
Todelliset perusjoukon virhetermit (random error) ei ovat tuntemattomia, mutta voimme arvioida niitä pienimmän neliösumman jäännöstermillä (residuaalit, residuals), joka siis on: ei = yi - β1 - β2xi jäännöstermin estimaatti saadaan kun korvataan tuntemattomat parametrit niiden OLS-estimaattoreilla: êi = yi – b1 – b2xi nyt voidaan määritellä jäännöstermin varianssiksi Jossa nimittäjässä vähennetään otoskoosta regressioparametrien määrä, ja saadaan harhaton estimaattori. Joten: Jäännöstermin keskivirhe on varianssin neliöjuuri (standard error of regression)

23 Parametriestimaattien varianssit
Estimaattorin varianssi kuvaa estimaattorin tarkkuutta, se kertoo siitä, kuinka paljon estimaatti vaihtelee eri otoksissa. Estimaattori on sitä täsmällisempi, mitä pienempi sen varianssi on. Keskivirhe on varianssin neliöjuuri Estimaattorien varianssien ja kovarianssin kaavat:

24 Parametriestimaattien varianssit
Huomataan, että: virhetermin varianssi σ2 esiintyy jokaisessa kaavassa. Mitä suurempi virhetermin varianssi sitä epätarkempaa tieto koskien β1 ja β2 sitä suurempaa on epävarmuus siitä mitä arvoja y saa verrattuna E(y):n sitä suurempi on teoreettisen malliin liittyvä epävarmuus Neliösumma esiintyy jokaisessa kaavassa: kuvaa sitä kuinka kaukana havainnot ovat keskiarvosta, eli kuinka laajalle levittäytyneitä x- havainnot ovat Mitä suurempi neliösumma on sitä pienempi on OLS estimaattorin varianssi

25 Parametriestimaattien varianssit
Mitä suurempi otoskoko n sitä pienempi on OLS-estimaattoreiden varianssi Mitä suurempi on havaintojen etäisyys origosta (Σx2) sitä suurempi on b1:n varianssi vakiotermi β1 on y:n odotettu arvo kun x=0. Mitä kauempana havainnot ovat sitä vaikeampaa/epävarmempaa on vakiotermin tulkitseminen ja estimoiminen Saamme siis sitä varmemmin oikeaan osuvat parametriestimaatit, mitä Suurempi otos Enemmän vaihtelua muuttujassa x Pienemmät itseisarvoltaan ovat virhetermit eli residuaalit

26 Parametriestimaattien keskivirheet
Keskivirheet saadaan ottamalla variansseista neliöjuuret Keskivirhe kuvaa sitä miten paljon eri otoksista estimoidut parametrit eroavat toisistaan

27 Esim. Keskivirheet Sijoittamalla ed. kaavoihin saadaan keskivirheet yi
xi yhat=b1+b2xi ei=yi-yhat 52,25 258,3 73,9045 -21,6545 58,32 343,1 84,7834 -26,4634 81,79 425 95,2902 -13,5002 119,9 267,5 100,7424 19,1576 125,8 482,9 102,7181 23,0819 jne. Sijoittamalla ed. kaavoihin saadaan keskivirheet

28 Parametriestimaattien keskivirheet
otos b1 b2 1 51,13 0,14 2 61,20 0,13 3 40,79 4 80,14 0,09 5 31,01 0,17 6 54,31 0,11 7 69,67 0,10 8 71,15 9 18,83 0,18 10 36,14 0,16 keskiarvo 51,43859 0,13182 keskihajonta 19,65472 0,031145 Vertaa estimaattien keskiarvoja esimerkissä laskettuihin 40,7676 ja 0,1283 Vertaa estimaattien keskihajontoja esimerkissä laskettuihin 22,1387 ja 0,0305

29 Kertoimien luottamusväli
Kertoimen luottamusväli: [bk–tcse(bk), bk+tcse(bk)] jossa bk=estimoitu kerroin, tc=taulukosta saatava raja-arvo (vapausasteet n-2), se(bk)=kertoimen keskivirhe kapeampi luottamusväli → tarkempi informaatio jos luottamusväli kattaa nollan, kerroin ei ole merkitsevä Esim. kaksisuuntainen 5% t-arvo vapausasteilla 38 = 2,024 Vakiotermin luottamusväli 40,7676+/- 2,024*22,1387 = -4,04 …85,58 Kulmakertoimen luottamusväli 0,1283 +/- 2,024*0,0305 = 0,067 … 0,190

30 Kertoimen merkitsevyyden testaaminen
Kun regressiosuora on estimoitu, voidaan testata tukeeko aineisto sitä että x-muuttujalla on vaikutusta y-muuttujaan (sillä tavoin kuten mallia muodostettaessa oletettiin). Testataan kertoimen tilastollista merkitsevyyttä, testataan poikkeaako kerroin nollasta. H0: βk= 0 ja H1: βk ≠ 0 t-testi: t=(bk-c) / se(bk) ~t(n-K) koska c=0 → t= bk / se(bk) ~t(n-K) jossa ”~t(n-K)” tarkoittaa: ”noudattaa t-jakaumaa vapausasteella (n-K)”, jossa n havaintojen lukumäärä ja K estimoitavien parametrien lukumäärä Jos testisuure on suurempi tai yhtä suuri kuin taulukosta saatava kriittinen raja-arvo, nollahypoteesi hylätään.

31 Kertoimen merkitsevyyden testaaminen
Ohjelmat laskevat kertoimen merkitsevyyden automaattisesti (the p-value, probability, prob., significance level, sig.) p-arvo: ”tarkka merkitsevyystaso”, todennäköisyys ykköstyypin virheelle (hypoteesin hylkääminen kun se on tosi) jos p-arvo on pienempi kuin valittu merkitsevyys/riskitaso α, H0 hylätään esim. jos testataan 95% luottamustasolla, α=0.05; jos 99%:n α=0.01 Esimerkissä vakiotermin merkitsevyys t= 40,7676 / 22,1387 = 1,84 < kriittinen arvo 2,024 -> H0 jää voimaan Esimerkissä kulmakertoimen merkitsevyys t= 0,1283 / 0,0305 = 4,21 > kriittinen arvo 2,024 -> H0 hylätään

32 Mallin hyvyys, selityskerroin

33 y:n vaihtelun komponentit
Toivottavaa, että selittävät muuttujat (x) selittäisivät mahdollisimman paljon selitettävän muuttujan (y) vaihtelusta Selitettävän muuttujan (y) kokonaisvaihtelu keskiarvonsa ympärillä voidaan jakaa osiin neliösummien avulla siten, että: = total sum of squares = SST , kokonaisneliösumma Mittaa y:n kokonaisvaihtelua = explained /regression sum of squares = SSR Se osuus y:n vaihtelusta jonka malli selittää = error /residual sum of squares = SSE , jäännösneliösumma Se osuus y:n vaihtelusta jota malli ei selitä Siis: SST=SSR+SSE

34 Selityskerroin r2 on Pearsonin korrelaatiokertoimen neliö, ja samalla todellisen ja ennustetun y:n välinen korrelaatio toiseen

35 Selityskerroin r2 = selityskerroin eli selitysaste, coefficient of determination, r square 0< r2<1, kertoo kuinka monta prosenttia y:n vaihtelusta malli selittää Mitä lähempänä 1 sitä suuremman osan selitettävän muuttujan vaihtelusta malli selittää Jos r2 = 1 kaikki havainnot ovat täsmälleen samoja kuin estimoidussa mallissa, SSE = 0 Jos x:n ja y:n välillä ei ole mitään yhteyttä, SSR=0 ja r2=0 Yhden selittävän muuttujan regressiossa pätee, että rx.y2=r2=ry.ŷ2 Huom. Eri mallien selityskertoimet ovat täysin vertailukelpoisia vain jos muuttujat ovat samat Jos malli ei sisällä vakiotermiä, r2 ei ole mielekästä tulkita

36 ANOVA-taulukko ja mallin merkitsevyys
Vaihtelun komponentit on tapana esittää ANOVA-taulukossa Taulukossa k on estimoitujen parametrien määrä F on testisuure, jonka p-arvo saadaan F-jakaumasta F-testin H0: r2=0 Source DF Sum of Squares Mean Square F p Regression, Model k-1 SSR SSR / (k-1) MSR / MSE F (alpha, k-1;n-k) Error, Residual n-k SSE SSE / (n-k) Total n-1 SST SST / (n-1)

37 Esimerkin selityskerroin ja mallin merkitsevyys
Selityskerroin r2=25221,22 / 79532,55 = 0,317 Ruokamenojen vaihtelusta 31,7% selittyy tulojen avulla Malli on tilastollisesti merkitsevä, koska F-testin p-arvo jää alle 5% riskitason Source DF Sum of Squares Mean Square F p Regression 1 25221,22 17,64653 <0,01 Error 38 54311,33 1429,246 Total 39 79532,55

38 SAS ohjelmisto ja CAPM-malli

39 CAPM-malli Osakkeen tuotto lasketaan logaritmisten hintojen välisenä muutoksena ajanhetkestä t-1 ajanhetkeen t seuraavasti (hinnat ovat maksetut osingot, liikkeellelaskut ja splitit huomoiden korjattuja): Footer

40 CAPM-malli Osakkeen hinnoittumista ja riskiä kuvataan markkinaperusteisesti Capital Asset Pricing –mallilla (CAPM) seuraavasti: Riskitöntä tuottoa voi edustaa esim. Euribor-korko Footer

41 CAPM-malli Em. teoreettista CAPM- mallia voidaan testata empiirisesti Sharpen markkinamallilla (aikasarjamalli) seuraavasti Footer

42 CAPM-esimerkki Estimoidaan CAPM-malli Nokian ja Rautaruukin osakkeille aikaväliltä – käyttäen päivittäistä dataa Markkinaportfoliota edustaa OMX Helsinki – indeksi Alla hintaindeksien kuvaajat Pit ja Pmt Footer

43 CAPM-esimerkki Vasemmalla Rautaruukin logaritmiset tuotot (rit)
Oikealla Rautaruukin logaritmiset ylituotot (rit – rft) Footer

44 Tunnusluvut logaritmisille tuotoille SAS: describe – summary statistics
Variable Mean Std Dev Minimum Maximum N Lower Quartile Median Upper Quartile Lower 95% CL for Mean Nok_lnret Raut_lnret OMXH_lnret Variable Upper 95% CL for Mean t Value Pr > |t| Coeff of Variation Nok_lnret Raut_lnret OMXH_lnret Footer

45 Jakaumahistogrammit Footer

46 Sirontakuviot (graph – scatter)
Footer

47 SAS: analyze – regression – linear regression
Footer

48 Mallin määrittely Footer

49 Tulostettavat tunnusluvut ja testit
Footer

50 Tulostettavat kuviot Footer

51 Tallennettavat ennusteet ja tunnusluvut
Footer

52 Mallin sopivuus ja merkitsevyys
Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 <.0001 Error 781 Corrected Total 782 Root MSE R-Square 0.9037 Dependent Mean Adj R-Sq 0.9035 Coeff Var Footer

53 Covariance of Estimates Test of First and Second Moment Specification
Vakio ja kulmakerroin Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| 95% Confidence Limits Intercept 1 -2.45 0.0144 OMXH_lnret 85.59 <.0001 Covariance of Estimates Variable Intercept OMXH_lnret E-8 E-7 Test of First and Second Moment Specification DF Chi-Square Pr > ChiSq 2 4.77 0.0920 Footer

54 Virhetermin jakauma Footer

55 Virhetermin jakauma Footer

56 Virhetermin riippumattomuus (homoskedastisuus)
Footer

57 Havaintojen diagnostiikkaa
Footer

58 Havaintojen diagnostiikkaa
Footer

59 Rautaruukki: tulokset
Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 55.85 <.0001 Error 781 Corrected Total 782 Root MSE R-Square 0.0667 Dependent Mean Adj R-Sq 0.0655 Coeff Var Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| 95% Confidence Limits Intercept 1 3.21 0.0014 OMXH_lnret 7.47 <.0001 Covariance of Estimates Variable Intercept OMXH_lnret E-7 E-6 Test of First and Second Moment Specification DF Chi-Square Pr > ChiSq 2 4.83 0.0893 Footer

60 Rautaruukki: mallin sopivuus
Footer

61 Raportointi

62 Raportointi Mainittava Selitettävä ja selittävä muuttuja
Estimointimenetelmä OLS Taustaedellytysten tarkistaminen: homoskedastisuustesti ja residuaalikuvaajat Havaintojen diagnostiikka Muut asiat taulukkoon esim. seuraavan dian mukaisesti Liitteiksi Residuaalikuvaajat Havaintojen diagnostiikkakuvaajat

63 Raportointi Rautaruukki Nokia *p<.10, **p<.05, ***p<.01
Dependent variable Rautaruukki Nokia Explanatory Variable Parameter Estimate Standard Error t Value Intercept *** 3.21 ** -2.45 OMXH_lnret *** 7.47 *** 85.59 Model fit R Square Adj. R sq F (d.f.) .0667 .0655 55.85*** (1;781) .9037 .9035 *p<.10, **p<.05, ***p<.01


Lataa ppt "Kvantitatiiviset tutkimusmenetelmät"

Samankaltaiset esitykset


Iklan oleh Google