Kvantitatiiviset tutkimusmenetelmät Luento 6 Lineaarinen regressioanalyysi II Kaisu Puumalainen
Useamman selittäjän lineaarinen regressio
Tavoite ja peruskäsitteet Yksi selitettävä muuttuja (dependent, y) ja useampia selittäviä muuttujia (explanatory, independent, regressor, x) Selitettävä on jatkuva muuttuja, selittävät pääasiassa jatkuvia, mutta dummy-muunnosten avulla myös kategorisia selittäjiä voi käyttää Tavoitteena ennustaa selitettävän muuttujan (y) arvoa, kun selittävien (x1 ja x2) arvot tunnetaan
Tavoitteet Ennustaminen Selittäminen Millaisella selittävien muuttujien kombinaatiolla saadaan paras ennuste Painopiste voi olla tulkinnassa tai ennustetarkkuudessa Kahden mallin ennustetarkkuuden vertailu Selittäminen Teorian testaaminen Muuttujien välisten yhteyksien toteaminen Eri selittäjien suhteellinen tärkeys Yksittäisen muuttujan vaikutus, kun muut vakioitu Selittäjien keskinäiset yhteydet Mahdollistaa epäsuorien ja ehdollisten ja interaktioyhteyksien tutkimisen Voi verrata regressiokertoimia eri otoksissa
Multiple regression: vaiheet Tutkimusongelma Tavoitteena selittäminen tai ennustaminen Selitettävien ja selittävien muuttujien valinta Tiedon keruu (otoksen riittävyys testien voimakkuuden ja yleistettävyyden kannalta) Mallin edellytykset Lineaarisuus Homoskedastisuus Jäännöstermien riippumattomuus Ei multikollineaarisuutta Normaalisuus
Multiple regression:vaiheet Muuttujamuunnokset Edellytysten toteuttamiseksi Dummyjen laatiminen Polynomit, jos epälineaarisia suhteita Interaktiot, jos moderoivia muuttujia Mallin spesifiointi ja estimointi Itse Ohjelmisto (forward, backward, stepwise) Merkitsevyyden arviointi Selityskerroin F-testi Regressiokertoimien t-testit
Multiple regression:vaiheet Diagnostiikka: poikkeavat ja paljon vaikuttavat havainnot Outlier, leverage Dffit ja dfbeta Mallin tulkinta regressiokertoimet Beta-kertoimet Osa- ja osittaiskorrelaatiot Validointi Split-sample
Muuttujat ja aineisto
Vaihe 1&2: Muuttujien valinta ja havaintojen riittävyys Jatkuva selitettävä Pääasiassa jatkuvia selittäjiä Kategoriset selittäjät dummy-muunnoksella mahdollisia Tarkista tunnuslukujen tai histogrammin avulla ettei muuttujissa ole pahoja outliereita Piirrä sirontakuviot: kukin selittäjä erikseen selitettävän kanssa Ota korrelaatiomatriisi kaikista muuttujista, selitettävän tulisi korreloida selittäjien kanssa merkitsevästi, mutta selittäjien keskinäiset korrelaatiot eivät saisi olla liian voimakkaita (miel. <.70) Havaintoja tulisi olla 5-10 kertaa niin paljon kuin selittäviä muuttujia, jotta mallista ei tule ylisovitettua (overfitting) ja huonosti yleistettävää Ylisovitetussa mallissa on suuri R square mutta suuret estimaattien keskivirheet
Vaihe 2: Testin voimakkuus Statistical power: otoksen koko vaikuttaa tilastolliseen merkitsevyyteen ja kykyyn hylätä vääriä oletushypoteeseja (tyyppi II) Suositus overfitting välttämiseksi: N vähintään 5 kertaa selittäjien määrä, miel. 15-20, stepwise 50 kertaa 5% riskitasolla merkitsevä R2 vähintään, jos testin voimakkuus on .80 N 2 selittäjää 5 selittäjää 10 selittäjää 20 selittäjää 20 .39 .48 .64 na 50 .19 .23 .29 .42 100 .10 .12 .15 .21 250 .04 .05 .06 .08 500 .03 1000 .01 .02
Taustaoletukset
Vaihe 3: Yleisiä edellytyksiä X ja Y yhteyden oikea spesifiointi, lineaarisuus Oikeiden X-muuttujien valinta X-muuttujien täydellinen reliabiliteetti (regressio- ja selityskertoimet todellista alhaisempia jos mittausvirhettä on) Virhetermin odotusarvo on nolla
Vaihe 3: Yleisiä edellytyksiä Homoskedastisuus (virhetermin vakiovarianssi) Havaintojen riippumattomuus Virhetermin (auto-)korreloimattomuus Selittäjät eivät saa olla satunnaisia eikä multikollineaarisia l. täydellisiä lineaarikombinaatioita toisistaan
Vaihe 3: Yleisiä edellytyksiä Usein oletetaan lisäksi, että y ja jäännöstermi ovat normaalijakautuneita Edellytykset arvioidaan etukäteen yksittäisten muuttujien jakaumia tutkimalla sekä estimoinnin jälkeen residuaaleja ja eräitä tunnuslukuja tarkastelemalla Jos edellytykset eivät ole voimassa, niin estimaatit voivat olla harhaisia (biased) tai keskivirheet vääriä Jos estimaatti ei ole harhainen niin malli ok ennustekäytössä Hypoteesien testaaminen ei onnistu jos keskivirheet vääriä
Vaihe 3: Residuaalitarkastelut Perusedellytysten voimassaolon tarkastamiseksi koko mallin osalta, ei vain yksittäisten muuttujien Lineaarisuus sirontakuviosta Vakiovarianssi (heteroskedastisuus) sirontakuviosta Riippumattomuus selitettävästä, selittäjistä ja edellisistä residuaaleista sirontakuvioista Normaalijakautuneisuus histogrammista Suurilla y-arvoilla saadaan suuria residuaaleja – studentized yleensä parempi Graafiset tarkastelut, ks. Kuvio Hair s.174
Vaihe 3: Normaalisuus Jos residuaalien jakauma poikkeaa normaalijakaumasta, niin F- ja t-testit eivät toimi pienillä otoksilla Isoilla otoksilla ei yleensä ongelma, ellei johdu väärästä mallin spesifioinnista Toteaminen graafisesti histogrammi Normal probability plot tai Q-Q plot (ks. Kuvio) Toteaminen tunnusluvuilla Jarque-Bera testi, Kolmogorov-Smirnov yms.
Vaihe 3: Homoskedastisuus Residuaalien varianssi on sama kaikilla selittäjämuuttujien tasoilla Heteroskedastisuus vaikuttaa vain keskivirheisiin, eikä ylensä niihinkään voimakkaasti ellei vaihtelu ole hyvin suurta (10 x) Todetaan sirontakuviolla jos selittäjä on jatkuva, ja laatikkokuviolla jos se on diskreetti Tilastollisesti Whiten testi tai Levenen testi (H0:homoskedastisuus) Jos paha ongelma, niin WLS-estimointi voi olla parempi isoilla otoksilla
Vaihe 3: Lineaarisuus Todetaan muuttujien sirontakuviolla (Y-kukin X erikseen) tai tehokkaammin residuaalien sirontakuvioilla (residuaali- kukin X erikseen, residuaali – ennustettu Y) Poikkeamat voidaan korjata muuttujamuunnoksilla tai erikseen mallintamalla esim. NLR Huom! Muunnosten käyttö vaikuttaa kerrointen tulkintaan
Vaihe 3: Virhetermin korreloimattomuus Virhetermin korrelaatio (autokorrelaatio) johtuu mallin epätäydellisyydestä Aikasarja-aineistoissa ja paneeliaineistoissa voi esiintyä, poikkileikkausaineistoissa yleensä ei ongelma, koska havainnot ovat satunnaisessa järjestyksessä ja toisistaan riippumattomia Todetaan graafisesti tai Durbin-Watson-testillä Vaikuttaa vain keskivirheisiin Ajallinen riippuvuus voidaan korjata muunnoksella
Vaihe 3: Multikollineaarisuus Selittäjien voimakas keskinäinen korrelaatio Hyvin yleistä, luonnostaan tai jos käytetään dummyja, polynomitermeja tai interaktiotermejä Vaikutukset: Vaikea eritellä yksittäisten selittäjien vaikutus, kun suuri osa vaihtelusta on yhteistä Ei vaikuta korreloimattomien selittäjien tulkintaan Selitysasteen parantaminen uusilla muuttujilla hankaloituu Estimointi heikkenee (singularity), voi tuottaa vääriä etumerkkejä Havaitseminen: Selittäjien korrelaatiomatriisi (>.90 paha) Toleranssi (osuus selittäjän vaihtelusta, jota muut selittäjät eivät kata, <.10 paha) VIF (toleranssin käänteisluku, >10 paha) Condition index, sqrt (suurin ominaisarvo/pienin ominaisarvo) > 30 paha
Vaihe 3: Multikollineaarisuus Korjaaminen: Jätä joku multikollineaarisuutta aiheuttava muuttuja pois, korvaa mahdollisesti uudella Jos mallia käytetään vain ennustamiseen eikä kerrointen tulkintaan, niin haitta ei ole suuri Tarkista jokaisen yksittäisen selittäjän korrelaatio selitettävän kanssa ja vertaa etumerkkejä regressiokerrointen etumerkkeihin Käytä selittäjänä summamuuttujia tai pääkomponentteja (faktoreita) Keskitä muuttujat ennen polynomitermien tai interaktioiden laskemista Erityiset estimointimenetelmät (Bayesian, ridge regression) Ortogonalisointi, käytä residuaalia selittäjänä
Muuttujamuunnokset
Vaihe 4: Muunnokset Jos perusedellytykset eivät ole voimassa tai mallin parantamiseksi Residuaalien normaalisuus ja homoskedastisuus: Liian tasainen jakauma – käänteisluku Vino jakauma – neliöjuuri (negatiiviselle), logaritmi (positiiviselle) tai käänteisluku Lineaarisuus: Neliöinti, logaritmi, käänteisluku tai neliöjuuri (ks. Kuvio) Jos epäilet että muuttujan vinous haittaa, kokeile korvata muuttujan arvot järjestysluvuilla ja estimoi malli uudelleen
Vaihe 4: Muunnokset: ohjeita Hyötyä yleensä jos keskiarvo/hajonta < 4 Tee muunnos sille muuttujalle, jolla keskiarvo/hajonta on pienempi Tee muunnos yleensä selittävälle muuttujalle Heteroskedastisuuden korjaamiseksi Y:lle Muunnokset vaikuttavat tulkintaan, esim. Residuaaleihin Jos homoskedastinen niin älä muunna Y:tä Potenssiinkorotukset auttavat yleensä vain jos vaihteluväli on iso (max=10*min)
Vaihe 4: Muunnokset: ohjeita Y2 tai neliöjuuri X tai log X X2 tai neliöjuuri Y tai log Y neliöjuuri tai log joko X:lle tai Y:lle
Vaihe 4: Log-mallien tulkinnasta Lin-lin y=b1+b2x b2 on kulmakerroin, 1 yksikön lisäys x:ssä aiheuttaa b2 yksikön muutoksen y:ssä Log-log ln(y)=b1+b2ln(x) b2 on jousto, 1% lisäys x:ssä aiheuttaa b2% muutoksen y:ssä Log-lin ln(y)=b1+b2x 1 yksikön lisäys x:ssä aiheuttaa 100*b2% muutoksen y:ssä Lin-log y=b1+b2ln(x) 1% lisäys x:ssä aiheuttaa b2/100 yksikön muutoksen y:ssä
Vaihe 4: Muunnokset: dummy-muuttujat Ainut tapa saada nominaaliasteikollisia muuttujia mukaan regressioanalyysiin selittäjäksi Dummy tai indikaattorimuuttuja on dikotominen muuttuja, saa arvon 0 tai 1 Jos muuttujassa on k luokkaa, niin dummyja tarvitaan k-1 kappaletta Dummyn kertoimet kuvaavat eroa siihen ryhmään, jossa dummyt saavat arvon 0 Esim. Selitetään painoa pituudella ja tulotasolla B Vakio -120.0 Pituus cm 1.2** Alle 15 (D1) -7.5** 15-25 (D2) 4.1 tulotaso dummy1 dummy2 alle 15 1 15-25 yli 25 Pienituloinen on keskimäärin 7.5 kg kevyempi kuin samanpituinen suurituloinen, ero luokkien välillä on merkitsevä Keskituloinen on keskimäärin 4.1 kg painavampi kuin samanpituinen suurituloinen, mutta ero ei ole merkitsevä Keskituloinen on keskimäärin 11.6 kg painavampi kuin samanpituinen pienituloinen, mutta emme tiedä onko ero merkitsevä
Vaihe 4: Muunnokset: dummy-muuttujat Tulkinta standardoimattomista regressiokertoimista! Ryhmillä ”omat vakiotermit” Esim. Regressioanalyysi, jossa dummy-muuttujana sukupuoli (nainen=0, mies=1) Estimoitu regressioyhtälö Palkka = 1000 + 120*työkok + 800*sukupuoli Nainen, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 0 = 2200 Mies, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 800 = 3000
Vaihe 4: Muunnokset: Epälineaariset yhteydet Polynomitermit mukaan, yleensä korkeintaan kolmannen asteen Toisen asteen kertoimet: Positiivinen – ylöspäin aukeava paraabeli Negatiivinen – alaspäin aukeava Kaikki alemman asteet termit oltava mukana mallissa! Interaktiot x1x2 moderaattorivaikutusten toteamiseksi Aiheuttaa multikollineaarisuutta, jos ei keskitetä (muunnos: X- X:n keskiarvo) Termien merkitsevyyden arviointi selityskertoimen nousun merkitsevyyden avulla (F-testi)
Mallin estimointi ja merkitsevyys
Vaihe 5: Estimointi Kun määrittelet muuttujat tehtävärooleihin (yksi dependent ja monta explanatory), niin SAS ottaa ne kaikki mukaan malliin Oletusarvoisesti pienimmän neliösumman menetelmä (OLS) Jos haluat antaa SASin valita parhaita selittäjiä joukosta antamiasi mahdollisia muuttujia, niin stepwise-estimointi on mahdollista
Vaihe 5: Stepwise- estimointi Etenee vaiheittain automaattisesti Selittäjänä on vain se muuttuja joka korreloi eniten selitettävän kanssa Osittaiskorrelaatioiden avulla etsitään seuraava selittäjä (jos merkitsevä) Kahden selittäjän mallista lasketaan onko ensimmäinen vielä merkitsevä Jatketaan kunnes ei enää löydy merkitseviä uusia selittäjiä Multikollineaariset selittäjät eivät pääse malliin, tulkinnassa muistettava tämä Vain ennustekäyttöön, isoilla otoksilla (kun n/k > 40) ja validoitava aina eri otoksella
Vaihe 6: Mallin merkitsevyys Yleistettävyyden takia testattava selityskertoimen ja regressiokerrointen merkitsevyys F-testi selityskertoimen merkitsevyydelle (H0: R2=0) Adjusted R2 ottaa huomioon havaintojen määrä/ selittäjien määrä- suhteen
Vaihe 6: Mallin merkitsevyys T-testi regressiokertoimen merkitsevyydelle (H0: b=0) Vakiotermin merkitsevyyden testi ei tarpeen, paitsi jos on sellaisia havaintoja, joilla kaikki selittäjät saavat arvon nolla F-testi voi olla merkitsevä vaikka mikään t-testi ei ole, jos selittäjät multikollineaarisia
Havaintojen diagnostiikka
Vaihe 7: Vaikuttavat yksittäiset havainnot Outlier, discrepancy Havainto, jolla on suuri residuaali Leverage point Erilainen selittäjän arvo, vaikuttaa sen selittäjän kertoimen estimointiin Influential Vaikuttaa paljon tuloksiin, voi olla outlier tai leverage Ks. Kuvio Hair s.185
Vaihe 7: Vaikuttavat yksittäiset havainnot Tieto on virheellinen – korjaa virhe tai poista havainto Oikea tieto, voidaan selittää poikkeuksellisen tilanteen avulla – poista ellei tilannemuuttuja ole mukana mallissa Ei selitystä – ei syitä poistaa eikä säilyttää, jos poistetaan niin raportoitava myös Tavallinen yksittäisten muuttujien osalta, mutta niiden yhdistelmä poikkeuksellinen – säilytä havainto mutta muuta mallia
Vaihe 7: diagnostiikkaa Distances (ks. Hair, s.236): Cook – kuinka paljon residuaalit ja regressiokertoimet muuttuisivat jos havainto jätettäisiin pois, po. < 4 / (n-k-1) leverage – kuinka poikkeavia arvoja havainnolla on selittävissä muuttujissa, vaihteluväli 0 … 1 - 1 / n, po. < 2* (k+1) / n Prediction intervals: luottamusvälit y:n keskiarvolle tai yksittäiselle y:n arvolle Influence statistics: DfBeta – paljonko regressiokerroin muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2 / sqrt (n) DfFit – paljonko ennustettu y muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2*sqrt ((k+1) / (n-k-1))
Estimaattien tulkinta
Vaihe 8: Mallin tulkinta Regressiokertoimista voi laskea ennusteen y:lle Voi arvioida kuinka suuren muutoksen y:ssä selittäjän muutos aiheuttaa (laske y:n osittaisderivaatta selittäjän suhteen) Selittäjien suhteelliset merkitykset beta-kertoimista, standardoitu regressiokerroin (jos ei ole liikaa multikollineaarisuutta)= b*sx/sy Osakorrelaatio (part / semipartial correlation) ja osittaiskorrelaatio (partial correlation)
Vaihe 8: Mallin tulkinta Y Selityskerroin = (a+b+c)/(a+b+c+e) Korrelaatiokerroin2 =r2YX1 = (a+c)/(a+b+c+e) Osakorrelaatiokerroin2=sr2YX1= a/(a+b+c+e) Osittaiskorrelaatiokerroin2=pr2YX1= a/(a+e) e a b c X1 X2
Vaihe 9: Validointi Uusi otos (tai estimation + holdout) Käytetään samaa mallia ja tutkitaan ennustetarkkuutta Estimoidaan erikseen ja verrataan mallien samanlaisuutta (adjusted R2, kertoimet) Chow-testi Bootstrapping: yksi havainto kerrallaan pois Ennustaminen: Laske myös luottamusvälit, ovatko olosuhteet samat kuin mallia estimoitaessa, käytä vain samanlaisilla selittäjien vaihteluväleillä
SAS ohjelmisto
Esimerkkimalli Yrityskyselyaineisto, jossa on noin 190 havaintoa Selitettävä muuttuja yrityksen kasvuhalukkuus (Growth orientation), joka on mitattu usean väittämän keskiarvona ja vaihtelee välillä 1-5 Mahdollisia selittäjiä ovat yrityksen liikevaihto (k€) henkilöstömäärä (kpl) ikä (v) elinkaaren vaihe (1=alkuvaihe, 2=kasvuvaihe, 3=vakiintunut, 4=loppumassa)
Jatkuvien muuttujien tarkastelu Variable Label Mean Std Dev Minimum Maximum N growthorient yritika hlölkm liikeva ikä vuonna 2008 henkilökunnan lkm liikevaihto 3.5259 17.9843 17.1062 2740.39 0.8731 11.9814 19.8629 2049.83 1.00 2.00 1.00 0 5.00 105.00 159.00 10803.40 193 192 160 193 Selittäjille ln-muunnos jakauman vinouden korjaamiseksi Footer
Kategorinen selittäjä Elinkaari Frequency Percent Cumulative Frequency Cumulative Percent 1 2 1.06 34 18.09 36 19.15 3 143 76.06 179 95.21 4 9 4.79 188 100.00 Uudelleenkoodataan dummy-muuttujaksi ”kasvuvaihe” siten, että jos elinkaari=2 niin kasvuvaihe=1 ja muutoin kasvuvaihe=0 Footer
Alustava tarkastelu, sirontakuvio Footer
Alustava tarkastelu, korrelaatio Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations growthorient yritika hlölkm liikeva 1.00000 193 -0.0781 0.2816 192 0.14970 0.0588 160 0.14346 0.0465 193 Yritika -0.07810 0.2816 192 1.00000 192 -0.0433 0.5873 159 0.01554 0.8306 192 Hlölkm 1.00000 160 0.50317 <.0001 160 Liikeva Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations growthorient ln_ika ln_hlo ln_lv growthorien t 1.00000 185 -0.04624 0.5331 184 0.22055 0.0062 153 0.16173 0.0278 185 1.00000 184 -0.06073 0.4573 152 0.00225 0.9758 184 1.00000 153 0.49364 <.0001 153 Selittäjien keskinäiset korrelaatiot pieniä, paitsi liikevaihto ja henkilöstömäärä Kasvuorientaatio korreloi voimakkaammin henkilöstömäärän kanssa muunnoksen jälkeen Ikä ei korreloi kasvuorientaation kanssa Footer
SAS: analyze – regression – linear regression Footer
Tulostettavat tunnusluvut Multikollineaarisuus ja Whiten testi Footer
Tulostettavat kuvaajat Footer
Mallin sopivuus ja Whiten testi Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 3.76165 1.25388 1.87 0.1366 Error 148 99.05926 0.66932 Corrected Total 151 102.82091 F-testin H0 jää voimaan -> malli ei ole tilastollisesti merkitsevä, selitysaste ei poikkea nollasta Root MSE 0.81812 R-Square 0.0366 Dependent Mean 3.55482 Adj R-Sq 0.0171 Coeff Var 23.01434 Mallin avulla voidaan selittää vain 3,66% kasvuorientaation vaihtelusta Test of First and Second Moment Specification DF Chi-Square Pr > ChiSq 9 11.53 0.2409 Whiten testi H0 jää voimaan -> malli on homoskedastinen, taustaedellytys OK Footer
Parametriestimaatit Taustaedellytys: ei multikollineaarisuutta, OK Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Intercept 1 3.58202 0.15359 23.32 <.0001 . yritika -0.00877 0.00575 -1.52 0.1296 -0.12317 0.01666 Hlölkm 0.00465 0.00381 1.22 0.2238 0.11320 0.01834 0.01865 Liikeva 0.0000178 0.0000360 0.49 0.6224 0.04566 0.00158 0.00164 Parameter Estimates Variable DF Squared Semi-partial Corr Type II Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 3.27850 3.88553 yritika 0.01512 0.01545 0.99669 1.00332 -0.02014 0.00260 hlölkm 0.00972 0.00998 0.75809 1.31910 -0.00287 0.01218 liikeva 0.00158 0.00164 0.76009 1.31564 -0.0000535 0.00008908 Footer Taustaedellytys: ei multikollineaarisuutta, OK
Residuaalikuvaajat Residuaalin normaalijakautuneisuus, taustaedellytys OK Residuaalin vakiovarianssi eli homoskedastisuus, taustaedellytys OK Footer
Residuaalikuvaajat Residuaalien tulee olla riippumattomia selittäjien arvoista, lineaarisuus -> taustaedellytys OK Footer
Havaintojen vaikuttavuus Cook’s D ja DFFIT -> havainto 36 on voimakkaasti vaikuttava DFBETAS -> havainto 36 vaikuttaa erityisesti vakiotermin ja iän kertoimen arvoon Footer
Selittäjät nyt ln-muunnettuja Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 5.14600 1.71533 2.60 0.0544 Error 148 97.67490 0.65997 Corrected Total 151 102.82091 Root MSE 0.81238 R-Square 0.0500 Dependent Mean 3.55482 Adj R-Sq 0.0308 Coeff Var 22.85296 Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Squared Semi-partial Corr Type II Intercept 1 3.28064 0.89897 3.65 0.0004 . ln_ika -0.07264 0.09776 -0.74 0.4586 -0.05969 0.00524 0.00354 ln_hlo 0.17553 0.07726 2.27 0.0245 0.20941 0.04479 0.04502 0.03313 ln_lv 0.00700 0.12130 0.06 0.9540 0.00531 0.00002139 0.00002252 Parameter Estimates Variable DF Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 1.50417 5.05712 ln_ika 0.00372 0.99460 1.00543 -0.26581 0.12054 ln_hlo 0.03370 0.75558 1.32349 0.02286 0.32820 ln_lv 0.00002252 0.75835 1.31866 -0.23270 0.24670 Footer
Hav 36 poistettu Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 2.97192 0.99064 1.56 0.2013 Error 147 93.27863 0.63455 Corrected Total 150 96.25055 Root MSE 0.79659 R-Square 0.0309 Dependent Mean 3.57174 Adj R-Sq 0.0111 Coeff Var 22.30243 Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Squared Semi-partial Corr Type II Intercept 1 3.14314 0.88304 3.56 0.0005 . ln_ika -0.01361 0.09844 -0.14 0.8902 -0.01124 0.00018189 0.00012610 ln_hlo 0.13915 0.07701 1.81 0.0728 0.16823 0.03056 0.02153 ln_lv 0.01723 0.11900 0.14 0.8851 0.01348 0.00013812 0.00014251 Parameter Estimates Variable DF Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 1.39806 4.88823 ln_ika 0.00013010 0.99869 1.00131 -0.20816 0.18093 ln_hlo 0.02173 0.76054 1.31485 -0.01304 0.29133 ln_lv 0.00014251 0.76037 1.31515 -0.21795 0.25240 Footer
Yhteenveto malleista Malli Lineaarinen Logaritminen Log, hav. 36 pois B s.e. t Vakio 3.582 0.154 23.32*** 3.281 0.899 3.65*** 3.143 0.883 3.56*** Ikä -0.009 0.006 -1.52 -0.073 0.098 -0.74 -0.014 -0.14 Henkilöstö 0.005 0.004 1.22 0.176 0.077 2.27** 0.139 1.81* Liikevaihto 0.000 0.49 0.007 0.121 0.06 0.017 0.119 0.14 Sopivuus R2 Adj. R2 F (df) F .037 .017 1.87 (3;148) .050 .031 2.60* .011 1.56 (3:147) Footer
Kasvuvaihe- dummy selittäjäksi Elinkaari Mean of growthorient Std. Dev. of growthorient . 3.57735 0.80268 2 4.08824 0.72618 3 3.46310 0.76678 4 3.38095 0.98936 Footer
Tulokset Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 10.86489 3.62163 6.23 0.0005 Error 147 85.38567 0.58085 Corrected Total 150 96.25055 Root MSE 0.76214 R-Square 0.1129 Dependent Mean 3.57174 Adj R-Sq 0.0948 Coeff Var 21.3379 Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Squared Semi-partial Corr Type II Intercept 1 2.96024 0.31432 9.42 <.0001 . kasvuvaihe 0.61621 0.16702 3.69 0.0003 0.29139 0.07504 0.08214 ln_ika 0.04744 0.09556 0.50 0.6203 0.03916 0.00114 0.00123 0.00149 ln_hlo 0.15876 0.06437 2.47 0.0148 0.19194 0.03670 0.03973 Parameter Estimates Variable DF Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 2.33908 3.58140 kasvuvaihe 0.08475 0.96740 1.03369 0.28613 0.94629 ln_ika 0.00167 0.97024 1.03067 -0.14140 0.23628 ln_hlo 0.03973 0.99622 1.00379 0.03154 0.28597 Footer
SAS- koodi PROC REG DATA=kirjasto.datatiedosto PLOTS(ONLY)=ALL ; Linear_Regression_Model: MODEL growthorient = kasvuvaihe ln_ika ln_hlo / SELECTION=NONE STB CLB PCORR1 PCORR2 SCORR1 SCORR2 ALPHA=0.05 TOL VIF SPEC RUN; Footer
Raportointi
Raportoitavat asiat Estimointimenetelmä (OLS, WLS, GLS,..) Selitettävä ja selittävät muuttujat Muuttujien lisääminen malliin: enter vai stepwise Taustaoletusten tarkistus (maininta + liite) Selityskerroin, (F-arvo, vapausasteet tai n), merkitsevyys (Standardoidut) regressiokertoimet, keskivirheet tai t-arvo, merkitsevyys Samaan taulukkoon voi ja kannattaa tiivistää usean regressiomallin tulokset, esim. jos käytetään samoja selittäjiä ja/tai selitettäviä eri malleissa, ks. Yhteenvetotaulukko kolmen esimerkkimallin tuloksista yllä Raportoi aina myös mallissa käyttämiesi muuttujien keskiarvot, keskihajonnat ja korrelaatiomatriisi (liitteeksi tai tekstiosaan aineiston kuvailu- kappaleeseen)