Kvantitatiiviset tutkimusmenetelmät

Slides:

Advertisements

Samankaltaiset esitykset

1. Missä vietät joulun useimmiten?. 2. Missä viettäisit joulun mieluiten?

Advertisements

Juha Kauppinen Consulting oy Työntekijäkysely Tietoja

Esimerkkejä Esimerkki 1. Hetkellä t1 = 8 s on auton asema s1 = 600 m ja hetkellä t2 = 28 s on s2 = 800 m. Kuinka suuri on keskinopeus? s2 -s1 s 800 m.

Kvantitatiiviset tutkimusmenetelmät

Pääkaupunkiseudun 8. luokkien palvelukyky Espoo, Tapiolan koulu Joulukuu 2013.

Konfirmatorinen faktorianalyysi

Hampuri, Saksa Löytää suunta, joka mahdollistaa Lions Clubs Internationalin saavuttavan sen täyden potentiaalin kansainvälisenä.

Esiopetuksen huoltajat 2014 Generated on :41.

Lineaarisia malleja.

S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.

Peruskysymys: onko asteikko luonteeltaan luokitteleva vai jatkuva?

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

TYTILM1 Tilastolliset menetelmät

Kvantitatiiviset tutkimusmenetelmät

Perusopetuksen huoltajat 2014 Generated on :04.

Valitse seuraaviin vaihtoehtotehtäviin oikea vastaus…

1 Senioreiden säästäminen ja maksutavat 2014 SENIOREIDEN SÄÄSTÄMINEN JA MAKSUTAVAT

1 ©TNS 2012 NEUVOLOIDEN VASTAANOTTOJEN ASIAKASTYYTYVÄISYYSMITTAUS Neuvolat - suurten kaupunkien vertailu 2012 Kaupunkikohtainen vertailu.

Yliopistokirjastojen vastaajat palvelukyselyssä 2010 Päivi Jokitalo Kansalliskirjasto. Kirjastoverkkopalvelut marraskuu 2010.

I.R.O. Research Oy vee 10/2000 Mediakäyttö Käyttää vähintään kerran viikossa Tytöt ja pojat *) Kirjat (esim. romaanit, lasten- ja nuortenkirjat)

Työmarkkinatutkimus 2012 Yksityinen sektori

TMA.003 / L3 ( )1 3. Funktioista 3.1. Kuvaus ja funktio Olkoon A ja B ei-tyhjiä joukkoja. Tulojoukon A  B = {(x,y) | x  A, y  B} osajoukko on.

Anna tutki: Naisen asema työelämässä.

Jakaumista. Frekvenssijakauma Mainostaja kysyy 200 asiakkaalta, kuinka monta kertaa viikossa he lukevat sanomalehteä. Päivät, jolloin luet lehden Frekvenssi.

USEAN RYHMÄN VERTAILU Biostatistiikka

TUME II / Tilastollinen osuus Tilastollinen riippuvuus

1 Raha-asioiden suunnitteleminen ja nykyinen rahatilanne Senioritutkimus 2011.

Tutkimus osuuskuntien alueellisesta syntyvyydestä Panu Kalmi / HKKK ja RUN Pellervon Päivä Helsinki.

Maatalous, maaseutuyrittäminen rahavirrat 2008 ja 2007 Pohjois-Savo Jari Kauhanen MTK- Pohjois-Savo.

Tilastoanalyysien merkitys ekologiassa

Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.

Eksponentiaalinen kasvaminen ja väheneminen

Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.

SU MEN SALIBANDYLIITT 21 vuotta salibandya Suomessa.

Tietoja muuttoliikkeestä Yhteenvetoa PKS = Vantaa, Espoo, Helsinki ja Kauniainen KUUMA = muu Helsingin seutu (10 kuntaa)

Tilastollisia menetelmiä

Käyttäytymistieteiden laitos

Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.

SATTUMAN ONGELMA TUTKIMUKSESSA 1 x: tenttiin valmistautumiseen käytetty aika (tunteja) Perusjoukko μ = 39,87.

Energiavuosi 2014 Sähkö Energiateollisuus ry.

PARAABELI (2. ASTEEN FUNKTION KUVAAJIA)

Otanta Miksi otantaa? –suuresta perusjoukosta voidaan saada tarvittavat tiedot edullisemmin kuin kokonaistutkimuksella –kiireisyys vaatii usein otantaa.

Muuttujien riippuvuus

S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.

lineaarinen regressio

Suomen Lääkäriliitto | Finnish Medical AssociationLääkärit Suomessa | Physicians in Finland Tilastotietoja lääkäreistä ja terveydenhuollosta 2014 Statistics.

1. Missä vietät joulun useimmiten?. 2. Missä viettäisit joulun mieluiten?

Vaihteluväli ja keskipoikkeama

Laskelma kuntien ja kuntayhtymien menoista v. 2013

Tilastollisesti merkitsevä nousu Tilastollisesti merkitsevä lasku Edelliseen aineistoon KMT 2005 verrattuna* KMT Kevät06 puolivuosiaineisto KMT SYKSY05/KEVÄT06.

Korrelaatio Kertoo kahden muuttujan välisestä lineaarisesta yhteydestä eli kuinka hyvin toisen muuttujan avulla voidaan ennustaa toisen muuttujan vaihtelua.

Standardointi tekee eri asteikollisista muuttujista vertailukelpoisia

Piste- ja väliestimointi:

Monimuuttujamenetelmistä Lähtökohtana mallittaa muuttujien välinen riippuvuusrakenne. Rakenne tulee sovellusalan teoriasta. Sopiva analyysi valitaan mallin.

UNIVERSITY OF TURKU FAKTORIANALYYSI. U NIVERSITY OF TURKU FAKTORIANALYYSIN PERIAATE Etsitään muuttujajoukosta keskenään korre- loivien muuttujien kokonaisuuksia.

1 Kvantitatiiviset menetelmät Pienryhmäkokoontumisissa tarvitaan EK03- aineiston haastattelulomake. Sen voi tulostaa verkosta. Linkki löytyy kurssin kotisivulta:

UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.

1 Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina klo Porthanian salissa PIV Uusintamahdollisuus rästitentissä ma 15– 17.

YFIA202 Kvantitatiiviset menetelmät, luento YTT Pertti Jokivuori Syksy luento (Ti )

REGRESSIOANALYYSI.

YFIA220 Kvantitatiivisten menetelmien syventävä kurssi

YFIA200 Kvantitatiiviset menetelmät, luento

YFIS200 Kvantitatiivisten menetelmien syventävä kurssi

VARIANSSIANALYYSI.

Monimuuttinimuuttuja-analyyseista

YFIA202 Kvantitatiiviset menetelmät, luento

YFIA202 Kvantitatiiviset menetelmät, luento

YFIS200 Kvantitatiivisten menetelmien syventävä kurssi

YFIA200 Kvantitatiiviset menetelmät, luento

Korrelaatio- ja regressioanalyysi

Esityksen transkriptio:

Kvantitatiiviset tutkimusmenetelmät Luento 6 Lineaarinen regressioanalyysi II Kaisu Puumalainen

Useamman selittäjän lineaarinen regressio

Tavoite ja peruskäsitteet Yksi selitettävä muuttuja (dependent, y) ja useampia selittäviä muuttujia (explanatory, independent, regressor, x) Selitettävä on jatkuva muuttuja, selittävät pääasiassa jatkuvia, mutta dummy-muunnosten avulla myös kategorisia selittäjiä voi käyttää Tavoitteena ennustaa selitettävän muuttujan (y) arvoa, kun selittävien (x1 ja x2) arvot tunnetaan

Tavoitteet Ennustaminen Selittäminen Millaisella selittävien muuttujien kombinaatiolla saadaan paras ennuste Painopiste voi olla tulkinnassa tai ennustetarkkuudessa Kahden mallin ennustetarkkuuden vertailu Selittäminen Teorian testaaminen Muuttujien välisten yhteyksien toteaminen Eri selittäjien suhteellinen tärkeys Yksittäisen muuttujan vaikutus, kun muut vakioitu Selittäjien keskinäiset yhteydet Mahdollistaa epäsuorien ja ehdollisten ja interaktioyhteyksien tutkimisen Voi verrata regressiokertoimia eri otoksissa

Multiple regression: vaiheet Tutkimusongelma Tavoitteena selittäminen tai ennustaminen Selitettävien ja selittävien muuttujien valinta Tiedon keruu (otoksen riittävyys testien voimakkuuden ja yleistettävyyden kannalta) Mallin edellytykset Lineaarisuus Homoskedastisuus Jäännöstermien riippumattomuus Ei multikollineaarisuutta Normaalisuus

Multiple regression:vaiheet Muuttujamuunnokset Edellytysten toteuttamiseksi Dummyjen laatiminen Polynomit, jos epälineaarisia suhteita Interaktiot, jos moderoivia muuttujia Mallin spesifiointi ja estimointi Itse Ohjelmisto (forward, backward, stepwise) Merkitsevyyden arviointi Selityskerroin F-testi Regressiokertoimien t-testit

Multiple regression:vaiheet Diagnostiikka: poikkeavat ja paljon vaikuttavat havainnot Outlier, leverage Dffit ja dfbeta Mallin tulkinta regressiokertoimet Beta-kertoimet Osa- ja osittaiskorrelaatiot Validointi Split-sample

Muuttujat ja aineisto

Vaihe 1&2: Muuttujien valinta ja havaintojen riittävyys Jatkuva selitettävä Pääasiassa jatkuvia selittäjiä Kategoriset selittäjät dummy-muunnoksella mahdollisia Tarkista tunnuslukujen tai histogrammin avulla ettei muuttujissa ole pahoja outliereita Piirrä sirontakuviot: kukin selittäjä erikseen selitettävän kanssa Ota korrelaatiomatriisi kaikista muuttujista, selitettävän tulisi korreloida selittäjien kanssa merkitsevästi, mutta selittäjien keskinäiset korrelaatiot eivät saisi olla liian voimakkaita (miel. <.70) Havaintoja tulisi olla 5-10 kertaa niin paljon kuin selittäviä muuttujia, jotta mallista ei tule ylisovitettua (overfitting) ja huonosti yleistettävää Ylisovitetussa mallissa on suuri R square mutta suuret estimaattien keskivirheet

Vaihe 2: Testin voimakkuus Statistical power: otoksen koko vaikuttaa tilastolliseen merkitsevyyteen ja kykyyn hylätä vääriä oletushypoteeseja (tyyppi II) Suositus overfitting välttämiseksi: N vähintään 5 kertaa selittäjien määrä, miel. 15-20, stepwise 50 kertaa 5% riskitasolla merkitsevä R2 vähintään, jos testin voimakkuus on .80 N 2 selittäjää 5 selittäjää 10 selittäjää 20 selittäjää 20 .39 .48 .64 na 50 .19 .23 .29 .42 100 .10 .12 .15 .21 250 .04 .05 .06 .08 500 .03 1000 .01 .02

Taustaoletukset

Vaihe 3: Yleisiä edellytyksiä X ja Y yhteyden oikea spesifiointi, lineaarisuus Oikeiden X-muuttujien valinta X-muuttujien täydellinen reliabiliteetti (regressio- ja selityskertoimet todellista alhaisempia jos mittausvirhettä on) Virhetermin odotusarvo on nolla

Vaihe 3: Yleisiä edellytyksiä Homoskedastisuus (virhetermin vakiovarianssi) Havaintojen riippumattomuus Virhetermin (auto-)korreloimattomuus Selittäjät eivät saa olla satunnaisia eikä multikollineaarisia l. täydellisiä lineaarikombinaatioita toisistaan

Vaihe 3: Yleisiä edellytyksiä Usein oletetaan lisäksi, että y ja jäännöstermi ovat normaalijakautuneita Edellytykset arvioidaan etukäteen yksittäisten muuttujien jakaumia tutkimalla sekä estimoinnin jälkeen residuaaleja ja eräitä tunnuslukuja tarkastelemalla Jos edellytykset eivät ole voimassa, niin estimaatit voivat olla harhaisia (biased) tai keskivirheet vääriä Jos estimaatti ei ole harhainen niin malli ok ennustekäytössä Hypoteesien testaaminen ei onnistu jos keskivirheet vääriä

Vaihe 3: Residuaalitarkastelut Perusedellytysten voimassaolon tarkastamiseksi koko mallin osalta, ei vain yksittäisten muuttujien Lineaarisuus sirontakuviosta Vakiovarianssi (heteroskedastisuus) sirontakuviosta Riippumattomuus selitettävästä, selittäjistä ja edellisistä residuaaleista sirontakuvioista Normaalijakautuneisuus histogrammista Suurilla y-arvoilla saadaan suuria residuaaleja – studentized yleensä parempi Graafiset tarkastelut, ks. Kuvio Hair s.174

Vaihe 3: Normaalisuus Jos residuaalien jakauma poikkeaa normaalijakaumasta, niin F- ja t-testit eivät toimi pienillä otoksilla Isoilla otoksilla ei yleensä ongelma, ellei johdu väärästä mallin spesifioinnista Toteaminen graafisesti histogrammi Normal probability plot tai Q-Q plot (ks. Kuvio) Toteaminen tunnusluvuilla Jarque-Bera testi, Kolmogorov-Smirnov yms.

Vaihe 3: Homoskedastisuus Residuaalien varianssi on sama kaikilla selittäjämuuttujien tasoilla Heteroskedastisuus vaikuttaa vain keskivirheisiin, eikä ylensä niihinkään voimakkaasti ellei vaihtelu ole hyvin suurta (10 x) Todetaan sirontakuviolla jos selittäjä on jatkuva, ja laatikkokuviolla jos se on diskreetti Tilastollisesti Whiten testi tai Levenen testi (H0:homoskedastisuus) Jos paha ongelma, niin WLS-estimointi voi olla parempi isoilla otoksilla

Vaihe 3: Lineaarisuus Todetaan muuttujien sirontakuviolla (Y-kukin X erikseen) tai tehokkaammin residuaalien sirontakuvioilla (residuaali- kukin X erikseen, residuaali – ennustettu Y) Poikkeamat voidaan korjata muuttujamuunnoksilla tai erikseen mallintamalla esim. NLR Huom! Muunnosten käyttö vaikuttaa kerrointen tulkintaan

Vaihe 3: Virhetermin korreloimattomuus Virhetermin korrelaatio (autokorrelaatio) johtuu mallin epätäydellisyydestä Aikasarja-aineistoissa ja paneeliaineistoissa voi esiintyä, poikkileikkausaineistoissa yleensä ei ongelma, koska havainnot ovat satunnaisessa järjestyksessä ja toisistaan riippumattomia Todetaan graafisesti tai Durbin-Watson-testillä Vaikuttaa vain keskivirheisiin Ajallinen riippuvuus voidaan korjata muunnoksella

Vaihe 3: Multikollineaarisuus Selittäjien voimakas keskinäinen korrelaatio Hyvin yleistä, luonnostaan tai jos käytetään dummyja, polynomitermeja tai interaktiotermejä Vaikutukset: Vaikea eritellä yksittäisten selittäjien vaikutus, kun suuri osa vaihtelusta on yhteistä Ei vaikuta korreloimattomien selittäjien tulkintaan Selitysasteen parantaminen uusilla muuttujilla hankaloituu Estimointi heikkenee (singularity), voi tuottaa vääriä etumerkkejä Havaitseminen: Selittäjien korrelaatiomatriisi (>.90 paha) Toleranssi (osuus selittäjän vaihtelusta, jota muut selittäjät eivät kata, <.10 paha) VIF (toleranssin käänteisluku, >10 paha) Condition index, sqrt (suurin ominaisarvo/pienin ominaisarvo) > 30 paha

Vaihe 3: Multikollineaarisuus Korjaaminen: Jätä joku multikollineaarisuutta aiheuttava muuttuja pois, korvaa mahdollisesti uudella Jos mallia käytetään vain ennustamiseen eikä kerrointen tulkintaan, niin haitta ei ole suuri Tarkista jokaisen yksittäisen selittäjän korrelaatio selitettävän kanssa ja vertaa etumerkkejä regressiokerrointen etumerkkeihin Käytä selittäjänä summamuuttujia tai pääkomponentteja (faktoreita) Keskitä muuttujat ennen polynomitermien tai interaktioiden laskemista Erityiset estimointimenetelmät (Bayesian, ridge regression) Ortogonalisointi, käytä residuaalia selittäjänä

Muuttujamuunnokset

Vaihe 4: Muunnokset Jos perusedellytykset eivät ole voimassa tai mallin parantamiseksi Residuaalien normaalisuus ja homoskedastisuus: Liian tasainen jakauma – käänteisluku Vino jakauma – neliöjuuri (negatiiviselle), logaritmi (positiiviselle) tai käänteisluku Lineaarisuus: Neliöinti, logaritmi, käänteisluku tai neliöjuuri (ks. Kuvio) Jos epäilet että muuttujan vinous haittaa, kokeile korvata muuttujan arvot järjestysluvuilla ja estimoi malli uudelleen

Vaihe 4: Muunnokset: ohjeita Hyötyä yleensä jos keskiarvo/hajonta < 4 Tee muunnos sille muuttujalle, jolla keskiarvo/hajonta on pienempi Tee muunnos yleensä selittävälle muuttujalle Heteroskedastisuuden korjaamiseksi Y:lle Muunnokset vaikuttavat tulkintaan, esim. Residuaaleihin Jos homoskedastinen niin älä muunna Y:tä Potenssiinkorotukset auttavat yleensä vain jos vaihteluväli on iso (max=10*min)

Vaihe 4: Muunnokset: ohjeita Y2 tai neliöjuuri X tai log X X2 tai neliöjuuri Y tai log Y neliöjuuri tai log joko X:lle tai Y:lle

Vaihe 4: Log-mallien tulkinnasta Lin-lin y=b1+b2x b2 on kulmakerroin, 1 yksikön lisäys x:ssä aiheuttaa b2 yksikön muutoksen y:ssä Log-log ln(y)=b1+b2ln(x) b2 on jousto, 1% lisäys x:ssä aiheuttaa b2% muutoksen y:ssä Log-lin ln(y)=b1+b2x 1 yksikön lisäys x:ssä aiheuttaa 100*b2% muutoksen y:ssä Lin-log y=b1+b2ln(x) 1% lisäys x:ssä aiheuttaa b2/100 yksikön muutoksen y:ssä

Vaihe 4: Muunnokset: dummy-muuttujat Ainut tapa saada nominaaliasteikollisia muuttujia mukaan regressioanalyysiin selittäjäksi Dummy tai indikaattorimuuttuja on dikotominen muuttuja, saa arvon 0 tai 1 Jos muuttujassa on k luokkaa, niin dummyja tarvitaan k-1 kappaletta Dummyn kertoimet kuvaavat eroa siihen ryhmään, jossa dummyt saavat arvon 0 Esim. Selitetään painoa pituudella ja tulotasolla B Vakio -120.0 Pituus cm 1.2** Alle 15 (D1) -7.5** 15-25 (D2) 4.1 tulotaso dummy1 dummy2 alle 15 1 15-25 yli 25 Pienituloinen on keskimäärin 7.5 kg kevyempi kuin samanpituinen suurituloinen, ero luokkien välillä on merkitsevä Keskituloinen on keskimäärin 4.1 kg painavampi kuin samanpituinen suurituloinen, mutta ero ei ole merkitsevä Keskituloinen on keskimäärin 11.6 kg painavampi kuin samanpituinen pienituloinen, mutta emme tiedä onko ero merkitsevä

Vaihe 4: Muunnokset: dummy-muuttujat Tulkinta standardoimattomista regressiokertoimista! Ryhmillä ”omat vakiotermit” Esim. Regressioanalyysi, jossa dummy-muuttujana sukupuoli (nainen=0, mies=1) Estimoitu regressioyhtälö Palkka = 1000 + 120*työkok + 800*sukupuoli Nainen, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 0 = 2200 Mies, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 800 = 3000

Vaihe 4: Muunnokset: Epälineaariset yhteydet Polynomitermit mukaan, yleensä korkeintaan kolmannen asteen Toisen asteen kertoimet: Positiivinen – ylöspäin aukeava paraabeli Negatiivinen – alaspäin aukeava Kaikki alemman asteet termit oltava mukana mallissa! Interaktiot x1x2 moderaattorivaikutusten toteamiseksi Aiheuttaa multikollineaarisuutta, jos ei keskitetä (muunnos: X- X:n keskiarvo) Termien merkitsevyyden arviointi selityskertoimen nousun merkitsevyyden avulla (F-testi)

Mallin estimointi ja merkitsevyys

Vaihe 5: Estimointi Kun määrittelet muuttujat tehtävärooleihin (yksi dependent ja monta explanatory), niin SAS ottaa ne kaikki mukaan malliin Oletusarvoisesti pienimmän neliösumman menetelmä (OLS) Jos haluat antaa SASin valita parhaita selittäjiä joukosta antamiasi mahdollisia muuttujia, niin stepwise-estimointi on mahdollista

Vaihe 5: Stepwise- estimointi Etenee vaiheittain automaattisesti Selittäjänä on vain se muuttuja joka korreloi eniten selitettävän kanssa Osittaiskorrelaatioiden avulla etsitään seuraava selittäjä (jos merkitsevä) Kahden selittäjän mallista lasketaan onko ensimmäinen vielä merkitsevä Jatketaan kunnes ei enää löydy merkitseviä uusia selittäjiä Multikollineaariset selittäjät eivät pääse malliin, tulkinnassa muistettava tämä Vain ennustekäyttöön, isoilla otoksilla (kun n/k > 40) ja validoitava aina eri otoksella

Vaihe 6: Mallin merkitsevyys Yleistettävyyden takia testattava selityskertoimen ja regressiokerrointen merkitsevyys F-testi selityskertoimen merkitsevyydelle (H0: R2=0) Adjusted R2 ottaa huomioon havaintojen määrä/ selittäjien määrä- suhteen

Vaihe 6: Mallin merkitsevyys T-testi regressiokertoimen merkitsevyydelle (H0: b=0) Vakiotermin merkitsevyyden testi ei tarpeen, paitsi jos on sellaisia havaintoja, joilla kaikki selittäjät saavat arvon nolla F-testi voi olla merkitsevä vaikka mikään t-testi ei ole, jos selittäjät multikollineaarisia

Havaintojen diagnostiikka

Vaihe 7: Vaikuttavat yksittäiset havainnot Outlier, discrepancy Havainto, jolla on suuri residuaali Leverage point Erilainen selittäjän arvo, vaikuttaa sen selittäjän kertoimen estimointiin Influential Vaikuttaa paljon tuloksiin, voi olla outlier tai leverage Ks. Kuvio Hair s.185

Vaihe 7: Vaikuttavat yksittäiset havainnot Tieto on virheellinen – korjaa virhe tai poista havainto Oikea tieto, voidaan selittää poikkeuksellisen tilanteen avulla – poista ellei tilannemuuttuja ole mukana mallissa Ei selitystä – ei syitä poistaa eikä säilyttää, jos poistetaan niin raportoitava myös Tavallinen yksittäisten muuttujien osalta, mutta niiden yhdistelmä poikkeuksellinen – säilytä havainto mutta muuta mallia

Vaihe 7: diagnostiikkaa Distances (ks. Hair, s.236): Cook – kuinka paljon residuaalit ja regressiokertoimet muuttuisivat jos havainto jätettäisiin pois, po. < 4 / (n-k-1) leverage – kuinka poikkeavia arvoja havainnolla on selittävissä muuttujissa, vaihteluväli 0 … 1 - 1 / n, po. < 2* (k+1) / n Prediction intervals: luottamusvälit y:n keskiarvolle tai yksittäiselle y:n arvolle Influence statistics: DfBeta – paljonko regressiokerroin muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2 / sqrt (n) DfFit – paljonko ennustettu y muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2*sqrt ((k+1) / (n-k-1))

Estimaattien tulkinta

Vaihe 8: Mallin tulkinta Regressiokertoimista voi laskea ennusteen y:lle Voi arvioida kuinka suuren muutoksen y:ssä selittäjän muutos aiheuttaa (laske y:n osittaisderivaatta selittäjän suhteen) Selittäjien suhteelliset merkitykset beta-kertoimista, standardoitu regressiokerroin (jos ei ole liikaa multikollineaarisuutta)= b*sx/sy Osakorrelaatio (part / semipartial correlation) ja osittaiskorrelaatio (partial correlation)

Vaihe 8: Mallin tulkinta Y Selityskerroin = (a+b+c)/(a+b+c+e) Korrelaatiokerroin2 =r2YX1 = (a+c)/(a+b+c+e) Osakorrelaatiokerroin2=sr2YX1= a/(a+b+c+e) Osittaiskorrelaatiokerroin2=pr2YX1= a/(a+e) e a b c X1 X2

Vaihe 9: Validointi Uusi otos (tai estimation + holdout) Käytetään samaa mallia ja tutkitaan ennustetarkkuutta Estimoidaan erikseen ja verrataan mallien samanlaisuutta (adjusted R2, kertoimet) Chow-testi Bootstrapping: yksi havainto kerrallaan pois Ennustaminen: Laske myös luottamusvälit, ovatko olosuhteet samat kuin mallia estimoitaessa, käytä vain samanlaisilla selittäjien vaihteluväleillä

SAS ohjelmisto

Esimerkkimalli Yrityskyselyaineisto, jossa on noin 190 havaintoa Selitettävä muuttuja yrityksen kasvuhalukkuus (Growth orientation), joka on mitattu usean väittämän keskiarvona ja vaihtelee välillä 1-5 Mahdollisia selittäjiä ovat yrityksen liikevaihto (k€) henkilöstömäärä (kpl) ikä (v) elinkaaren vaihe (1=alkuvaihe, 2=kasvuvaihe, 3=vakiintunut, 4=loppumassa)

Jatkuvien muuttujien tarkastelu Variable Label Mean Std Dev Minimum Maximum N growthorient yritika hlölkm liikeva ikä vuonna 2008 henkilökunnan lkm liikevaihto 3.5259 17.9843 17.1062 2740.39 0.8731 11.9814 19.8629 2049.83 1.00 2.00 1.00 0 5.00 105.00 159.00 10803.40 193 192 160 193 Selittäjille ln-muunnos jakauman vinouden korjaamiseksi Footer

Kategorinen selittäjä Elinkaari Frequency Percent Cumulative Frequency Cumulative Percent 1 2 1.06 34 18.09 36 19.15 3 143 76.06 179 95.21 4 9 4.79 188 100.00 Uudelleenkoodataan dummy-muuttujaksi ”kasvuvaihe” siten, että jos elinkaari=2 niin kasvuvaihe=1 ja muutoin kasvuvaihe=0 Footer

Alustava tarkastelu, sirontakuvio Footer

Alustava tarkastelu, korrelaatio Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations growthorient yritika hlölkm liikeva 1.00000 193 -0.0781 0.2816 192 0.14970 0.0588 160 0.14346 0.0465 193 Yritika -0.07810 0.2816 192 1.00000 192 -0.0433 0.5873 159 0.01554 0.8306 192 Hlölkm 1.00000 160 0.50317 <.0001 160 Liikeva Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations growthorient ln_ika ln_hlo ln_lv growthorien t 1.00000 185 -0.04624 0.5331 184 0.22055 0.0062 153 0.16173 0.0278 185 1.00000 184 -0.06073 0.4573 152 0.00225 0.9758 184 1.00000 153 0.49364 <.0001 153 Selittäjien keskinäiset korrelaatiot pieniä, paitsi liikevaihto ja henkilöstömäärä Kasvuorientaatio korreloi voimakkaammin henkilöstömäärän kanssa muunnoksen jälkeen Ikä ei korreloi kasvuorientaation kanssa Footer

SAS: analyze – regression – linear regression Footer

Tulostettavat tunnusluvut Multikollineaarisuus ja Whiten testi Footer

Tulostettavat kuvaajat Footer

Mallin sopivuus ja Whiten testi Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 3.76165 1.25388 1.87 0.1366 Error 148 99.05926 0.66932 Corrected Total 151 102.82091 F-testin H0 jää voimaan -> malli ei ole tilastollisesti merkitsevä, selitysaste ei poikkea nollasta Root MSE 0.81812 R-Square 0.0366 Dependent Mean 3.55482 Adj R-Sq 0.0171 Coeff Var 23.01434 Mallin avulla voidaan selittää vain 3,66% kasvuorientaation vaihtelusta Test of First and Second Moment Specification DF Chi-Square Pr > ChiSq 9 11.53 0.2409 Whiten testi H0 jää voimaan -> malli on homoskedastinen, taustaedellytys OK Footer

Parametriestimaatit Taustaedellytys: ei multikollineaarisuutta, OK Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Intercept 1 3.58202 0.15359 23.32 <.0001 . yritika -0.00877 0.00575 -1.52 0.1296 -0.12317 0.01666 Hlölkm 0.00465 0.00381 1.22 0.2238 0.11320 0.01834 0.01865 Liikeva 0.0000178 0.0000360 0.49 0.6224 0.04566 0.00158 0.00164 Parameter Estimates Variable DF Squared Semi-partial Corr Type II Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 3.27850 3.88553 yritika 0.01512 0.01545 0.99669 1.00332 -0.02014 0.00260 hlölkm 0.00972 0.00998 0.75809 1.31910 -0.00287 0.01218 liikeva 0.00158 0.00164 0.76009 1.31564 -0.0000535 0.00008908 Footer Taustaedellytys: ei multikollineaarisuutta, OK

Residuaalikuvaajat Residuaalin normaalijakautuneisuus, taustaedellytys OK Residuaalin vakiovarianssi eli homoskedastisuus, taustaedellytys OK Footer

Residuaalikuvaajat Residuaalien tulee olla riippumattomia selittäjien arvoista, lineaarisuus -> taustaedellytys OK Footer

Havaintojen vaikuttavuus Cook’s D ja DFFIT -> havainto 36 on voimakkaasti vaikuttava DFBETAS -> havainto 36 vaikuttaa erityisesti vakiotermin ja iän kertoimen arvoon Footer

Selittäjät nyt ln-muunnettuja Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 5.14600 1.71533 2.60 0.0544 Error 148 97.67490 0.65997 Corrected Total 151 102.82091 Root MSE 0.81238 R-Square 0.0500 Dependent Mean 3.55482 Adj R-Sq 0.0308 Coeff Var 22.85296 Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Squared Semi-partial Corr Type II Intercept 1 3.28064 0.89897 3.65 0.0004 . ln_ika -0.07264 0.09776 -0.74 0.4586 -0.05969 0.00524 0.00354 ln_hlo 0.17553 0.07726 2.27 0.0245 0.20941 0.04479 0.04502 0.03313 ln_lv 0.00700 0.12130 0.06 0.9540 0.00531 0.00002139 0.00002252 Parameter Estimates Variable DF Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 1.50417 5.05712 ln_ika 0.00372 0.99460 1.00543 -0.26581 0.12054 ln_hlo 0.03370 0.75558 1.32349 0.02286 0.32820 ln_lv 0.00002252 0.75835 1.31866 -0.23270 0.24670 Footer

Hav 36 poistettu Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 2.97192 0.99064 1.56 0.2013 Error 147 93.27863 0.63455 Corrected Total 150 96.25055 Root MSE 0.79659 R-Square 0.0309 Dependent Mean 3.57174 Adj R-Sq 0.0111 Coeff Var 22.30243 Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Squared Semi-partial Corr Type II Intercept 1 3.14314 0.88304 3.56 0.0005 . ln_ika -0.01361 0.09844 -0.14 0.8902 -0.01124 0.00018189 0.00012610 ln_hlo 0.13915 0.07701 1.81 0.0728 0.16823 0.03056 0.02153 ln_lv 0.01723 0.11900 0.14 0.8851 0.01348 0.00013812 0.00014251 Parameter Estimates Variable DF Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 1.39806 4.88823 ln_ika 0.00013010 0.99869 1.00131 -0.20816 0.18093 ln_hlo 0.02173 0.76054 1.31485 -0.01304 0.29133 ln_lv 0.00014251 0.76037 1.31515 -0.21795 0.25240 Footer

Yhteenveto malleista Malli Lineaarinen Logaritminen Log, hav. 36 pois B s.e. t Vakio 3.582 0.154 23.32*** 3.281 0.899 3.65*** 3.143 0.883 3.56*** Ikä -0.009 0.006 -1.52 -0.073 0.098 -0.74 -0.014 -0.14 Henkilöstö 0.005 0.004 1.22 0.176 0.077 2.27** 0.139 1.81* Liikevaihto 0.000 0.49 0.007 0.121 0.06 0.017 0.119 0.14 Sopivuus R2 Adj. R2 F (df) F .037 .017 1.87 (3;148) .050 .031 2.60* .011 1.56 (3:147) Footer

Kasvuvaihe- dummy selittäjäksi Elinkaari Mean of growthorient Std. Dev. of growthorient . 3.57735 0.80268 2 4.08824 0.72618 3 3.46310 0.76678 4 3.38095 0.98936 Footer

Tulokset Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 10.86489 3.62163 6.23 0.0005 Error 147 85.38567 0.58085 Corrected Total 150 96.25055 Root MSE 0.76214 R-Square 0.1129 Dependent Mean 3.57174 Adj R-Sq 0.0948 Coeff Var 21.3379 Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Squared Semi-partial Corr Type I Squared Partial Corr Type I Squared Semi-partial Corr Type II Intercept 1 2.96024 0.31432 9.42 <.0001 . kasvuvaihe 0.61621 0.16702 3.69 0.0003 0.29139 0.07504 0.08214 ln_ika 0.04744 0.09556 0.50 0.6203 0.03916 0.00114 0.00123 0.00149 ln_hlo 0.15876 0.06437 2.47 0.0148 0.19194 0.03670 0.03973 Parameter Estimates Variable DF Squared Partial Corr Type II Tolerance Variance Inflation 95% Confidence Limits Intercept 1 . 2.33908 3.58140 kasvuvaihe 0.08475 0.96740 1.03369 0.28613 0.94629 ln_ika 0.00167 0.97024 1.03067 -0.14140 0.23628 ln_hlo 0.03973 0.99622 1.00379 0.03154 0.28597 Footer

SAS- koodi PROC REG DATA=kirjasto.datatiedosto PLOTS(ONLY)=ALL ; Linear_Regression_Model: MODEL growthorient = kasvuvaihe ln_ika ln_hlo / SELECTION=NONE STB CLB PCORR1 PCORR2 SCORR1 SCORR2 ALPHA=0.05 TOL VIF SPEC RUN; Footer

Raportointi

Raportoitavat asiat Estimointimenetelmä (OLS, WLS, GLS,..) Selitettävä ja selittävät muuttujat Muuttujien lisääminen malliin: enter vai stepwise Taustaoletusten tarkistus (maininta + liite) Selityskerroin, (F-arvo, vapausasteet tai n), merkitsevyys (Standardoidut) regressiokertoimet, keskivirheet tai t-arvo, merkitsevyys Samaan taulukkoon voi ja kannattaa tiivistää usean regressiomallin tulokset, esim. jos käytetään samoja selittäjiä ja/tai selitettäviä eri malleissa, ks. Yhteenvetotaulukko kolmen esimerkkimallin tuloksista yllä Raportoi aina myös mallissa käyttämiesi muuttujien keskiarvot, keskihajonnat ja korrelaatiomatriisi (liitteeksi tai tekstiosaan aineiston kuvailu- kappaleeseen)