Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Luento 4: Regressioanalyysi

Samankaltaiset esitykset


Esitys aiheesta: "Luento 4: Regressioanalyysi"— Esityksen transkriptio:

1 Luento 4: Regressioanalyysi
Petri Nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto

2 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

3 1. General Linear Model (GLM)
X (IV) Y (DV) (3.2) Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva (3.3) Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen (3.4) Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva

4 (Nokelainen, 2008.)

5 riippuvuuksien voimakkuus
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksien voimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

6 1.1 Korrelaatio (3.2) DV IV 1

7 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

8 2. Regressioanalyysi (3.2) (3.3) (3.4) X (IV) Y (DV)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva (3.3) Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen (3.4) Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva

9 (Nokelainen, 2008.)

10 riippuvuuksien voimakkuus
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksien voimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

11 2. Regressioanalyysi (3.3) IV 1 IV 2 DV r IV 3 IV 4

12 2. Regressioanalyysi ”…regression analysis is a method of analyzing the variability of a dependent variable by resorting to information available on one or more independent variables.” (Pedhazur, 1982, 5)

13 2. Regressioanalyysi Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan välisen vaikutussuhteen voimakkuuden (-1, …, 1). Mahdollistaa lisäksi DV -muuttujan arvojen ennustamisen IV –muuttujan (tai muuttujien) arvojen perusteella.

14 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

15 2.1 Regressioanalyysin historia
Perustuu Galtonin (1885) havaintoihin: Pitkien isien pojista ei keskimäärin tullutkaan yhtä pitkiä kuin isistään, lyhyiden isien pojista tulikin keskimäärin pidempiä kuin isistään. Poikien keskipituus lähestyi keskipituutta. Sir Francis Galton

16 2.1 Regressioanalyysin historia
Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan että sen tulisi perustua vahvalle teoreettiselle pohjalle.

17 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

18 2.2 Regressioanalyysin lajit
Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi Monimuuttujaregressioanalyysi (Multivariate regression analysis) (ks. lisää esim. Nummenmaa et al., 1997, ; Kerlinger, 1986, ). Hierarkkinen regressioanalyysi Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

19 2.2 Regressioanalyysin lajit
Askeltava regressioanalyysi Stepwise multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) Kanoninen korrelaatio Canonical correlation (Kerlinger, 1986, ) Logistinen regressioanalyysi Logistic regression analysis Poistaa lineaarisen regressioanalyysin vaatimuksen selitettävän muuttujan jatkuvuudesta, ks. esimerkki dokumentista ”6.1 Logistinen regressio” (FSD) Multiway frequency analysis (Nummenmaa et al., 1997, )

20 A Standardi R B Hierarkkinen R C Askeltava R A B C IV1 IV2 IV3

21 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

22 2.3 Regressioanalyysin käyttötapoja
Selittävien (IV) muuttujien etsiminen Opiskelumenestyksen selittäminen motivaation ja oppimisstrategioiden avulla. Selittävien (IV) muuttujien selitysosuuden tutkiminen Kuinka suuri vaikutus varhaisessa vaiheessa tapahtuneella erityisluokalle siirrolla on erityisoppilaan koulumenestykseen. Selittävien (IV) muuttujien keskinäisen selitysosuuden vertailu eli mitkä muuttujat ovat toisia parempia tietyn Ilmiön selittäjinä. Selitettävän (DV) muuttujan ennustaminen.

23 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

24 2.4 Regressioanalyysin rajoituksia
Yleisiä rajoituksia Regressioanalyysin avulla löydetyt vaikutussuhteet eivät välttämättä ole kausaalisia. Kausaalisuuden määrittely on looginen ja koeasetelmallinen ongelma (Pearl, 2000). Analyysiin mukaan otettujen DV ja IV muuttujien valinnan tulee olla teoreettisesti, loogisesti tms. perusteltavissa.

25 2.4 Regressioanalyysin rajoituksia
Teknisiä rajoituksia Otoskoko (esim. viisi IV muuttujaa) Greenin (1991) mukaan N > 50+8m (useita IV muuttujia), esim. N = 50+8*5 = 90 N > m (yksi IV), esim. N = = 109 Stevensin (1996) mukaan N = 15m (kaikissa tapauksissa), esim. 15*5 = 75 IV muuttujien väliset suhteet Multikollineaarisuutta (korkeita r = +/- .9 korrelaatioita) ei saa esiintyä. Singulaarisuutta (muuttuja on toisen/toisten kombinaatio, esim. kolmen testin yksittäiset pistemäärät ja niiden summamuuttuja) ei saa esiintyä.

26 2.4 Regressioanalyysin rajoituksia
Teknisiä rajoituksia Poikkeavat arvot (outlier) tulisi poistaa, korvata uudella arvolla (rescore) tai muuntaa (transform). X Y –muuttujien kuvaajien tarkastelu! Regressioanalyysiohjelmissa (SAS, BMDP, SPSS) poikkeavien arvojen vaikutusta tutkitaan seuraavilla mittaluvuilla: Leverage (l) arvioi poikkeavia arvoja IV muuttujien joukossa Korkeat arvot ovat “kaukana” toisista Discrepancy (d) arvioi sitä kuinka tapaus on linjassa muiden kanssa. Influency (l) = l * d.

27 2.4 Regressioanalyysin rajoituksia
Korkea l Matala d Kohtuullinen i Korkea l Korkea d Korkea i Matala l Korkea d Kohtuullinen i (Tabachnik & Fidell, 1996, 135.)

28 2.4 Regressioanalyysin rajoituksia
Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön virhetermi tai jäännöstermi, ) Normaalisuus Residuaalien (ennustevirheiden) tulisi olla normaalisti jakautuneita Lineaarisuus Residuaalien ja ennustettujen DV arvojen välillä tulisi olla lineaarinen suhde Homoskedastisuus DV muuttujien residuaalien varianssien tulisi olla yhtä suuria. Riippumattomuus Residuaalien tulisi olla toisistaan riippumattomia.

29 2.4 Regressioanalyysin rajoituksia
A) Normaalisuus ei toteudu B) Lineaarisuus ei toteudu C) Homoskedastisuus ei toteudu B C

30 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

31 2.5 Regressioanalyysin vaiheet
Muuttujien valinta (DV, IV) Paitsi jos käytetään “Enter” -menetelmää Analyysi Mallille tehtävät diagnostiset tarkastelut

32 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

33 riippuvuuksien voimakkuus
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksien voimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

34 3. Kahden muuttujan regressioanalyysi
Määritellään kahden, riippuvan (DV) ja riippumattoman (IV) muuttujan välinen yhtälö. Esim. ennustetaan akateemista tuottavuutta (DV) kognitiivisten oppimistuotosten, esim. GPA, avulla (IV). Jokaiselle yhtälössä olevalle riippumattomalle muuttujalle annetaan painokerroin (), jotka yhdessä muodostavat ns. Beta –vektorin (B). Selitettävän muuttujan arvo saadaan kun selittävät muuttujat lasketaan yhteen painokertoimilla painotettuna ja summaan lisätään vakio. Mallissa on aina mukana virhettä, jota kuvataan jäännöstermin, residuaalin, () avulla.

35 3. Kahden muuttujan regressioanalyysi
Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka kuvaa riippuvan (Y) ja riippumattoman (X) muuttujan välistä suhdetta: y = 0 + x +  y = riippuva muuttuja 0 = leikkauskohta (intercept, constant)  = regressioparametri (slope), kuvaa Y –muuttujan ennustettua arvon muutosta kun X –muuttujan arvo kasvaa yhden yksikön x = riippumaton muuttuja  = jäännöstermi

36 3. Kahden muuttujan regressioanalyysi
yi ei yi = 0 + xi +  yj, x

37 3. Kahden muuttujan regressioanalyysi
Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja selittävien (IV, X) muuttujien välistä korrelaatiota R. H0 = DV ja IV muuttujien välillä ei ole korrelaatiota (yksikin regressiokerroin saa arvon 0). Suurella otoskoolla nollahypoteesi tulee siis lähes varmasti hylätyksi.

38 3. Kahden muuttujan regressioanalyysi

39 3. Kahden muuttujan regressioanalyysi
R2 on mallin selitysaste Kuinka monta prosenttia malli (siis ennustemuuttuja eli IV) pystyy selittämään riippuvan muuttujan (DV) vaihtelusta. SPSS laskee kaksi selitysastetta, joista tieteellisissä raporteissa käytetään konservatiivisempaa (”Adjusted R2”). Selitysasteen (R2) perusteella voidaan tehdä päätelmiä efektikoosta:

40 3. Kahden muuttujan regressioanalyysi

41 3. Kahden muuttujan regressioanalyysi

42 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

43 riippuvuuksien voimakkuus
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksien voimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

44 4. Useamman muuttujan regressioanalyysi
Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan välisiä yhtälöitä. Esim. ennustetaan työssä koettua stressiä (DV) esimiehen johtamisominaisuuksien (IV1) ja ryhmän toimintakyvyn perusteella (IV2). Kaikki riippumattomat muuttujat analysoidaan (“Enter” –menetelmä), niitä ei valita tai aseteta järjestykseen.

45 4. Useamman muuttujan regressioanalyysi
Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa yhden riippuvan ja usean riippumattoman muuttujan välistä suhdetta: y =  1x1 + 2x nxn +  y = riippuva muuttuja 0 = vakio (constant) 1…n = regressioparametreja x1…n = riippumattomia muuttujia  = virhetermi

46 4. Useamman muuttujan regressioanalyysi
yi =  1ix1i + 2ix2i nixni +  y yi ei yj, x

47 4. Useamman muuttujan regressioanalyysi
Knowledge Value Performance Satisfaction (Warren, White, & Fuller, 1974.)

48 4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys Ammatillisten opintojen menestys Kontrolliuskomukset WorldSkills kilpailumenestys Näyttötilanteiden jännittäminen Ulkoinen tavoiteorientaatio Tekemällä oppiminen N=64

49 4. Useamman muuttujan regressioanalyysi
Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa Analyze – Regression - Linear Dependent: kilpailumenestys (alle 23-vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3 luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras). Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä .. 5 = täysin samaa mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety), ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen päästötodistuksen keskiarvo). Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, Durbin-Watson. Plots: Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot) 49

50 4. Useamman muuttujan regressioanalyysi
Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille asetetut vaatimukset normaaliuden ja lineaarisuuden osalta: Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.

51 4. Useamman muuttujan regressioanalyysi
Seuraavaksi tarkastellaan Model Summary –taulukon Durbin-Watson –sarakkeesta täyttävätkö residuaalit niille asetetut vaatimukset myös riippumattomuuden osalta: Durbin-Watson saa arvoja väliltä 0 – 4, arvon 2 osoittaessa korreloimattomia residuaaleja (D-W < 2 = positiivinen korrelaatio, D-W > 2 = negatiivinen korrelaatio). Hyväksyttävät arvot vaihtelevat 1.0 – 3.0 välillä (2.0 = optimi). Tässä aineistossa residuaalien voidaan todeta olevan normaaleja, lineaarisia ja riippumattomia, jolloin voidaan edetä varsinaisen regressioanalyysin tulosten tulkintaan. 51

52 4. Useamman muuttujan regressioanalyysi
Kuvaa mallin yleistettävyyttä populaatioon, ts. pitäisi olla lähellä R2 –arvoa. Jos malli olisi laskettu populaatiosta, eikä tästä 64 nuoren otoksesta, se selittäisi noin 11% vähemmän kilpailumenestyksestä ( = .111). Malli selittää tilastollisesti merkitsevästi kilpailumenestystä. 52

53 4. Useamman muuttujan regressioanalyysi
Multikollineaarisuus-tarkastelu suoritetaan vertaamalla Tolerance -sarakkeen arvoja lukuun .67 (1-R2=1-.33). Suuret korrelaatiot eivät ole ongelma, koska arvot vaihtelevat välillä eli ovat arvoa .67 suurempia. Huom. Tolerance = 1 / VIF. Luottamusväli joko osoittaa (tai sitten ei) otoksesta lasketun painokertoimen (B) kuvaavan populaation mielipidettä. Esim. B=.644 kuvaa ”tekemällä oppimisen” positiivista yhteyttä kilpailumenestykseen (p=.021), ja samaa viestiä tarjoaa luottamusvälikin (B:n arvo vaihtelee populaatiossa 95% todennäköisyydellä välillä ). Heikon selittäjän, esim. ”ulkoinen tavoiteorientaatio” (B=.242 , p=.368), osalta luottamusväli ilmaisee että populaatiossa on todennäköisesti myös henkilöitä joilla ulkoisen tavoiteorientaation vaikutus kilpailumenestykseen on negatiivinen (-.299). Standardoimattomat kertoimet kuvaavat IV –muuttujan (prediktori) yhden yksikön kasvun vaikutusta DV –muuttujassa. Esim. kun ammatillinen opintomenestys kasvaa yhdellä arvosanalla, kilpailumenestyksen odotetaan paranevan .66 sijoituksen verran. 53

54 4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys Ammatillisten opintojen menestys -.141(.139) R2=33% .644(.417) Kontrolliuskomukset WorldSkills kilpailumenestys .247(.166) Näyttötilanteiden jännittäminen -.426(-.362) Ulkoinen tavoiteorientaatio .242(.138) .644(.341) Tekemällä oppiminen

55 4. Useamman muuttujan regressioanalyysi
Ammattitaidon maailmanmestaruuskilpailuissa menestymistä selittäviä tekijöitä tarkasteltiin regressioanalyysilla kuuden ennustemuuttujan avulla. Parhaat ennustajat olivat aiempi ammattiopintomenestys (=.417, p=.001), tekemällä oppiminen (=.361, p=.021) ja näyttötilanteiden jännittäminen (=-.362, p=.018). Malli sopi aineistoon (p=.005) ja tuloksen efektikoko oli Cohenin (1988) mukaan suuri, =.331. 55

56 riippuvuuksien voimakkuus
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksien voimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

57 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

58 4.1 Hierarkkinen regressioanalyysi
Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) Rajoitukset ovat samat kuin perinteisessä regressioanalyysissa. Analyysin suorittamiseen tarvitaan yksi jatkuva DV ja kaksi tai useampia jatkuva tai ei-jatkuva IV muuttuja. Analyysin avulla voi selvittää kunkin IV muuttujan suhteellisen selitysosuuden DV muuttujan varianssista.

59 4.1 Hierarkkinen regressioanalyysi
Riippumattomat muuttujat sijoitetaan regressioyhtälöön tutkijan määrittämässä järjestyksessä. Yleensä sijoittelun taustalla on teoreettinen, kausaalinen tms. oletus. Tutkittaessa koettua stressiä (DV) sisäisten prosessien (IV) ja ulkoisten tapahtumien hallinnan (IV) toimiessa selittävinä muuttujina, on varmasti hyvä ottaa malliin mukaan työkokemus (IV) ja minäkäsitys (IV).

60 4.1 Hierarkkinen regressioanalyysi
Pääselittäjien ”voimaa” voi myös tutkia sijoittamalla yhtälöön ensin vähempiarvoisia selittäjiä (=kontrolloimalla niitä). Henkilön lukunopeutta (DV) voi tutkia intensiivikurssin sisällön (IV) ja keston (IV) kannalta sijoittamalla yksilölliset erot lukunopeudessa (IV) yhtälöön ensimmäiseksi.

61 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

62 4.2 Askeltava regressioanalyysi
Stepwise multiple regression, statistical regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) Menetelmää kutsutaan ”tilastolliseksi” regressioanalyysiksi, koska selittävien muuttujien valinta perustuu puhtaasti tilastollisiin kriteereihin (esim. korrelaation voimakkuus DV muuttujan kanssa). Muuttujien valinta tapahtuu yleisimmin kolmen menetelmän avulla: (1) forward selection, (2) backward selection, ja (3) stepwise selection.

63 4.2 Askeltava regressioanalyysi
Forward selection (lisäävä menettely) Tyhjään yhtälöön lisätään tilastollisen kriteerin täyttävä IV yksi kerrallaan. Kukin lisätty IV jää yhtälöön. Backward selection (poistava menettely) Kaikki IV muuttujat ovat alussa yhtälössä. Tilastollisen kriteerin ulkopuolelle jäävät IV:t poistetaan yhtälöstä yksi kerrallaan. Stepwise selection (askeltava menettely) Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä, ja siihen lisätään IV muuttujia yksi kerrallaan. Yhtälöstä voidaan myös poistaa IV muuttujia kun uusia, paremmin selittäviä tulee tilalle.

64 4.2 Askeltava regressioanalyysi
Perinteisessä regressioanalyysissa (A) voimakkaasti selitettävän muuttujan (DV) kanssa korreloiva selittävä muuttuja (IV1) voi jäädä statistin rooliin. A

65 4.2 Askeltava regressioanalyysi
Askeltavassa mallinnuksessa (C) selitettävät muuttujat saavat ”krediitit” riippuvan muuttujan selittämisestä korrelaation voimakkuuden perusteella. C

66 4.2 Askeltava regressioanalyysi
Ylisovitus (overfitting) on askeltavien menetelmien riski, erityisesti tehtäessä tulkintoja yhden näytteen perusteella. Ristiinvalidointi (cross validation) esim. toisen näytteen avulla (tai suuren datatiedoston puolitus) on suositeltavaa käytettäessä tilastollisia regressiomenetelmiä. Ajetaan sama regressioanalyysi kaksi kertaa eri aineistoilla, esim. jaetaan yksi riittävän suuri aineisto kahteen satunnaisesti muodostettuun aliotokseen.

67 Sisältö 1. General Linear Model (GLM) 2. Regressioanalyysi
1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

68 riippuvuuksien voimakkuus
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksien voimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

69 5. Kanoninen korrelaatio
Canonical correlation (Kerlinger, 1986, ) Yleismenetelmä, jonka erikoistapauksia ovat mm. regressioanalyysi, erotteluanalyysi ja MANOVA. Käytetään tutkimuskirjallisuudessa enemmän kuvailuun kuin hypoteesintestaukseen. ”Tulokset ovat usein matemaattisesti elegantteja, mutta vaikeasti tulkittavissa” (Tabachnik & Fidell, 2007, 570).

70 5. Kanoninen korrelaatio
Menetelmän avulla tutkitaan kahden muuttujaryhmän välisiä vaikutussuhteita. Toinen ryhmä voi koostua DV (esim. ympäristötietoisuus) ja toinen IV (esim. sukupuoli, koulutustaso, poliittinen kanta) muuttujista. Tutkijan kannalta muuttujien valinta ja erityisesti tulosten mielekäs tulkinta on haasteellista.

71 Lähteet Berk, R. A. (2004). Regression Analysis: A Constructive Critique. Thousand Oaks: Sage. Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, Galton, F. (1885). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, 15, Green, S. B. (1991). How many subjects does it take to do a regression analysis? Multivariate Behavioral Research, 26, Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.

72 Lähteet Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA: Wadsworth Publishing Company. Kerlinger, F. (1986). Foundations of Behavioral Research. Third Edition. New York: CBS College Publishing. Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky. Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi. Nummenmaa, T., Konttinen, R., Kuusinen, J., & Leskinen, E. (1997). Tutkimusaineiston analyysi. Porvoo: WSOY.

73 Lähteet Pierce, C. A., Block, R., & Aguinis, H. (2004). Cautionary note on reporting Eta-squared values from multifactor ANOVA designs. Educational and Psychological Measurement, 64(6), Pearl, J. (2000). Causality. New York: Cambridge University Press. Pedhazur, E. (1982). Multiple Regression Analysis in Behavioral Research. New York: Holt, Rinehart and Winston. Stevens, J. (1996). Applied Multivariate Statistics for the Social Sciences. Third edition. Mahwah, NJ: Lawrence Erlbaum. Tabachnick, B. G., & Fidell, L. S. (1996). Using Multivariate Statistics. Third Edition. New York: Harper Collins.

74 Lähteet Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth Edition. Boston: Pearson. Warren, R. D., White, J. K., & Fuller, W. A. (1974). An errors-in-variables analysis of managerial role performance. Journal of American Statistical Association, 69, Vehkalahti, K. (2007). Kyselytutkimuksen mittarit ja menetelmät.


Lataa ppt "Luento 4: Regressioanalyysi"

Samankaltaiset esitykset


Iklan oleh Google