Korrelaatio- ja regressioanalyysi Petri Kainulainen
Korrelaatio Yleistä korrelaatiosta Pearsonin korrelaatiokerroin Spearmanin järjestyskorrelaatiokerroin Kendallin järjestyskorrelaatiokerroin Korrelaatiokertoimen merkitsevyys
Korrelaatio Yleistä korrelaatiosta Muuttujien välisen lineaarisen (suora viiva) riippuvuuden määrää mitataan korrelaation avulla Korrelaation tunnuslukuna käytetään korrelaatiokerrointa, joka ilmoittaa riippuvuuden suunnan ja suuruuden Korrelaatiokertoimen ääripäät (-1 ja 1) kuvastavat täydellistä lineaarista riippuvuutta, nolla olematonta Positiivinen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on samansuuntainen (kun toisen muuttujan arvot kasvavat, niin tekevät toisenkin) Negatiivisen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on erisuuntainen (kun toisen muuttujan arvot kasvavat, niin toisen laskevat)
Korrelaatio
Korrelaatio Kun muuttujien arvot vaihtelevat täysin toisistaan riippumatta, korrelaatiokertoimen arvo on nolla Tämä ei päde päinvastoin – korrelaatiokerroin voi olla pieni, vaikka muuttujien välillä olisi täydellinen (epälineaarinen) lineaarinen
Korrelaatio Pearsonin korrelaatiokerroin Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin korrelaatiokerrointa Voidaan laskea kun muuttujat ovat vähintään välimatka-asteikollisia Korrelaatiokertoimen laskemista varten täytyy määritellä kovarianssi (kahden muuttujan yhteistä vaihtelua) Kovarianssi saadaan kaavasta
Korrelaatio Itse korrelaatiokerroin saadaan laskettua seuraavaa kaavaa käyttäen jossa sX on muuttujan X ja sY muuttujan Y keskihajonta. Jos muuttujista on saatavana summatietoa, saadaan korrelaatiokerroin laskettua myös seuraavalla tavalla
Korrelaatio Esim Haluttiin selvittää, onko ihmisen pituudella ja painolla mitään yhteyttä. Kuudelta henkilöltä suoritettujen mittausten tuloksena saatiin seuraavanlainen aineisto. Henkilö pituus paino pit.* pituus2 paino2 paino --------------------------------------------------------------------------------- 1 176 88 15488 30976 7744 2 167 60 10020 27889 3600 3 185 90 16650 34225 8100 4 177 87 15399 31329 7569 5 180 79 14220 32400 6241 6 191 102 19482 36481 10404 yht. 1076 506 91259 193300 43658
Korrelaatio Esim. jatkuu Korrelaatiokerroin lasketaan seuraavasti Korrelaatiokertoimen arvoksi saatiin 0.9, joka on korkea. Näin voidaan vetää sellainen johtopäätös, että painolla ja pituudella on lineaarinen riippuvuussuhde.
Korrelaatio SPSS-ohjelmalla
Korrelaatio Spearmanin järjestyskorrelaatiokerroin Pearsonin korrelaatiokerroin vaatii vähintään välimatka-asteikollisia muuttujia, mutta Spearmanin järjestyskorrelaatiokertoimelle riittää järjestysasteikolliset muuttujat Korrelaatiokertoimen laskentaa varten arvot tulee laittaa suuruusjärjestykseen muuttujan sisällä ja antaa arvoille järjestysnumerot Spearmanin järjestyskorrelaatiokerroin saadaan kaavasta jossa di on havainnon i muuttujien järjestyslukujen erotus
Korrelaatio Esimerkki Haluttiin selvittää, onko opiskelijoiden matematiikan ja fysiikan arvosanoilla (0-5) yhteyttä. Tätä varten kuuden opiskelijan opintojaksojen arvosanoista muodostettiin seuraavanlainen taulukko Opis- matem. fysiikan sij/ sij/ di di2 kelija arvosana arvosana matem. fys. ------------------------------------------------------------------------------------------- 1 1 2 1 3 -2 4 2 5 4 6 5.5 0.5 0.25 3 4 4 5 5.5 -0.5 0.25 4 3 3 3.5 4 -0.5 0.25 5 3 1 3.5 2 -1.5 2.25 6 2 0 2 1 1 1 yht. 8
Korrelaatio Esimerkki Spearmanin järjestyskorrelaatiokerroin saadaan seuraavasti Korrelaatiokertoimen 0.77 perusteella voidaan todeta, että matematiikan ja fysiikan numeroilla on yhteyttä.
Korrelaatio SPSS-ohjelmalla
Korrelaatio Kendallin järjestyskorrelaatiokerroin Kendallin korrelaatiokertoimen käyttö edellyttää, että muuttujat ovat vähintään järjestysasteikollisia Spearmanin ja Kendallin järjestyskorrelaatiokertoimet poikkeavat toisistaan, eivätkä ole vertailukelpoisia Kendallin korrelaatiokerroin on hieman vaikeampi laskea kuin Spearmanin vastaava Kendallin korrelaatiokertoimen otosjakauma lähestyy nopeasti normaalijakaumaa otoskoon kasvaessa – testaamisen yhteydessä normaalijakauman approksimaatio on turvallista On kuitenkin aika lailla makuasia, kumpaa (Kendall va Spearman) järjestyskorrelaatiokerrointa käyttää
Korrelaatio Korrelaatiokertoimen merkitsevyys Korrelaatiokertoimen merkitsevyys riippuu kertoimen itseisarvon suuruuden lisäksi otoskoosta Karkea sääntö merkitsevyydelle on seuraavanlainen |r| > 0.7 lineaarinen riippuvuus on voimakas 0.3 ≤ |r| ≤ 0.7 lineaarinen riippuvuus on kohtalainen |r| < 0.3 lineaarinen riippuvuus on heikko Korrelaatiokertoimen merkitsevyyttä voi myös testata tilastollisen testin avulla (H0: riippuvuutta ei ole) Tilasto-ohjelmistot tuottavat testiin liittyvät p-arvot
Regressioanalyysi Yleistä regressioanalyysistä Regressioanalyysin oletukset Pienimmän neliösumman menetelmä Ennustaminen Kerrointen merkitsevyyden testaamien
Regressioanalyysi Yleistä regressioanalyysistä Regressioanalyysin avulla pyritään ilmaisemaan yhden tai useamman selittävän (tai riippumattoman) muuttujan vaikutus selitettävään (tai riippuvaan) muuttujaan Regressioanalyysin avulla voidaan rakentaa matemaattinen malli selittävien ja selitettävän muuttujan välille – mallin perusteella voidaan todeta riippuvuuden suunta riippuvuuden määrä (ja merkitsevyys) ennustaa selitettävän muuttujan arvoja, jos sellittävien muuttujien arvot ovat tiedossa Kyse on lineaarisesta riippuvuussuhteesta
Regressioanalyysi Esimerkkejä riippuvuussuhteista ihmisen paino on jossain määrin selitettävissä pituudella yrityksen myynti on riippuvainen markkinoinnista verenpaine muuttuu yleensä iän myötä Muuttujien välisiä riippuvuuksia tarkastellessa kannattaa tutkia myös muuttujien välistä korrelaatiota riippuvuutta graafisesti esimerkiksi hajontakuvion avulla
Regressioanalyysi Mikä olisi tämän aineiston perusteella painon ja pituuden välinen yhteys – voidaanko painoa selittää pituuden avulla?
Regressioanalyysi Regressioanalyysin oletukset Muuttujien on oltava vähintään välimatka-asteikollisia Oletukset liittyvät pääosin mallin perusteella laskettujen jäännösten (mallin perusteella laskettu Y – havaittu Y) tarkasteluun, joka voidaan tehdä jälkikäteen jäännösten tulee noudattaa normaalijakaumaa odotusarvolla 0 ja keskihajonnalla σ2 (helppo tarkastella) jäännösten tulee olla toisistaan riippumattomia (hankala tarkastella) jäännösten varianssien tulee olla yhtä suuria (kohtuullisen helppo tarkastella)
Regressioanalyysi Pienimmän neliösumman menetelmä Kahden muuttujan (selitettävä ja selittävä) välinen regressiosuora voidaan kirjoittaa matemaattisin termein muotoon missä y = selitettävä muuttuja = regressiosuoran vakio (estimoitava) = regressiosuoran kulmakerroin (estimoitava) x = selittävä muuttuja
Regressioanalyysi Pienimmän neliösumman perusajatuksena on piirtää havaintoaineiston joukkoon sellainen käyrä, joka poikkeaisi mahdollisimman vähän havainnoista selitettävän muuttujan (y) suhteen.
Regressioanalyysi Regressiokertoimet (a ja b) saadaan estimoitua seuraavien kaavojen avulla
Regressioanalyysi Esim Kiinnostuksen kohteena on se, kuinka miten ihmisen pituudella voidaan ennustaa painoa. Tätä varten kerättiin kahdeltakymmeneltä henkilöltä pituus- ja painotiedot. Aineisto näyttää seuraavanlaiselta. Henkilö Pituus Paino Henkilö Pituus Paino ---------------------------------------- ---------------------------------------- 1 167 67 11 173 73 2 176 67 12 164 75 3 173 88 13 190 76 4 172 70 14 167 64 5 157 57 15 172 64 6 158 72 16 158 55 7 173 71 17 161 49 8 192 89 18 186 98 9 174 81 19 183 97 10 173 63 20 182 70
Regressioanalyysi Esim. Jatk. Aineistosta saadaan helposti laskettua, että pituuksien summa on 3451 ja painojen 1446. Samoin saadaan laskettua, että pituuden (xi) ja painon (yi) tulojen (xiyi) kokonaissumma on 251297. Vastaavasti pituuden neliöiden summa (xi2) on 597481. Regressiokertoimet saadaan laskettua seuraavasti.
Regressioanalyysi Näin ollen painon ja pituuden välinen regressiosuora on muotoa: y = -81.3 + 0.89 * x eli sanallisesti paino = -81.3 + 0.89 * pituus Tämän mallin avulla voidaan myös ennustaa paino, kun pituus on tiedossa.
Regressioanalyysi SPSS-ohjelmalla
Regressioanalyysi Ennustaminen Ennustamisella tarkoitetaan sitä, että selittävien muuttujien (x) avulla lasketaan selitettävän muuttujan (y) arvoja Yleensä ennustaminen on mielekästä vain sillä alueella, jolla regressiokerrointen laskentaan käytettyjen x-muuttujien arvot ovat interpolointi Periaatteessa on myös mahdollista ennustaa suurempien ja pienempien x-muuttujien arvoilla ekstrapolointi
Regressioanalyysi Sato Lannoitteen määrä Oletetaan, että sadon ja lannoitteen määrän välinen regressiosuora on laskettu harmaan viivan lannoitteiden määrän arvoilla. Tällöin ekstrapolointi harmaan alueen ulkopuolelle antaa vääriä ennusteita.
Regressioanalyysi Kerrointen merkitsevyyden testaaminen Regressiokerrointen merkitsevyyttä voidaan testata Hypoteesipari on muotoa H0: Regressiokerroin ei ole merkitsevä (= 0) H1: Regressiokerroin on merkitsevä (≠ 0) Testisuure noudattaa t-jakaumaa Tulkinta: jos p-arvo pienempi kuin valittu merkitsevyystaso (5%), on kyseinen muuttuja ”hyvä” selittäjä