Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Korrelaatio- ja regressioanalyysi

Samankaltaiset esitykset


Esitys aiheesta: "Korrelaatio- ja regressioanalyysi"— Esityksen transkriptio:

1 Korrelaatio- ja regressioanalyysi
Petri Kainulainen

2 Korrelaatio Yleistä korrelaatiosta Pearsonin korrelaatiokerroin Spearmanin järjestyskorrelaatiokerroin Kendallin järjestyskorrelaatiokerroin Korrelaatiokertoimen merkitsevyys

3 Korrelaatio Yleistä korrelaatiosta
Muuttujien välisen lineaarisen (suora viiva) riippuvuuden määrää mitataan korrelaation avulla Korrelaation tunnuslukuna käytetään korrelaatiokerrointa, joka ilmoittaa riippuvuuden suunnan ja suuruuden Korrelaatiokertoimen ääripäät (-1 ja 1) kuvastavat täydellistä lineaarista riippuvuutta, nolla olematonta Positiivinen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on samansuuntainen (kun toisen muuttujan arvot kasvavat, niin tekevät toisenkin) Negatiivisen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on erisuuntainen (kun toisen muuttujan arvot kasvavat, niin toisen laskevat)

4 Korrelaatio

5 Korrelaatio Kun muuttujien arvot vaihtelevat täysin toisistaan riippumatta, korrelaatiokertoimen arvo on nolla Tämä ei päde päinvastoin – korrelaatiokerroin voi olla pieni, vaikka muuttujien välillä olisi täydellinen (epälineaarinen) lineaarinen

6 Korrelaatio Pearsonin korrelaatiokerroin
Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin korrelaatiokerrointa Voidaan laskea kun muuttujat ovat vähintään välimatka-asteikollisia Korrelaatiokertoimen laskemista varten täytyy määritellä kovarianssi (kahden muuttujan yhteistä vaihtelua) Kovarianssi saadaan kaavasta

7 Korrelaatio Itse korrelaatiokerroin saadaan laskettua seuraavaa kaavaa käyttäen jossa sX on muuttujan X ja sY muuttujan Y keskihajonta. Jos muuttujista on saatavana summatietoa, saadaan korrelaatiokerroin laskettua myös seuraavalla tavalla

8 Korrelaatio Esim Haluttiin selvittää, onko ihmisen pituudella ja painolla mitään yhteyttä. Kuudelta henkilöltä suoritettujen mittausten tuloksena saatiin seuraavanlainen aineisto. Henkilö pituus paino pit.* pituus2 paino2 paino yht

9 Korrelaatio Esim. jatkuu Korrelaatiokerroin lasketaan seuraavasti
Korrelaatiokertoimen arvoksi saatiin 0.9, joka on korkea. Näin voidaan vetää sellainen johtopäätös, että painolla ja pituudella on lineaarinen riippuvuussuhde.

10 Korrelaatio SPSS-ohjelmalla

11 Korrelaatio Spearmanin järjestyskorrelaatiokerroin
Pearsonin korrelaatiokerroin vaatii vähintään välimatka-asteikollisia muuttujia, mutta Spearmanin järjestyskorrelaatiokertoimelle riittää järjestysasteikolliset muuttujat Korrelaatiokertoimen laskentaa varten arvot tulee laittaa suuruusjärjestykseen muuttujan sisällä ja antaa arvoille järjestysnumerot Spearmanin järjestyskorrelaatiokerroin saadaan kaavasta jossa di on havainnon i muuttujien järjestyslukujen erotus

12 Korrelaatio Esimerkki Haluttiin selvittää, onko opiskelijoiden matematiikan ja fysiikan arvosanoilla (0-5) yhteyttä. Tätä varten kuuden opiskelijan opintojaksojen arvosanoista muodostettiin seuraavanlainen taulukko Opis- matem. fysiikan sij/ sij/ di di2 kelija arvosana arvosana matem. fys yht. 8

13 Korrelaatio Esimerkki Spearmanin järjestyskorrelaatiokerroin saadaan seuraavasti Korrelaatiokertoimen 0.77 perusteella voidaan todeta, että matematiikan ja fysiikan numeroilla on yhteyttä.

14 Korrelaatio SPSS-ohjelmalla

15 Korrelaatio Kendallin järjestyskorrelaatiokerroin
Kendallin korrelaatiokertoimen käyttö edellyttää, että muuttujat ovat vähintään järjestysasteikollisia Spearmanin ja Kendallin järjestyskorrelaatiokertoimet poikkeavat toisistaan, eivätkä ole vertailukelpoisia Kendallin korrelaatiokerroin on hieman vaikeampi laskea kuin Spearmanin vastaava Kendallin korrelaatiokertoimen otosjakauma lähestyy nopeasti normaalijakaumaa otoskoon kasvaessa – testaamisen yhteydessä normaalijakauman approksimaatio on turvallista On kuitenkin aika lailla makuasia, kumpaa (Kendall va Spearman) järjestyskorrelaatiokerrointa käyttää

16 Korrelaatio Korrelaatiokertoimen merkitsevyys
Korrelaatiokertoimen merkitsevyys riippuu kertoimen itseisarvon suuruuden lisäksi otoskoosta Karkea sääntö merkitsevyydelle on seuraavanlainen |r| > 0.7 lineaarinen riippuvuus on voimakas 0.3 ≤ |r| ≤ 0.7 lineaarinen riippuvuus on kohtalainen |r| < 0.3 lineaarinen riippuvuus on heikko Korrelaatiokertoimen merkitsevyyttä voi myös testata tilastollisen testin avulla (H0: riippuvuutta ei ole) Tilasto-ohjelmistot tuottavat testiin liittyvät p-arvot

17 Regressioanalyysi Yleistä regressioanalyysistä
Regressioanalyysin oletukset Pienimmän neliösumman menetelmä Ennustaminen Kerrointen merkitsevyyden testaamien

18 Regressioanalyysi Yleistä regressioanalyysistä
Regressioanalyysin avulla pyritään ilmaisemaan yhden tai useamman selittävän (tai riippumattoman) muuttujan vaikutus selitettävään (tai riippuvaan) muuttujaan Regressioanalyysin avulla voidaan rakentaa matemaattinen malli selittävien ja selitettävän muuttujan välille – mallin perusteella voidaan todeta riippuvuuden suunta riippuvuuden määrä (ja merkitsevyys) ennustaa selitettävän muuttujan arvoja, jos sellittävien muuttujien arvot ovat tiedossa Kyse on lineaarisesta riippuvuussuhteesta

19 Regressioanalyysi Esimerkkejä riippuvuussuhteista
ihmisen paino on jossain määrin selitettävissä pituudella yrityksen myynti on riippuvainen markkinoinnista verenpaine muuttuu yleensä iän myötä Muuttujien välisiä riippuvuuksia tarkastellessa kannattaa tutkia myös muuttujien välistä korrelaatiota riippuvuutta graafisesti esimerkiksi hajontakuvion avulla

20 Regressioanalyysi Mikä olisi tämän aineiston perusteella painon ja pituuden välinen yhteys – voidaanko painoa selittää pituuden avulla?

21 Regressioanalyysi Regressioanalyysin oletukset
Muuttujien on oltava vähintään välimatka-asteikollisia Oletukset liittyvät pääosin mallin perusteella laskettujen jäännösten (mallin perusteella laskettu Y – havaittu Y) tarkasteluun, joka voidaan tehdä jälkikäteen jäännösten tulee noudattaa normaalijakaumaa odotusarvolla 0 ja keskihajonnalla σ2 (helppo tarkastella) jäännösten tulee olla toisistaan riippumattomia (hankala tarkastella) jäännösten varianssien tulee olla yhtä suuria (kohtuullisen helppo tarkastella)

22 Regressioanalyysi Pienimmän neliösumman menetelmä
Kahden muuttujan (selitettävä ja selittävä) välinen regressiosuora voidaan kirjoittaa matemaattisin termein muotoon missä y = selitettävä muuttuja  = regressiosuoran vakio (estimoitava)  = regressiosuoran kulmakerroin (estimoitava) x = selittävä muuttuja

23 Regressioanalyysi Pienimmän neliösumman perusajatuksena on piirtää havaintoaineiston joukkoon sellainen käyrä, joka poikkeaisi mahdollisimman vähän havainnoista selitettävän muuttujan (y) suhteen.

24 Regressioanalyysi Regressiokertoimet (a ja b) saadaan estimoitua seuraavien kaavojen avulla

25 Regressioanalyysi Esim Kiinnostuksen kohteena on se, kuinka miten ihmisen pituudella voidaan ennustaa painoa. Tätä varten kerättiin kahdeltakymmeneltä henkilöltä pituus- ja painotiedot. Aineisto näyttää seuraavanlaiselta. Henkilö Pituus Paino Henkilö Pituus Paino

26 Regressioanalyysi Esim. Jatk. Aineistosta saadaan helposti laskettua, että pituuksien summa on 3451 ja painojen Samoin saadaan laskettua, että pituuden (xi) ja painon (yi) tulojen (xiyi) kokonaissumma on Vastaavasti pituuden neliöiden summa (xi2) on Regressiokertoimet saadaan laskettua seuraavasti.

27 Regressioanalyysi Näin ollen painon ja pituuden välinen regressiosuora on muotoa: y = * x eli sanallisesti paino = * pituus Tämän mallin avulla voidaan myös ennustaa paino, kun pituus on tiedossa.

28 Regressioanalyysi SPSS-ohjelmalla

29 Regressioanalyysi Ennustaminen
Ennustamisella tarkoitetaan sitä, että selittävien muuttujien (x) avulla lasketaan selitettävän muuttujan (y) arvoja Yleensä ennustaminen on mielekästä vain sillä alueella, jolla regressiokerrointen laskentaan käytettyjen x-muuttujien arvot ovat  interpolointi Periaatteessa on myös mahdollista ennustaa suurempien ja pienempien x-muuttujien arvoilla  ekstrapolointi

30 Regressioanalyysi Sato Lannoitteen määrä
Oletetaan, että sadon ja lannoitteen määrän välinen regressiosuora on laskettu harmaan viivan lannoitteiden määrän arvoilla. Tällöin ekstrapolointi harmaan alueen ulkopuolelle antaa vääriä ennusteita.

31 Regressioanalyysi Kerrointen merkitsevyyden testaaminen
Regressiokerrointen merkitsevyyttä voidaan testata Hypoteesipari on muotoa H0: Regressiokerroin ei ole merkitsevä (= 0) H1: Regressiokerroin on merkitsevä (≠ 0) Testisuure noudattaa t-jakaumaa Tulkinta: jos p-arvo pienempi kuin valittu merkitsevyystaso (5%), on kyseinen muuttuja ”hyvä” selittäjä


Lataa ppt "Korrelaatio- ja regressioanalyysi"

Samankaltaiset esitykset


Iklan oleh Google