Korrelaatio- ja regressioanalyysi

Slides:



Advertisements
Samankaltaiset esitykset
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.
Advertisements

Peruskysymys: onko asteikko luonteeltaan luokitteleva vai jatkuva?
TYTILM1 Tilastolliset menetelmät
Hypoteesin testeistä Testin valinta perustuu aina tutkimusongelmaan ja kuvailuun (joka perustuu mitta-asteikoihin) Testaus ei koskaan ole itsenäinen, vaan.
Vain demonstraatio- käyttöön © Menetelmäopetuksen tietovaranto 1 / 8 Ristiintaulukointi Ristiintaulukointia käytetään tutkittaessa kahden luokittelu- tai.
TUME II / Tilastollinen osuus Tilastollinen riippuvuus
Ä IDINKIELEN OPETUSTIETEEN TUTKIMUSMENETELM Ä T Yleist ä tutkimuksen luonteesta ja menetelmist ä Kokeellinen tutkimus Ex post facto – tutkimus Seurantatutkimus.
Tilastollisia menetelmiä
Matematiikka ja fysiikka AUTO-ALA
Aikasarja-analyysin perusteet
Käyttäytymistieteiden laitos
Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.
Otanta Miksi otantaa? –suuresta perusjoukosta voidaan saada tarvittavat tiedot edullisemmin kuin kokonaistutkimuksella –kiireisyys vaatii usein otantaa.
Muuttujien riippuvuus
lineaarinen regressio
Vaihteluväli ja keskipoikkeama
Korrelaatio Kertoo kahden muuttujan välisestä lineaarisesta yhteydestä eli kuinka hyvin toisen muuttujan avulla voidaan ennustaa toisen muuttujan vaihtelua.
Standardointi tekee eri asteikollisista muuttujista vertailukelpoisia
Tilastollinen testaus Mann-Whitneyn –testiä voidaan käyttää hyvin pienille n 2 ≤ 8 keskikokoisille 9 ≤ n 2 ≤ 20 suurille n 2 ≥ 20 otoksille –voidaan käyttää.
Monimuuttujamenetelmistä Lähtökohtana mallittaa muuttujien välinen riippuvuusrakenne. Rakenne tulee sovellusalan teoriasta. Sopiva analyysi valitaan mallin.
Mihin on tultu?. Tutkimusprosessi (MOTV , muokattu De Vaus 1994, 21 pohjalta): Teoria Hypoteesit Empiiriset mittarit Aineiston kerääminen Aineiston.
5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.
Mitä osattava (minimivaatimus)?. Yhtälöiden ja epäyhtälöiden ratkaiseminen –Huom! Määrittelyehdot Peruslaskutoimitukset –polynomien erityisesti binomin.
1 Kvantitatiiviset menetelmät Pienryhmäkokoontumisissa tarvitaan EK03- aineiston haastattelulomake. Sen voi tulostaa verkosta. Linkki löytyy kurssin kotisivulta:
UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Esitelmä 3.
Osa 5. Joustoista Kysynnän hintajousto (price elasticity of demand) mittaa, miten kysynnän määrä reagoi hinnan muutokseen = kysytyn määrän suhteellinen.
Matematiikkaa 3 a Kertausjakso – Geometria MATEMATIIKKAA 3 A © VARGA–NEMÉNYI RY 2016.
YFIA202 Kvantitatiiviset menetelmät, luento YTT Pertti Jokivuori Syksy luento (Ti )
Matematiikkaa 3 a Kertausjakso – Laskuja MATEMATIIKKAA 3A, KERTAUSJAKSO LASKUJA © VARGA–NEMÉNYI RY 2016.
REGRESSIOANALYYSI.
YFIA220 Kvantitatiivisten menetelmien syventävä kurssi
Tuotteen dokumentointi
Toimisto-ohjelmat TVT osana Sädettä.
Tietokanta (database) on kokoelma tietoja, jotka liittyvät tavalla tai toisella toisiinsa (esim. henkilö -> auto -> katsastus aika -> …) Tietokannan (relaatiomalli)
YFIA200 Kvantitatiiviset menetelmät, luento
Yleistajuisemman artikkelin kirjoittaminen
Kuusela: Tietoaika Lähde: Kuusela 2000: 57.
YFIS200 Kvantitatiivisten menetelmien syventävä kurssi
Lineaariset regressiomenetelmät
VaR-mallien toimivuuden testaus historian avulla (backtesting)
YFIA202 Kvantitatiiviset menetelmät, luento
Suhteellisuusteoriaa
Kritiikin alkulähteillä
Analyyttiset menetelmät VAR:n määrittämisessä
YFIA202 Kvantitatiiviset menetelmät, luento
YFIS200 Kvantitatiivisten menetelmien syventävä kurssi
28. Lamppu vastustaa sähkövirtaa
YFIA200 Kvantitatiiviset menetelmät, luento
Murtoluku Murtoluku on jakolasku, jota ei ole laskettu loppuun asti.
8. Näppäimistöltä lukeminen
KE6 – Kemian kertauskurssi
Tasaisesti kiihtyvä liike
Rajoitteet Iäkkään henkilön hoidossa käytetylle fyysiselle rajoittamiselle ei ole olemassa yhtä yleispätevää määritelmää. Yhteistä rajoitteille on kuitenkin.
TILASTOKUVIO kuvio on voimakkain tapa esittää tietoa
Kaksi erää Tässä ppt:ssä ohjeet pelin johtajalle Opus-työryhmä 2014
Tilastolliset tunnusluvut
7. Hyvä ohjelmointitapa..
Riippuvuustarkastelut
Liiketalouden perustutkinto, merkonomi
TIETOSUOJA-OHJEET JOUKKUEILLE JA JAOSTOILLE
KVANTISOINTIKOHINA JA AWGN-KOHINAN vaikutus PULSSIKOODIMODULAATIOSSA
Aineiston kuvaaminen graafisin menetelmin
Tilastollinen päättely
Arvioitava tehtävä Työ tehdään 2-4 hengen ryhmissä
Tampere 3-hanke Koulutusyhteistyö rakennustekniikassa Matti Pentti, rakennustekniikan professori
Tilastolliset testit KHI.
Järjestötieto muutoksessa
Dynamic Reporting (DR) -raporttien teon parhaat käytännöt
Luonnontiedeaiheinen projekti
Esityksen transkriptio:

Korrelaatio- ja regressioanalyysi Petri Kainulainen

Korrelaatio Yleistä korrelaatiosta Pearsonin korrelaatiokerroin Spearmanin järjestyskorrelaatiokerroin Kendallin järjestyskorrelaatiokerroin Korrelaatiokertoimen merkitsevyys

Korrelaatio Yleistä korrelaatiosta Muuttujien välisen lineaarisen (suora viiva) riippuvuuden määrää mitataan korrelaation avulla Korrelaation tunnuslukuna käytetään korrelaatiokerrointa, joka ilmoittaa riippuvuuden suunnan ja suuruuden Korrelaatiokertoimen ääripäät (-1 ja 1) kuvastavat täydellistä lineaarista riippuvuutta, nolla olematonta Positiivinen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on samansuuntainen (kun toisen muuttujan arvot kasvavat, niin tekevät toisenkin) Negatiivisen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on erisuuntainen (kun toisen muuttujan arvot kasvavat, niin toisen laskevat)

Korrelaatio

Korrelaatio Kun muuttujien arvot vaihtelevat täysin toisistaan riippumatta, korrelaatiokertoimen arvo on nolla Tämä ei päde päinvastoin – korrelaatiokerroin voi olla pieni, vaikka muuttujien välillä olisi täydellinen (epälineaarinen) lineaarinen

Korrelaatio Pearsonin korrelaatiokerroin Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin korrelaatiokerrointa Voidaan laskea kun muuttujat ovat vähintään välimatka-asteikollisia Korrelaatiokertoimen laskemista varten täytyy määritellä kovarianssi (kahden muuttujan yhteistä vaihtelua) Kovarianssi saadaan kaavasta

Korrelaatio Itse korrelaatiokerroin saadaan laskettua seuraavaa kaavaa käyttäen jossa sX on muuttujan X ja sY muuttujan Y keskihajonta. Jos muuttujista on saatavana summatietoa, saadaan korrelaatiokerroin laskettua myös seuraavalla tavalla

Korrelaatio Esim Haluttiin selvittää, onko ihmisen pituudella ja painolla mitään yhteyttä. Kuudelta henkilöltä suoritettujen mittausten tuloksena saatiin seuraavanlainen aineisto. Henkilö pituus paino pit.* pituus2 paino2 paino --------------------------------------------------------------------------------- 1 176 88 15488 30976 7744 2 167 60 10020 27889 3600 3 185 90 16650 34225 8100 4 177 87 15399 31329 7569 5 180 79 14220 32400 6241 6 191 102 19482 36481 10404 yht. 1076 506 91259 193300 43658

Korrelaatio Esim. jatkuu Korrelaatiokerroin lasketaan seuraavasti Korrelaatiokertoimen arvoksi saatiin 0.9, joka on korkea. Näin voidaan vetää sellainen johtopäätös, että painolla ja pituudella on lineaarinen riippuvuussuhde.

Korrelaatio SPSS-ohjelmalla

Korrelaatio Spearmanin järjestyskorrelaatiokerroin Pearsonin korrelaatiokerroin vaatii vähintään välimatka-asteikollisia muuttujia, mutta Spearmanin järjestyskorrelaatiokertoimelle riittää järjestysasteikolliset muuttujat Korrelaatiokertoimen laskentaa varten arvot tulee laittaa suuruusjärjestykseen muuttujan sisällä ja antaa arvoille järjestysnumerot Spearmanin järjestyskorrelaatiokerroin saadaan kaavasta jossa di on havainnon i muuttujien järjestyslukujen erotus

Korrelaatio Esimerkki Haluttiin selvittää, onko opiskelijoiden matematiikan ja fysiikan arvosanoilla (0-5) yhteyttä. Tätä varten kuuden opiskelijan opintojaksojen arvosanoista muodostettiin seuraavanlainen taulukko Opis- matem. fysiikan sij/ sij/ di di2 kelija arvosana arvosana matem. fys. ------------------------------------------------------------------------------------------- 1 1 2 1 3 -2 4 2 5 4 6 5.5 0.5 0.25 3 4 4 5 5.5 -0.5 0.25 4 3 3 3.5 4 -0.5 0.25 5 3 1 3.5 2 -1.5 2.25 6 2 0 2 1 1 1 yht. 8

Korrelaatio Esimerkki Spearmanin järjestyskorrelaatiokerroin saadaan seuraavasti Korrelaatiokertoimen 0.77 perusteella voidaan todeta, että matematiikan ja fysiikan numeroilla on yhteyttä.

Korrelaatio SPSS-ohjelmalla

Korrelaatio Kendallin järjestyskorrelaatiokerroin Kendallin korrelaatiokertoimen käyttö edellyttää, että muuttujat ovat vähintään järjestysasteikollisia Spearmanin ja Kendallin järjestyskorrelaatiokertoimet poikkeavat toisistaan, eivätkä ole vertailukelpoisia Kendallin korrelaatiokerroin on hieman vaikeampi laskea kuin Spearmanin vastaava Kendallin korrelaatiokertoimen otosjakauma lähestyy nopeasti normaalijakaumaa otoskoon kasvaessa – testaamisen yhteydessä normaalijakauman approksimaatio on turvallista On kuitenkin aika lailla makuasia, kumpaa (Kendall va Spearman) järjestyskorrelaatiokerrointa käyttää

Korrelaatio Korrelaatiokertoimen merkitsevyys Korrelaatiokertoimen merkitsevyys riippuu kertoimen itseisarvon suuruuden lisäksi otoskoosta Karkea sääntö merkitsevyydelle on seuraavanlainen |r| > 0.7 lineaarinen riippuvuus on voimakas 0.3 ≤ |r| ≤ 0.7 lineaarinen riippuvuus on kohtalainen |r| < 0.3 lineaarinen riippuvuus on heikko Korrelaatiokertoimen merkitsevyyttä voi myös testata tilastollisen testin avulla (H0: riippuvuutta ei ole) Tilasto-ohjelmistot tuottavat testiin liittyvät p-arvot

Regressioanalyysi Yleistä regressioanalyysistä Regressioanalyysin oletukset Pienimmän neliösumman menetelmä Ennustaminen Kerrointen merkitsevyyden testaamien

Regressioanalyysi Yleistä regressioanalyysistä Regressioanalyysin avulla pyritään ilmaisemaan yhden tai useamman selittävän (tai riippumattoman) muuttujan vaikutus selitettävään (tai riippuvaan) muuttujaan Regressioanalyysin avulla voidaan rakentaa matemaattinen malli selittävien ja selitettävän muuttujan välille – mallin perusteella voidaan todeta riippuvuuden suunta riippuvuuden määrä (ja merkitsevyys) ennustaa selitettävän muuttujan arvoja, jos sellittävien muuttujien arvot ovat tiedossa Kyse on lineaarisesta riippuvuussuhteesta

Regressioanalyysi Esimerkkejä riippuvuussuhteista ihmisen paino on jossain määrin selitettävissä pituudella yrityksen myynti on riippuvainen markkinoinnista verenpaine muuttuu yleensä iän myötä Muuttujien välisiä riippuvuuksia tarkastellessa kannattaa tutkia myös muuttujien välistä korrelaatiota riippuvuutta graafisesti esimerkiksi hajontakuvion avulla

Regressioanalyysi Mikä olisi tämän aineiston perusteella painon ja pituuden välinen yhteys – voidaanko painoa selittää pituuden avulla?

Regressioanalyysi Regressioanalyysin oletukset Muuttujien on oltava vähintään välimatka-asteikollisia Oletukset liittyvät pääosin mallin perusteella laskettujen jäännösten (mallin perusteella laskettu Y – havaittu Y) tarkasteluun, joka voidaan tehdä jälkikäteen jäännösten tulee noudattaa normaalijakaumaa odotusarvolla 0 ja keskihajonnalla σ2 (helppo tarkastella) jäännösten tulee olla toisistaan riippumattomia (hankala tarkastella) jäännösten varianssien tulee olla yhtä suuria (kohtuullisen helppo tarkastella)

Regressioanalyysi Pienimmän neliösumman menetelmä Kahden muuttujan (selitettävä ja selittävä) välinen regressiosuora voidaan kirjoittaa matemaattisin termein muotoon missä y = selitettävä muuttuja  = regressiosuoran vakio (estimoitava)  = regressiosuoran kulmakerroin (estimoitava) x = selittävä muuttuja

Regressioanalyysi Pienimmän neliösumman perusajatuksena on piirtää havaintoaineiston joukkoon sellainen käyrä, joka poikkeaisi mahdollisimman vähän havainnoista selitettävän muuttujan (y) suhteen.

Regressioanalyysi Regressiokertoimet (a ja b) saadaan estimoitua seuraavien kaavojen avulla

Regressioanalyysi Esim Kiinnostuksen kohteena on se, kuinka miten ihmisen pituudella voidaan ennustaa painoa. Tätä varten kerättiin kahdeltakymmeneltä henkilöltä pituus- ja painotiedot. Aineisto näyttää seuraavanlaiselta. Henkilö Pituus Paino Henkilö Pituus Paino ---------------------------------------- ---------------------------------------- 1 167 67 11 173 73 2 176 67 12 164 75 3 173 88 13 190 76 4 172 70 14 167 64 5 157 57 15 172 64 6 158 72 16 158 55 7 173 71 17 161 49 8 192 89 18 186 98 9 174 81 19 183 97 10 173 63 20 182 70

Regressioanalyysi Esim. Jatk. Aineistosta saadaan helposti laskettua, että pituuksien summa on 3451 ja painojen 1446. Samoin saadaan laskettua, että pituuden (xi) ja painon (yi) tulojen (xiyi) kokonaissumma on 251297. Vastaavasti pituuden neliöiden summa (xi2) on 597481. Regressiokertoimet saadaan laskettua seuraavasti.

Regressioanalyysi Näin ollen painon ja pituuden välinen regressiosuora on muotoa: y = -81.3 + 0.89 * x eli sanallisesti paino = -81.3 + 0.89 * pituus Tämän mallin avulla voidaan myös ennustaa paino, kun pituus on tiedossa.

Regressioanalyysi SPSS-ohjelmalla

Regressioanalyysi Ennustaminen Ennustamisella tarkoitetaan sitä, että selittävien muuttujien (x) avulla lasketaan selitettävän muuttujan (y) arvoja Yleensä ennustaminen on mielekästä vain sillä alueella, jolla regressiokerrointen laskentaan käytettyjen x-muuttujien arvot ovat  interpolointi Periaatteessa on myös mahdollista ennustaa suurempien ja pienempien x-muuttujien arvoilla  ekstrapolointi

Regressioanalyysi Sato Lannoitteen määrä Oletetaan, että sadon ja lannoitteen määrän välinen regressiosuora on laskettu harmaan viivan lannoitteiden määrän arvoilla. Tällöin ekstrapolointi harmaan alueen ulkopuolelle antaa vääriä ennusteita.

Regressioanalyysi Kerrointen merkitsevyyden testaaminen Regressiokerrointen merkitsevyyttä voidaan testata Hypoteesipari on muotoa H0: Regressiokerroin ei ole merkitsevä (= 0) H1: Regressiokerroin on merkitsevä (≠ 0) Testisuure noudattaa t-jakaumaa Tulkinta: jos p-arvo pienempi kuin valittu merkitsevyystaso (5%), on kyseinen muuttuja ”hyvä” selittäjä