Korrelaatio- ja regressioanalyysi

Slides:

Advertisements

Samankaltaiset esitykset

S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.

Advertisements

Peruskysymys: onko asteikko luonteeltaan luokitteleva vai jatkuva?

TYTILM1 Tilastolliset menetelmät

Hypoteesin testeistä Testin valinta perustuu aina tutkimusongelmaan ja kuvailuun (joka perustuu mitta-asteikoihin) Testaus ei koskaan ole itsenäinen, vaan.

Vain demonstraatio- käyttöön © Menetelmäopetuksen tietovaranto 1 / 8 Ristiintaulukointi Ristiintaulukointia käytetään tutkittaessa kahden luokittelu- tai.

TUME II / Tilastollinen osuus Tilastollinen riippuvuus

Ä IDINKIELEN OPETUSTIETEEN TUTKIMUSMENETELM Ä T Yleist ä tutkimuksen luonteesta ja menetelmist ä Kokeellinen tutkimus Ex post facto – tutkimus Seurantatutkimus.

Tilastollisia menetelmiä

Matematiikka ja fysiikka AUTO-ALA

Aikasarja-analyysin perusteet

Käyttäytymistieteiden laitos

Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.

Otanta Miksi otantaa? –suuresta perusjoukosta voidaan saada tarvittavat tiedot edullisemmin kuin kokonaistutkimuksella –kiireisyys vaatii usein otantaa.

Muuttujien riippuvuus

lineaarinen regressio

Vaihteluväli ja keskipoikkeama

Korrelaatio Kertoo kahden muuttujan välisestä lineaarisesta yhteydestä eli kuinka hyvin toisen muuttujan avulla voidaan ennustaa toisen muuttujan vaihtelua.

Standardointi tekee eri asteikollisista muuttujista vertailukelpoisia

Tilastollinen testaus Mann-Whitneyn –testiä voidaan käyttää hyvin pienille n 2 ≤ 8 keskikokoisille 9 ≤ n 2 ≤ 20 suurille n 2 ≥ 20 otoksille –voidaan käyttää.

Monimuuttujamenetelmistä Lähtökohtana mallittaa muuttujien välinen riippuvuusrakenne. Rakenne tulee sovellusalan teoriasta. Sopiva analyysi valitaan mallin.

Mihin on tultu?. Tutkimusprosessi (MOTV , muokattu De Vaus 1994, 21 pohjalta): Teoria Hypoteesit Empiiriset mittarit Aineiston kerääminen Aineiston.

5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.

Mitä osattava (minimivaatimus)?. Yhtälöiden ja epäyhtälöiden ratkaiseminen –Huom! Määrittelyehdot Peruslaskutoimitukset –polynomien erityisesti binomin.

1 Kvantitatiiviset menetelmät Pienryhmäkokoontumisissa tarvitaan EK03- aineiston haastattelulomake. Sen voi tulostaa verkosta. Linkki löytyy kurssin kotisivulta:

UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.

S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Esitelmä 3.

Osa 5. Joustoista Kysynnän hintajousto (price elasticity of demand) mittaa, miten kysynnän määrä reagoi hinnan muutokseen = kysytyn määrän suhteellinen.

Matematiikkaa 3 a Kertausjakso – Geometria MATEMATIIKKAA 3 A © VARGA–NEMÉNYI RY 2016.

YFIA202 Kvantitatiiviset menetelmät, luento YTT Pertti Jokivuori Syksy luento (Ti )

Matematiikkaa 3 a Kertausjakso – Laskuja MATEMATIIKKAA 3A, KERTAUSJAKSO LASKUJA © VARGA–NEMÉNYI RY 2016.

REGRESSIOANALYYSI.

YFIA220 Kvantitatiivisten menetelmien syventävä kurssi

Tuotteen dokumentointi

Toimisto-ohjelmat TVT osana Sädettä.

Tietokanta (database) on kokoelma tietoja, jotka liittyvät tavalla tai toisella toisiinsa (esim. henkilö -> auto -> katsastus aika -> …) Tietokannan (relaatiomalli)

YFIA200 Kvantitatiiviset menetelmät, luento

Yleistajuisemman artikkelin kirjoittaminen

Kuusela: Tietoaika Lähde: Kuusela 2000: 57.

YFIS200 Kvantitatiivisten menetelmien syventävä kurssi

Lineaariset regressiomenetelmät

VaR-mallien toimivuuden testaus historian avulla (backtesting)

YFIA202 Kvantitatiiviset menetelmät, luento

Suhteellisuusteoriaa

Kritiikin alkulähteillä

Analyyttiset menetelmät VAR:n määrittämisessä

YFIA202 Kvantitatiiviset menetelmät, luento

YFIS200 Kvantitatiivisten menetelmien syventävä kurssi

28. Lamppu vastustaa sähkövirtaa

YFIA200 Kvantitatiiviset menetelmät, luento

Murtoluku Murtoluku on jakolasku, jota ei ole laskettu loppuun asti.

8. Näppäimistöltä lukeminen

KE6 – Kemian kertauskurssi

Tasaisesti kiihtyvä liike

Rajoitteet Iäkkään henkilön hoidossa käytetylle fyysiselle rajoittamiselle ei ole olemassa yhtä yleispätevää määritelmää. Yhteistä rajoitteille on kuitenkin.

TILASTOKUVIO kuvio on voimakkain tapa esittää tietoa

Kaksi erää Tässä ppt:ssä ohjeet pelin johtajalle Opus-työryhmä 2014

Tilastolliset tunnusluvut

7. Hyvä ohjelmointitapa..

Riippuvuustarkastelut

Liiketalouden perustutkinto, merkonomi

TIETOSUOJA-OHJEET JOUKKUEILLE JA JAOSTOILLE

KVANTISOINTIKOHINA JA AWGN-KOHINAN vaikutus PULSSIKOODIMODULAATIOSSA

Aineiston kuvaaminen graafisin menetelmin

Tilastollinen päättely

Arvioitava tehtävä Työ tehdään 2-4 hengen ryhmissä

Tampere 3-hanke Koulutusyhteistyö rakennustekniikassa Matti Pentti, rakennustekniikan professori

Tilastolliset testit KHI.

Järjestötieto muutoksessa

Dynamic Reporting (DR) -raporttien teon parhaat käytännöt

Luonnontiedeaiheinen projekti

Esityksen transkriptio:

Korrelaatio- ja regressioanalyysi Petri Kainulainen

Korrelaatio Yleistä korrelaatiosta Pearsonin korrelaatiokerroin Spearmanin järjestyskorrelaatiokerroin Kendallin järjestyskorrelaatiokerroin Korrelaatiokertoimen merkitsevyys

Korrelaatio Yleistä korrelaatiosta Muuttujien välisen lineaarisen (suora viiva) riippuvuuden määrää mitataan korrelaation avulla Korrelaation tunnuslukuna käytetään korrelaatiokerrointa, joka ilmoittaa riippuvuuden suunnan ja suuruuden Korrelaatiokertoimen ääripäät (-1 ja 1) kuvastavat täydellistä lineaarista riippuvuutta, nolla olematonta Positiivinen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on samansuuntainen (kun toisen muuttujan arvot kasvavat, niin tekevät toisenkin) Negatiivisen korrelaatiokertoimen arvo kuvaa sitä, että riippuvuus on erisuuntainen (kun toisen muuttujan arvot kasvavat, niin toisen laskevat)

Korrelaatio

Korrelaatio Kun muuttujien arvot vaihtelevat täysin toisistaan riippumatta, korrelaatiokertoimen arvo on nolla Tämä ei päde päinvastoin – korrelaatiokerroin voi olla pieni, vaikka muuttujien välillä olisi täydellinen (epälineaarinen) lineaarinen

Korrelaatio Pearsonin korrelaatiokerroin Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin korrelaatiokerrointa Voidaan laskea kun muuttujat ovat vähintään välimatka-asteikollisia Korrelaatiokertoimen laskemista varten täytyy määritellä kovarianssi (kahden muuttujan yhteistä vaihtelua) Kovarianssi saadaan kaavasta

Korrelaatio Itse korrelaatiokerroin saadaan laskettua seuraavaa kaavaa käyttäen jossa sX on muuttujan X ja sY muuttujan Y keskihajonta. Jos muuttujista on saatavana summatietoa, saadaan korrelaatiokerroin laskettua myös seuraavalla tavalla

Korrelaatio Esim Haluttiin selvittää, onko ihmisen pituudella ja painolla mitään yhteyttä. Kuudelta henkilöltä suoritettujen mittausten tuloksena saatiin seuraavanlainen aineisto. Henkilö pituus paino pit.* pituus2 paino2 paino --------------------------------------------------------------------------------- 1 176 88 15488 30976 7744 2 167 60 10020 27889 3600 3 185 90 16650 34225 8100 4 177 87 15399 31329 7569 5 180 79 14220 32400 6241 6 191 102 19482 36481 10404 yht. 1076 506 91259 193300 43658

Korrelaatio Esim. jatkuu Korrelaatiokerroin lasketaan seuraavasti Korrelaatiokertoimen arvoksi saatiin 0.9, joka on korkea. Näin voidaan vetää sellainen johtopäätös, että painolla ja pituudella on lineaarinen riippuvuussuhde.

Korrelaatio SPSS-ohjelmalla

Korrelaatio Spearmanin järjestyskorrelaatiokerroin Pearsonin korrelaatiokerroin vaatii vähintään välimatka-asteikollisia muuttujia, mutta Spearmanin järjestyskorrelaatiokertoimelle riittää järjestysasteikolliset muuttujat Korrelaatiokertoimen laskentaa varten arvot tulee laittaa suuruusjärjestykseen muuttujan sisällä ja antaa arvoille järjestysnumerot Spearmanin järjestyskorrelaatiokerroin saadaan kaavasta jossa di on havainnon i muuttujien järjestyslukujen erotus

Korrelaatio Esimerkki Haluttiin selvittää, onko opiskelijoiden matematiikan ja fysiikan arvosanoilla (0-5) yhteyttä. Tätä varten kuuden opiskelijan opintojaksojen arvosanoista muodostettiin seuraavanlainen taulukko Opis- matem. fysiikan sij/ sij/ di di2 kelija arvosana arvosana matem. fys. ------------------------------------------------------------------------------------------- 1 1 2 1 3 -2 4 2 5 4 6 5.5 0.5 0.25 3 4 4 5 5.5 -0.5 0.25 4 3 3 3.5 4 -0.5 0.25 5 3 1 3.5 2 -1.5 2.25 6 2 0 2 1 1 1 yht. 8

Korrelaatio Esimerkki Spearmanin järjestyskorrelaatiokerroin saadaan seuraavasti Korrelaatiokertoimen 0.77 perusteella voidaan todeta, että matematiikan ja fysiikan numeroilla on yhteyttä.

Korrelaatio SPSS-ohjelmalla

Korrelaatio Kendallin järjestyskorrelaatiokerroin Kendallin korrelaatiokertoimen käyttö edellyttää, että muuttujat ovat vähintään järjestysasteikollisia Spearmanin ja Kendallin järjestyskorrelaatiokertoimet poikkeavat toisistaan, eivätkä ole vertailukelpoisia Kendallin korrelaatiokerroin on hieman vaikeampi laskea kuin Spearmanin vastaava Kendallin korrelaatiokertoimen otosjakauma lähestyy nopeasti normaalijakaumaa otoskoon kasvaessa – testaamisen yhteydessä normaalijakauman approksimaatio on turvallista On kuitenkin aika lailla makuasia, kumpaa (Kendall va Spearman) järjestyskorrelaatiokerrointa käyttää

Korrelaatio Korrelaatiokertoimen merkitsevyys Korrelaatiokertoimen merkitsevyys riippuu kertoimen itseisarvon suuruuden lisäksi otoskoosta Karkea sääntö merkitsevyydelle on seuraavanlainen |r| > 0.7 lineaarinen riippuvuus on voimakas 0.3 ≤ |r| ≤ 0.7 lineaarinen riippuvuus on kohtalainen |r| < 0.3 lineaarinen riippuvuus on heikko Korrelaatiokertoimen merkitsevyyttä voi myös testata tilastollisen testin avulla (H0: riippuvuutta ei ole) Tilasto-ohjelmistot tuottavat testiin liittyvät p-arvot

Regressioanalyysi Yleistä regressioanalyysistä Regressioanalyysin oletukset Pienimmän neliösumman menetelmä Ennustaminen Kerrointen merkitsevyyden testaamien

Regressioanalyysi Yleistä regressioanalyysistä Regressioanalyysin avulla pyritään ilmaisemaan yhden tai useamman selittävän (tai riippumattoman) muuttujan vaikutus selitettävään (tai riippuvaan) muuttujaan Regressioanalyysin avulla voidaan rakentaa matemaattinen malli selittävien ja selitettävän muuttujan välille – mallin perusteella voidaan todeta riippuvuuden suunta riippuvuuden määrä (ja merkitsevyys) ennustaa selitettävän muuttujan arvoja, jos sellittävien muuttujien arvot ovat tiedossa Kyse on lineaarisesta riippuvuussuhteesta

Regressioanalyysi Esimerkkejä riippuvuussuhteista ihmisen paino on jossain määrin selitettävissä pituudella yrityksen myynti on riippuvainen markkinoinnista verenpaine muuttuu yleensä iän myötä Muuttujien välisiä riippuvuuksia tarkastellessa kannattaa tutkia myös muuttujien välistä korrelaatiota riippuvuutta graafisesti esimerkiksi hajontakuvion avulla

Regressioanalyysi Mikä olisi tämän aineiston perusteella painon ja pituuden välinen yhteys – voidaanko painoa selittää pituuden avulla?

Regressioanalyysi Regressioanalyysin oletukset Muuttujien on oltava vähintään välimatka-asteikollisia Oletukset liittyvät pääosin mallin perusteella laskettujen jäännösten (mallin perusteella laskettu Y – havaittu Y) tarkasteluun, joka voidaan tehdä jälkikäteen jäännösten tulee noudattaa normaalijakaumaa odotusarvolla 0 ja keskihajonnalla σ2 (helppo tarkastella) jäännösten tulee olla toisistaan riippumattomia (hankala tarkastella) jäännösten varianssien tulee olla yhtä suuria (kohtuullisen helppo tarkastella)

Regressioanalyysi Pienimmän neliösumman menetelmä Kahden muuttujan (selitettävä ja selittävä) välinen regressiosuora voidaan kirjoittaa matemaattisin termein muotoon missä y = selitettävä muuttuja  = regressiosuoran vakio (estimoitava)  = regressiosuoran kulmakerroin (estimoitava) x = selittävä muuttuja

Regressioanalyysi Pienimmän neliösumman perusajatuksena on piirtää havaintoaineiston joukkoon sellainen käyrä, joka poikkeaisi mahdollisimman vähän havainnoista selitettävän muuttujan (y) suhteen.

Regressioanalyysi Regressiokertoimet (a ja b) saadaan estimoitua seuraavien kaavojen avulla

Regressioanalyysi Esim Kiinnostuksen kohteena on se, kuinka miten ihmisen pituudella voidaan ennustaa painoa. Tätä varten kerättiin kahdeltakymmeneltä henkilöltä pituus- ja painotiedot. Aineisto näyttää seuraavanlaiselta. Henkilö Pituus Paino Henkilö Pituus Paino ---------------------------------------- ---------------------------------------- 1 167 67 11 173 73 2 176 67 12 164 75 3 173 88 13 190 76 4 172 70 14 167 64 5 157 57 15 172 64 6 158 72 16 158 55 7 173 71 17 161 49 8 192 89 18 186 98 9 174 81 19 183 97 10 173 63 20 182 70

Regressioanalyysi Esim. Jatk. Aineistosta saadaan helposti laskettua, että pituuksien summa on 3451 ja painojen 1446. Samoin saadaan laskettua, että pituuden (xi) ja painon (yi) tulojen (xiyi) kokonaissumma on 251297. Vastaavasti pituuden neliöiden summa (xi2) on 597481. Regressiokertoimet saadaan laskettua seuraavasti.

Regressioanalyysi Näin ollen painon ja pituuden välinen regressiosuora on muotoa: y = -81.3 + 0.89 * x eli sanallisesti paino = -81.3 + 0.89 * pituus Tämän mallin avulla voidaan myös ennustaa paino, kun pituus on tiedossa.

Regressioanalyysi SPSS-ohjelmalla

Regressioanalyysi Ennustaminen Ennustamisella tarkoitetaan sitä, että selittävien muuttujien (x) avulla lasketaan selitettävän muuttujan (y) arvoja Yleensä ennustaminen on mielekästä vain sillä alueella, jolla regressiokerrointen laskentaan käytettyjen x-muuttujien arvot ovat  interpolointi Periaatteessa on myös mahdollista ennustaa suurempien ja pienempien x-muuttujien arvoilla  ekstrapolointi

Regressioanalyysi Sato Lannoitteen määrä Oletetaan, että sadon ja lannoitteen määrän välinen regressiosuora on laskettu harmaan viivan lannoitteiden määrän arvoilla. Tällöin ekstrapolointi harmaan alueen ulkopuolelle antaa vääriä ennusteita.

Regressioanalyysi Kerrointen merkitsevyyden testaaminen Regressiokerrointen merkitsevyyttä voidaan testata Hypoteesipari on muotoa H0: Regressiokerroin ei ole merkitsevä (= 0) H1: Regressiokerroin on merkitsevä (≠ 0) Testisuure noudattaa t-jakaumaa Tulkinta: jos p-arvo pienempi kuin valittu merkitsevyystaso (5%), on kyseinen muuttuja ”hyvä” selittäjä