REGRESSIOANALYYSI.

Slides:



Advertisements
Samankaltaiset esitykset
Kvantitatiiviset tutkimusmenetelmät
Advertisements

Konfirmatorinen faktorianalyysi
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.
Psykologisen mittarin rakenteen tilastollinen analysointi
Peruskysymys: onko asteikko luonteeltaan luokitteleva vai jatkuva?
Hypoteesin testeistä Testin valinta perustuu aina tutkimusongelmaan ja kuvailuun (joka perustuu mitta-asteikoihin) Testaus ei koskaan ole itsenäinen, vaan.
Vain demonstraatio- käyttöön © Menetelmäopetuksen tietovaranto 1 / 8 Ristiintaulukointi Ristiintaulukointia käytetään tutkittaessa kahden luokittelu- tai.
TUME II / Tilastollinen osuus Tilastollinen riippuvuus
Tutkimus osuuskuntien alueellisesta syntyvyydestä Panu Kalmi / HKKK ja RUN Pellervon Päivä Helsinki.
Ä IDINKIELEN OPETUSTIETEEN TUTKIMUSMENETELM Ä T Yleist ä tutkimuksen luonteesta ja menetelmist ä Kokeellinen tutkimus Ex post facto – tutkimus Seurantatutkimus.
Tilastollisia menetelmiä
TILASTOKUVIO kuvio on voimakkain tapa esittää tietoa
tilastollinen todennäköisyys
HY/SVY – Kvantitatiivinen metodologia verkossa – Rakenneyhtälöt – Reijo Byman 1/17 INDEX Kvantitatiivinen metodologia verkossa Rakenneyhtälöt Reijo Byman.
Otanta Miksi otantaa? –suuresta perusjoukosta voidaan saada tarvittavat tiedot edullisemmin kuin kokonaistutkimuksella –kiireisyys vaatii usein otantaa.
Muuttujien riippuvuus
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
lineaarinen regressio
Kotitehtävän 21 ratkaisu Ensimmäisen havaintoaineiston luokittelu – Ryhmäkeskiarvot hakeutuvat niin, että ryhmään kuuluvat pisteet ovat mahdollisimman.
Korrelaatio Kertoo kahden muuttujan välisestä lineaarisesta yhteydestä eli kuinka hyvin toisen muuttujan avulla voidaan ennustaa toisen muuttujan vaihtelua.
Standardointi tekee eri asteikollisista muuttujista vertailukelpoisia
Tilastollinen testaus Mann-Whitneyn –testiä voidaan käyttää hyvin pienille n 2 ≤ 8 keskikokoisille 9 ≤ n 2 ≤ 20 suurille n 2 ≥ 20 otoksille –voidaan käyttää.
Monimuuttujamenetelmistä Lähtökohtana mallittaa muuttujien välinen riippuvuusrakenne. Rakenne tulee sovellusalan teoriasta. Sopiva analyysi valitaan mallin.
5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.
1 Kvantitatiiviset menetelmät Pienryhmäkokoontumisissa tarvitaan EK03- aineiston haastattelulomake. Sen voi tulostaa verkosta. Linkki löytyy kurssin kotisivulta:
UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Esitelmä 3.
1 Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina klo Porthanian salissa PIV Uusintamahdollisuus rästitentissä ma 15– 17.
Fysiikan ja kemian sanaston luomiseen ja käsitteiden selventämiseen tähtäävä harjoitus. VUOSILUOKILLE 7-9 OTSO JARVA, SAARNILAAKSON KOULU AVAINSANAT Euroopan.
Matematiikkaa 3 a Kertausjakso – Geometria MATEMATIIKKAA 3 A © VARGA–NEMÉNYI RY 2016.
YFIA202 Kvantitatiiviset menetelmät, luento YTT Pertti Jokivuori Syksy luento (Ti )
UNIVERSITY OF TURKU MONIMUUTTUJAMENETELMÄT SOSIAALITYÖN TUTKIMUKSESSA Leena Koivusilta Turun yliopisto, Sosiaalipolitiikan laitos.
Suomalaisten Energia-asenteet 2016
YFIA220 Kvantitatiivisten menetelmien syventävä kurssi
Tietokanta (database) on kokoelma tietoja, jotka liittyvät tavalla tai toisella toisiinsa (esim. henkilö -> auto -> katsastus aika -> …) Tietokannan (relaatiomalli)
YFIA200 Kvantitatiiviset menetelmät, luento
Kuusela: Tietoaika Lähde: Kuusela 2000: 57.
YFIS200 Kvantitatiivisten menetelmien syventävä kurssi
VARIANSSIANALYYSI.
Opettajaopinnot kahdessa aineessa
Lineaariset regressiomenetelmät
Monimuuttinimuuttuja-analyyseista
VaR-mallien toimivuuden testaus historian avulla (backtesting)
YFIA202 Kvantitatiiviset menetelmät, luento
Kritiikin alkulähteillä
Analyyttiset menetelmät VAR:n määrittämisessä
YFIA202 Kvantitatiiviset menetelmät, luento
YFIS200 Kvantitatiivisten menetelmien syventävä kurssi
Janne Ojanen Aatu Kaapro
YFIA200 Kvantitatiiviset menetelmät, luento
Yhteyttäminen.
5 Matemaattinen malli Yleisin ja yksinkertaisin matemaattinen malli
Voimapari Kappaleeseen vaikuttaa kaksi yhtä suurta voimaa joilla on vastakkainen suunta Voimaparin aiheuttama momentti minkä tahansa pisteen suhteen on:
Teemakartat.
TILASTOKUVIO kuvio on voimakkain tapa esittää tietoa
Tilastolliset tunnusluvut
Korrelaatio- ja regressioanalyysi
KVANTISOINTIKOHINA JA AWGN-KOHINAN vaikutus PULSSIKOODIMODULAATIOSSA
Asiointipalveluiden laatu - Asiakasarvioinnit
[Hankkeen nimi] [Tutkijan nimi]
<Hankkeen nimi>
Oma nimi | Opettajan nimi | Koulu
Aineiston kuvaaminen graafisin menetelmin
Opetusharjoittelun valtakunnallinen opiskelijapalaute Yksilöllisyyden huomioon ottaminen opetuksessa Hämeenlinna Marita Kontoniemi.
Luento V. Typologia ja tilastotiede
Arvioitava tehtävä Työ tehdään 2-4 hengen ryhmissä
Tilastolliset testit KHI.
TYÖPOHJA KESKUSTELUN SUUNNITTELUUN
Luento V. Typologia ja tilastotiede
Luonnontiedeaiheinen projekti
Esityksen transkriptio:

REGRESSIOANALYYSI

REGRESSIOANALYYSIN PERIAATE Analysoidaan selitettävän eli vaste-muuttujan ja selittävien muuttujien välillä vallitsevaa suoraviivaista yhteyttä Pyritään löytämään muuttujien välistä yhteyttä kuvaava yhtälö – selitettävän muuttujan arvojen ”ennustaminen” selittävien muuttujien arvojen perusteella Riippuvuuden suunta ja voimakkuus

REGRESSIOANALYYSIN PERUSOLETUKSET Muuttujat vähintään välimatka-asteikollisia Riippuvuus on suoraviivainen (lineaarinen) Selittävät muuttujat eivät saa korreloida keskenään voimakkaasti (multikollineaarisuus) Vastemuuttujan hajonta on selittävien muut-tujien arvoista riippumaton (homoskedas-tisuus) Jäännösmuuttuja noudattaa normaalijakaumaa Oletusten paikkansa pitävyys mahdollistaa sen, että tulosten perusteella voidaan tehdä päätelmiä perusjoukosta, jota otos edustaa (tilastollinen päättely)

DUMMY-MUUTTUJAT Luokittelu- ja järjestysasteikollisia selittäjiä voidaan analysoida tekemällä niistä dummy-muuttujia Kaksiluokkaisen muuttujan arvot 0 ja 1 Moniluokkaiselle muuttujalle koodataan yksi luokista ykköseksi, muut nollaksi Miten selitettävän muuttujan arvo muuttuu, kun siirrytään dummy-muuttujan luokasta 0 luokkaan 1 Analyysista pois jätetty luokka vertailu-luokkana

REGRESSIOMALLI YHDELLE SELITTÄJÄLLE y = a + bx + e, missä y= selitettävä muuttuja a = vakiotermi (kohta, jossa regressiosuora leikkaa y-akselin selittävän muuttujan arvolla 0; constant, intercept) b= regressiokerroin (regressiosuoran kulmakerroin, beta) e=virhetermi (regressiosuoralla selittämättä jäänyt selitettävän muuttujan vaihtelu, residual, error term)

YHTEYDEN SUUNTA y y * * y=a-bx+e y=a+bx+e * * * * * * * * e * * * * *

REGRESSIOMALLI USEALLE SELITTÄJÄLLE y = a + b1x1+ b2x2 + … bixi + e, missä selittäviä muuttujia on i kappaletta

REGRESSIOANALYYSIN MERKITYS Regressiokerroin kertoo, kuinka paljon yhden yksikön suuruinen muutos selittä-vässä muuttujassa vaikuttaa selitettävään muuttujaan Standardoidun regressiokertoimen avulla voidaan verrata muuttujien suhteellista selityskykyä, mutta vain kyseisessä aineistossa Saadaan tietoa yksittäisen selittävän tekijän merkityksestä, kun muiden selittäjien vaikutus on otettu huomioon

KERROINTEN ESTIMOINTI Etsitään havaintoaineistoon parhaiten sopiva malli (the line of best fit) = kaikki havaintojen poikkeamat suorasta minimoitu Pienimmän neliösumman menetelmä (PNS, least squares) – virheiden neliöt e2 mahdollisimman pienet Jos regressiokerroin on nolla, selittäjän ja selitettävän välillä ei ole yhteyttä

SELITETTÄVÄN JA SELITTÄVIEN MUUTTUJIEN YHTEYDEN MITTALUVUT Regressiokerrointen ”hyvyyttä” (= selit-täjän merkitystä) testataan t-testillä kerroin jaetaan varianssillaan Korkea t-arvo (noin 2 tai suurempi) tai p<0.05 => selittäjä käyttökelpoinen Ei vielä kerro selittäjän selitysvoimasta

MALLIN RAKENTAMINEN – LISÄÄVÄ MENETTELY Menettely selittäjien lisäämiseksi (forward selection) ensin valitaan selittäjä, jolla yksinään suurin selitysvoima tämän jälkeen vuorollaan ne, joilla eniten lisäselitysvoimaa ja jotka parantavat mallin selitysosuutta tilastollisesti merkitsevästi multikollineaarisuus ei ongelma

MALLIN RAKENTAMINEN – POISTAVA MENETTELY Menettely selittäjien poistamiseksi (backward elimination) selittäjien joukosta poistetaan yksi kerrallaan selitysvoimaltaan heikoin jäljelle jääneet ja selitysvoimaltaan tilastollisesti merkitsevät muuttujat muodostavat parhaan mallin => Onko malli mielekäs teoreetti-sesti ?

MALLIN RAKENTAMINEN – ASKELTAVA MENETTELY Askeltava menettely (stepwise selection) yhdistää lisäävän ja poista-van menettelyn Muuttujia lisätään ja poistetaan mallin sovituksen kuluessa Voidaan myös pakottaa halutut selittä-jät malliin (forsing) Monien menettelyjen vertaaminen parhaan tuloksen saavuttamiseksi

MALLIN SOPIVUUDEN ARVIOINTI Varianssianalyysilla (F-testi) testataan, onko kyseinen regressiomalli käyttökelpoinen vastemuuttujan vaihtelun selittämiseksi Testaa, ovatko kaikki regressiokertoimet nollia vai eivät Jos koko mallin merkitsevyys on suuri, yleensä myös yksittäisten selittäjien merkitsevyys on suuri Mallin sopivuutta kutsutaan mallin hyvyydeksi (the goodness of fit)

SELITYSASTE Multippelikorrelaatiokerroin R (multiple correlation) eli havaittujen ja mallin avulla ennustettujen y-muuttujan arvojen välinen korrelaatio R2 * 100 = mallin selitysaste (determinaatio-kerroin kertoo, kuinka monta prosenttia malli pystyy selittämään vastemuuttujan vaihtelusta R2 =regressiomallin selittämä osuus vasteen vaihtelusta jaettuna selittymättömällä osalla R2adj = korjattu selitysaste – ottaa huomioon muuttujien määrän ja otoskoon => kahden analyysin vertailu mahdollista

DIAGNOSTIIKKA Jäännösten normaalisuus eli asettuvatko suoralle kuviossa ”normal probability plot” Jäännösten jakauman tasaisuus (varianssien yhtäsuuruus) eli homoskedastisuus kuvioista, joissa kuvataan (standardoidut) jäännökset ja (standardoidut) ennustearvot sekä jäännökset ja kunkin yksittäisen selittävän muuttujan arvot (scatter plot) jos kuviossa esiintyy selkeää rakennetta, oletus ei pidä paikkaansa Muuttujamuunnokset mahdollisena ratkaisuna

OUTLIER-ARVOT Ongelmien taustalla saattaa olla outlier-arvoja eli muista havainnoista suuresti poikkeavia ja harhaa aiheutta-via arvoja Löytämiseen tapauskohtainen kuvio (casewise plot) Voidaan poistaa havainnot, joilla standardoidut jäännökset ovat suuria => analyysin suorittaminen uudelleen