TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT Jouni Peltonen, 2016 jouni.peltonen@oulu.fi ktk331 Jouni Peltonen
Miten kurssi suoritetaan, perustapaus: -TA-luentosarja ja harjoitusryhmät suoritetaan yhtenä kokonaisuutena (3 op) tekemällä joukko tilastoaineiston analyysiin liittyviä tehtäviä -analyysitehtäviä ja vuokaaviotehtävä Jouni Peltonen
Jos suoritat vain TA-luentosarjan (-02) -tee ensimmäisen pienryhmäkerran tehtävä- Kokonaisuus ja -joukko luentosarjaan perustuvia analyysitehtäviä ja vuokaaviotehtävä Jos suoritat vain harjoitusryhmät -tee joukko tietokonepohjaisia analyysitehtäviä Jouni Peltonen
-yksiulotteisen jakauman kuvaaminen TA-luentosarja: -johdanto -yksiulotteisen jakauman kuvaaminen -kaksiulotteisen jakauman kuvaaminen -tilastollisen päättelyn perusteita -estimointi -tilastollinen testaus Jouni Peltonen
(1) tietojen hankinnan suunnittelu ja toteuttaminen, 1. JOHDANTO 1.1 Mitä tilastotiede on Empiirinen tutkimus: (1) tietojen hankinnan suunnittelu ja toteuttaminen, (2) aineiston analysointi, joka voidaan jakaa kahteen tilastotieteen osa-alueeseen (a) kuvailu ja (b) päättely ja (4) tulosten esittäminen. Jouni Peltonen
2. OTANTA JA OTANTAMENETELMÄT 2.1. Otantaan liittyvät peruskäsitteet 2.1. Otantaan liittyvät peruskäsitteet -perusjoukko eli populaatio (population) -kokonaistutkimus ja otantatutkimus -otos (sample) ja otanta (sampling) -näyte Jouni Peltonen
2. OTANTA JA OTANTAMENETELMÄT 2.1. Otantaan liittyvät peruskäsitteet 2.1. Otantaan liittyvät peruskäsitteet -perusjoukko eli populaatio (population) -kokonaistutkimus ja otantatutkimus -otos (sample) ja otanta (sampling) -näyte Jouni Peltonen
(1) perusjoukko on hyvin suuri tai ääretön, Otantatutkimus, jos (1) perusjoukko on hyvin suuri tai ääretön, (2) koko perusjoukon tutkiminen maksaisi liikaa, kestäisi pitkään tai olisi liian monimutkaista (3) mittaus tuhoaa tutkittavat yksiköt ja/tai (4) ei-otantavirheet saadaan näin pienenemään Edustava otos ja harhainen otos, demonstraatio Jouni Peltonen
Edustavuusanalyysi, esimerkki: Jouni Peltonen
Edustavuusanalyysi, esimerkki: Jouni Peltonen
2.3.1. Yksinkertainen satunnaisotanta (YSO) (Simple random sampling) 2.3. Otantamenetelmät 2.3.1. Yksinkertainen satunnaisotanta (YSO) (Simple random sampling) Esimerkki YSO:sta: Jouni Peltonen
2.3.2. Systemaattinen otanta (SO) (systematic sampling) Esimerkki SO:sta: Jouni Peltonen
Aloituskohta arvotaan koko listasta 1. poimintavälistä. k = N/n = 12/4 = 3, joka kolmas havainto- yksikkö poimitaan. Aloituskohta arvotaan koko listasta 1. poimintavälistä. Nimi Poiminta A B C D E F G H 9. I J 11. K 12. L Jouni Peltonen
Nimi Poiminta A B C D E F G H 9. I J 11. K 12. L Jouni Peltonen
Nimi Poiminta A B X C D E F G H 9. I J 11. K 12. L Jouni Peltonen
X A B C D E F G H 9. I J 11. K 12. L MIHIN TÄTÄ ENÄÄ TARVITAAN? Nimi Poiminta A B X C D E F G H 9. I J 11. K 12. L MIHIN TÄTÄ ENÄÄ TARVITAAN? Jouni Peltonen
Nimi ja ikä Poiminta A 18 B 21 X C 22 D 25 E 29 F 32 G 37 H 41 9. I 45 J 50 11. K 55 12. L 62 Jouni Peltonen
2.3.3. Ositettu otanta (OO) (stratified sampling) Tasainen kiintiöinti Tasainen kiintiöinti Jokaisesta ositteesta poimitaan otokseen yhtä monta havaintoa eli n1 = n2 = ... = nL = n/L. Esimerkki: Jouni Peltonen
2.3.3. Ositettu otanta (OO) (stratified sampling) Tasainen kiintiöinti Tasainen kiintiöinti Jokaisesta ositteesta poimitaan otokseen yhtä monta havaintoa eli n1 = n2 = ... = nL = n/L. Esimerkki: Jouni Peltonen
Suhteellinen kiintiöinti Suhteellinen kiintiöinti Ositteiden otoskoot määrätään perusjoukon suhteessa. Suuresta ositteesta valitaan suuri otos ja pienestä ositteesta pieni. Ositteen i otoskoko voidaan määrätä seuraavalla kaavalla: Jouni Peltonen
Esimerkki: N = 7000 n = 300 L1: N1 = 379 L2: N2 = 6621 Jouni Peltonen
Otos, suhteellinen kiintiöinti: Perusjoukko: Otos, suhteellinen kiintiöinti: Otos, tasainen kiintiöinti: Jouni Peltonen
2.3.4. Ryväsotanta (RO) (cluster samplig) Poiminta on yksi- tai monivaiheista: (1) Valitaan havaintoyksikköä suurempia kokonaisuuksia ja tutkitaan näin saatuihin ryppäisiin kuuluvat havaintoyksiköt tai (2) Valitaan suurempia kokonaisuuksia (esimerkiksi kouluja, koululuokkia) ja tämän jälkeen suoritetaan valituksi tulleiden ryppäiden sisällä uusi varsinaisiin havaintoyksikköihin kohdistuva otanta. Jouni Peltonen
Esimerkki: N = 500, IQ kiinnostaa Jos YSO, n = 30 Jos ryväsotanta, neljä ryvästä, n 100 ͌ Jouni Peltonen
Poimitaan neljä arvottua ryvästä: 1) Jos ryvästyminen on tutkittavien ominaisuuksien suhteen sattumavaraista Poimitaan neljä arvottua ryvästä: vrt. Jouni Peltonen
Poimitaan neljä arvottua ryvästä: 2) Jos ryvästyminen ei ole tutkittujen ominaisuuksien suhteen sattumanvaraista: Poimitaan neljä arvottua ryvästä: vrt. Jouni Peltonen
3.TAUSTAA Kvantitatiivisen/ tilastollisen aineiston ANALYYSILLE 3.1. Mittaus ja mitta-asteikot Havainto- tai tilastoyksikkö, tilastollinen muuttuja ja mittaus Jouni Peltonen
-havainnointi on mittausta -havainnointi on mittausta -mittauksen kohde on havainto- tai tilastoyksikkö ai, erityisesti jokin siihen liittyvä ominaisuus x, y, z, … Näitä ominaisuuksia kutsutaan tilastollisiksi muuttujiksi. -mittaustapahtumassa tilastoyksikön ai ominaisuuteen eli tilastolliseen muuttujaan xj liitetään mittaluku tai mittasymboli xij. Jouni Peltonen
-esimerkkejä mittaustapahtumasta: -esimerkkejä mittaustapahtumasta: Jouni Peltonen
Mittaustulokset kootaan yleensä havaintomatriisiin: Mittaustulokset kootaan yleensä havaintomatriisiin: Jouni Peltonen
-mittari eli mittafunktio: -sääntö tai sääntökokoelma, ohje, neuvo -mittari eli mittafunktio: -sääntö tai sääntökokoelma, ohje, neuvo Jouni Peltonen
Mitta-asteikot Jouni Peltonen
(A) luokitteluasteikko: (A) luokitteluasteikko: Jouni Peltonen
(B) Järjestysasteikko: (B) Järjestysasteikko: Jouni Peltonen
Esimerkki 3. 5, sidoksen käsite Esimerkki 3.5, sidoksen käsite. On mitattu järjestysasteikollinen tuntiaktiivisuus-muuttuja, tehdään raaka-arvoille muunnos järjestysluvuiksi: Jouni Peltonen
Esimerkki 3. 5, sidoksen käsite Esimerkki 3.5, sidoksen käsite. On mitattu järjestysasteikollinen tuntiaktiivisuus-muuttuja, tehdään raaka-arvoille muunnos järjestysluvuiksi: R(x) (x) 4,5 3 1,5 1,5 6 4,5 7 8,5 8,5 Jouni Peltonen
(C) Välimatka-asteikko: (C) Välimatka-asteikko: Jouni Peltonen
(C) Suhdeasteikko ja absoluuttinen asteikko: (C) Suhdeasteikko ja absoluuttinen asteikko: Jouni Peltonen
-"suhdesuureet", pinta-ala jne. johdetut suureet: -"suhdesuureet", pinta-ala jne. -myös summamuuttujaa voi ajatella johdettuna suureena! Moniulotteiset suureet eli vektorisuureet Joissain tapauksissa mittaustaso voi asettua edellä esitettyjen asteikkojen väliin! Erityiskysymys: Likert-skaalan tuottaman aineiston mitta-asteikko? Jouni Peltonen
4. MUUTTUJIEN KUVAAMINEN 4. MUUTTUJIEN KUVAAMINEN Huomio: kaikki empiirinen "tieto" on jo olemassa havaintomatriisissa! Jouni Peltonen
Jouni Peltonen
Miten valita tilastollinen/graafinen esitystapa? Miten valita tilastollinen/graafinen esitystapa? (1) mitä taulukon tai kuvion avulla halutaan sanoa ja (2) mille mittaustasolle tai mitta-asteikoille sopii mikäkin esitys. Jouni Peltonen
4.1.1. Yksiulotteinen frekvenssijakauma eli suora jakauma 4.1.1. Yksiulotteinen frekvenssijakauma eli suora jakauma Tiettyyn luokkaan Ei kuuluvaa havaintojen lukumäärää kutsutaan frekvenssiksi ja merkitään fi. Jouni Peltonen
Jouni Peltonen
Esimerkki: Seuraava aineistossa on esitetty erään opiskelijajoukon tilanne opintojen valmistumisen suhteen (0 = keskeytti opinnot, 1 = valmistui ja 2 = muu tilanne): 0 0 0 0 0 1 1 1 1 1 2 2 2 Jouni Peltonen
Kysymys: frekvenssitaulu antaa ilman muuta nopeamman yleiskuvan kuin matriisi tai vastaava, mutta samalla menetetään informaatiota. Mitä menetettiin? Jouni Peltonen
Esimerkki 4.2. Seuraava aineisto on eräälle kurssille osallistuneiden opiskelijoiden iät. 17 17 18 18 18 19 19 19 19 22 24 26 27 28 28 28 28 29 29 31 31 32 32 35 35 Luokitus voi olla (1) tasavälinen Jouni Peltonen
Luokitus voi olla Tasavälinen Luokitus voi olla Tasavälinen Add 1. Miten saadaan alkuperäisestä kvantitatiivisesta aineistosta tasavälinen luokitus halutulla luokkien lukumäärällä? (Keinänen 2008) Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Luokkavälin pituus luokituksessa voidaan laskea Luokkavälin pituus luokituksessa voidaan laskea (4.1.) ci = luokan Ei todellinen yläraja - luokan Ei todellinen alaraja. Esim. c1 = 20,5 - 16,5 = 4 Luokan Ei todellinen luokkakeskus xi määrätään pyöristetyn ylärajan ja alarajan keskiarvona: Jouni Peltonen
(4.2.) xi = ½ ( luokan Ei yläraja + luokan Ei alaraja) (4.2.) xi = ½ ( luokan Ei yläraja + luokan Ei alaraja) Esim. x1 = ½ ( 20 + 17) = ½ 37 = 18,5. Jouni Peltonen
Taulukko 4.2. Kurssille osallistuneiden opiskelijoiden iän frekvenssijakauma Jouni Peltonen
Jouni Peltonen
Varoitus: luokitusta voi käyttää tulosten manipulointiin! Varoitus: luokitusta voi käyttää tulosten manipulointiin! Huomio: luokitus - pyöristys - mittaustarkkuus Jouni Peltonen
Luokkien sopiva lukumäärä? Luokkien sopiva lukumäärä? Jouni Peltonen
Luokkien sopiva lukumäärä? Luokkien sopiva lukumäärä? Jouni Peltonen
Suhteellinen frekvenssi fi/n on frekvenssin fi osuus kaikista muuttujan saamista arvoista: Tavallisesti suhteelliset frekvenssit esitetään prosentteina (100 % fi). Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
4.1.2. Yksiulotteisen frekvenssijakauman graafisesta kuvaamisesta Pylväsdiagrammi Jouni Peltonen
Jouni Peltonen
ja korkeuksina vastaavat frekvenssit fi. Histogrammi Histogrammi muodostuu suorakulmioista, joiden kantojen kärkipisteinä ovat todelliset luokkarajat , i = 1, 2, …, l ja korkeuksina vastaavat frekvenssit fi. Jouni Peltonen
Jouni Peltonen
Add. Histogrammi vs. Pylväsdiagrammi Add. Histogrammi vs. Pylväsdiagrammi Muuttuja x1 on saatu arpomalla z-jakaumasta arvoja. Jouni Peltonen
Pylväsdiagrammi Histogrammi Jouni Peltonen
Jouni Peltonen
4.1.3. Yhden muuttujan tilastollisesta kuvaamisesta - empiirisen jakauman tunnuslukuja Jouni Peltonen
Jouni Peltonen
(B) Mediaani (Md) on keskimmäinen havaintoarvo (tai sitä vastaava ekvivalenssiluokka) järjestetyssä havaintojoukossa, kun havaintojen määrä n on pariton. Jos n on parillinen, mediaani on jompikumpi keskimmäisistä arvoista tai (vähintään välimatka-asteikolla) niiden keskiarvo. Jouni Peltonen
Jouni Peltonen
(C) Fraktiilit, laatikko-janakuvio: -mediaani on 50 % fraktiili. -yleisesti p-prosentin fraktiili xp jakaa järjestetyn havaintoaineiston kahteen osaan siten, että korkeintaan fraktiilin xp suuruisia havaintoja on p % kaikista havainnoista 25 % fraktiilia kutsutaan alakvartiiliksi (merkitään Q1) 75 % fraktiili on nimeltään yläkvartiili (merkitään Q3). Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Desiilit ovat 10 %, 20 %, ..., 90% fraktiileja. Desiilit ovat 10 %, 20 %, ..., 90% fraktiileja. Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
(C) Aritmeettinen keskiarvo (M, ) , , (C) Aritmeettinen keskiarvo (M, ) Kysymys: mitä aritmeettinen keskiarvo muuttujan jakaumasta kertoo? Jouni Peltonen
Jouni Peltonen
Leikattu keskiarvo, Winsoroitu keskiarvo ja ( , , Leikattu keskiarvo, Winsoroitu keskiarvo ja muut robustit keskiarvoestimaattorit Esimerkki: Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Figure 7. Mean and standard deviation of male and female subjects in IQ (RPM) Jouni Peltonen
Figure 7. Distributions of male and female subjects in IQ (RPM) Figure 7. Distributions of male and female subjects in IQ (RPM) Jouni Peltonen
Figure 8. Pre-treatment and post-treatment means of IQ Jouni Peltonen
Hajontaluvut Miksi hajonnan mittaaminen tieteellisessä tutkimuksessa Miksi hajonnan mittaaminen tieteellisessä tutkimuksessa on vähintään yhtä tärkeää kuin jakauman sijainnin? Jouni Peltonen
Luokitteluasteikolle sopivia hajontalukuja: entropia ja entropiasuhde, laadullisen vaihtelun indeksi (B) Vähintään järjestysasteikolle sopivia hajonnan mittoja: (C) Vähintään intervalliasteikolle sopivia hajonnan mittoja: Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Esimerkki: keskipoikkeaman, otosvarianssin ja otoskeskihajonnan laskeminen Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Momentit, vinous ja huipukkuus Momentit, vinous ja huipukkuus Muuttujan x k:s momentti origon suhteen eli origomomentti on Muuttujan x k:s keskusmomentti eli momentti keskiarvon suhteen on Jouni Peltonen
Kuvio 4.16. Oikealle vino eli positiivisesti vino jakauma Kuvio 4.16. Oikealle vino eli positiivisesti vino jakauma Jouni Peltonen
Kuvio 4.17. Vasemmalle vino eli negatiivisesti vino jakauma Kuvio 4.17. Vasemmalle vino eli negatiivisesti vino jakauma Jouni Peltonen
Vinousmittoja: Jouni Peltonen
Huipukkuus ja huipukkuusmitat: Platykurtinen Leptokurtinen (normaali- Platykurtinen (normaali- jakaumaa latteampi/ laakeampi) Leptokurtinen (normaali- jakaumaa huipukkaampi) Mesokurtinen (normaalijakauma) Jouni Peltonen
Esimerkki: Tarkastellaan empiirisen muuttujan jakauman vinoutta ja huipukkuutta. Kuvio 4.14. Läheisesti normaalijakaumaa noudattavan muuttujan histogrammi Jouni Peltonen
Esimerkki: Tarkastellaan empiirisen muuttujan jakauman vinoutta ja huipukkuutta. Jouni Peltonen
4.2. Kaksiulotteisen jakauman (kahden muuttujan) kuvaaminen Kaksiulotteisen jakauman käsite Jouni Peltonen
4.2. Kaksiulotteisen jakauman (kahden muuttujan) kuvaaminen Kaksiulotteisen jakauman käsite Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Muuttujaparin (x, y) kaksiulotteisella empiirisellä jakaumalla Muuttujaparin (x, y) kaksiulotteisella empiirisellä jakaumalla tarkoitetaan taulukkoa Jouni Peltonen
Luokitteluasteikollisten muuttujien kaksiulotteinen kuvaaminen
Jouni Peltonen
Kysymys: mitä keskeistä taulukosta havaitaan ehdollisia prosentuaalisia osuuksia tarkastelemalla?
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Luokitteluasteikolliset muuttujat: kontingenssitauluun perustuvat riippuvuusluvut Jouni Peltonen
Jouni Peltonen
Tehtävä: laske edellisen esimerkin Khiin neliö –arvon perusteella C:n Tehtävä: laske edellisen esimerkin Khiin neliö –arvon perusteella C:n arvo esimerkkiaineistossa. Jouni Peltonen
Vähintään järjestysasteikolliset muuttujat Jouni Peltonen
Jouni Peltonen
Kysymys: Mitä Spearmanin järjestyskorrelaatiokerroin ilmaisee? Mitä kaavassa "tapahtuu"? Jouni Peltonen
Vähintään välimatka-asteikolliset muuttujat Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Kysymys: Mitä Pearsonin tulomomenttikorrelaatio- Kysymys: Mitä Pearsonin tulomomenttikorrelaatio- kerroin ilmaisee? Mitä kaavassa "tapahtuu"? Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Korrelaatiokertoimien tulkinnasta ja käyttämisestä (1) mitta-asteikot; (1) mitta-asteikot; (2) Jos rxy = 0, on silti mahdollista, että x-y (3) kaksiulotteiset outlier-arvot: Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
(4) Ryhmien yhdistäminen ja erottaminen: Jouni Peltonen
(4) Huomio: tutkimusongelmat voivat olla myös muotoa (4) Huomio: tutkimusongelmat voivat olla myös muotoa ”Miten x:n ja y:n yhteydet eroavat toisistaan ryhmissä 1, 2, …, k? ”Miten z moderoi x:n ja y:n yhteyttä?” ”Miten z:n tavat moderoida x:n ja y:n yhteyttä eroavat toisistaan ryhmissä 1, 2, …, k?” Jouni Peltonen
(4) Ryhmien yhdistäminen ja erottaminen: (5) Muuttujien mittayksiköt ja niiden vaihtelun määrä vaikuttavat diagrammiin (6) Vain Pearsonin tulomomenttikorrelaatiokerroin on perusjoukon korrelaatiokertoimen estimaattori. (7) Kahden muuttujan välinen korkea korrelaatio ei osoita kausaalisuhdetta. Miksi ei? Jouni Peltonen
Esimerkki 5.7. Keskustan pysäkiltä lähtee linja-autoja linnanmaalle 10 minuutin välein. Pysäkille saapuvan matkustajan minuutteina ilmoitettu odotusaika on satunnaismuuttuja, jonka arvona voi olla mikä hyvänsä välillä [0, 10[ oleva reaaliluku. Jos matkustaja ei tunne aikataulua, ovat kaikki odotusajat (ainakin matkustajan subjektiivisesta näkökulmasta) yhtä mahdollisia. Jakaumaa voidaan tällöin kuvata funktiolla, joka saa vakioarvon a välillä [0, 10[. Vakion a arvoa määriteltäessä otetaan lähtökohdaksi mahdollisten odotusaikojen muodostama väli [0, 10[. Tämän ja suoran pi = a väliin jää suorakulmion muotoinen alue, jonka pinta-ala asetetaan vastaamaan varman tapauksen todennäköisyyttä (1). Täten 10 a = 1, josta a = 1/10. Näin saatu funktio f(x) = 1/10, kun 0 x < 10 on kyseisen satunnaismuuttujan tiheysfunktio.
Pyöristyksistä:
Olkoon koeryhmä 1 ja kontrolliryhmä 2. Jokaiselle näiden Olkoon koeryhmä 1 ja kontrolliryhmä 2. Jokaiselle näiden ryhmien jäsenelle lasketaan erotuspistemäärä d lopputestin ja alkutestin erotuksena. Testauskelpoiset tilastolliset Hypoteesit voidaan nyt muotoilla esimerkiksi seuraavasti: H0: d1 ≤ d2 H0: d1 > d2