RYHMIEN VERTAILU Jouko Miettunen 19.11.2012
KAHDEN RYHMÄN VERTAILU
Luennon sisältö Luokitellut muuttujat Ristiintaulukko, prosentit Khiin neliötesti (2-testi) Jatkuvat muuttujat Keskiarvo, t-testi Mediaani, Mann-Whitneyn U-testi
Tutkimusongelma Verrataan 2 eri ryhmää tai käsittelyä sukupuoli, hoitomuoto, opetusmenetelmä, taustatekijä, riskitekijä, sairas/terve, ... ryhmä i = (kuvitteellinen) populaatio, joka koostuu kaikista (henkilöt tms.) käsittelyn i saaneista tilastoyksiköistä (i = 1 tai 2) Testattava nollahypoteesi H0: tutkittava ominaisuus (vastemuuttuja) on jakautunut kahdessa ryhmässä samalla tavalla (ts. ei eroa)
Menetelmän valinta (2 ryhmää) EI, koska laatua mittaava vaste EI, koska vasteen jakauma hyvin vino Voiko keskiarvoa käyttää? Kyllä Ristiintaulukko - prosentit - khiin neliötesti Vertaile keskiarvoja ryhmien välillä - kahden riippumattoman ryhmän t-testi Ilmoita mediaanit - parametriton testi: Mann-Whitneyn testi
Kahden ryhmän vertailu Olkoon X1 = tutkittava ominaisuus osajoukossa 1 ja X2 = tutkittava ominaisuus osajoukossa 2 Käytettävät menetelmät 2 –testi luokkamuuttujille t-testi (symmetrinen jakauma) parametriton Mann-Whitneyn testi (vino jakauma)
Jatkuva vai luokiteltu muuttuja? Ilmiöt ovat usein jatkuvia, muuttujat kuitenkin usein luokiteltuja Luokittelemalla menetetään tietoa selkeytetään tulosten esittämistä Analyysimenetelmät erilaisia
Luokitellut muuttujat
Suhteellisten osuuksien vertailu Esimerkki: Koulumenestyksen yhteys itsemurhaan psykoottisilla ja ei-psykoottisilla (Pohjois-Suomen vuoden 1966 Syntymäkohortti, 35-vuotisseuranta ) Alaräisänen ym. Good school performance is a risk factor of suicide in psychoses: a 35-year follow up of the Northern Finland 1966 Birth Cohort. Acta Psychiatr Scand 2006; 114: 357-62.
Ristiintaulukkona Tilastollinen testi on khiin neliötesti SPSS: Analyze > Descriptive statistics > crosstabs (statistics -> Chi-square)
2 -TESTI Voidaanko ristiintaulukon ehdollisten prosenttijakaumien ero selittää satunnaisvaihtelun aiheuttamaksi? Testin nollahypoteesi on muotoa H0: Tutkittavan muuttujan jakaumat ovat samat eri osajoukoissa Testisuureena käytetään ristiintaulukosta laskettavaa 2 –testiä tai Fisherin testiä
SPSS: Analyze > Descriptive statistics > crosstabs (statistics -> Chi-square)
Esimerkki Pohjois-Suomen 1966 syntymäkohortti Äidin raskauden aikaisen tupakoinnin yhteys luokiteltuun syntymäpainoon
c2 –testi: syntymäpaino kaksiluokkaisena Pienille otoksille (Jos väh. 20 prosentissa soluista odotettu arvo on alle 5) Fisherin testi
c2 –testi: syntymäpaino kolmeluokkaisena
Jatkuvat muuttujat
Keskiarvo vai mediaani? Keskiarvo soveltuu likimain normaalijakautuneelle aineistolle Mikäli aineistossa on paljon poikkeavia arvoja tai se on huomattavan vino, mediaani kuvaa muuttujan jakaumaa paremmin
Normaaliuden arviointi Mikäli mediaani ja keskiarvo eroavat huomattavasti toisistaan, jakauma ei ole normaalijakautunut Huipukkuus (kurtosis) ja vinous (skewness) kuvaavat normaalisuutta Erilaisia tilastollisia testejä normaalisuudelle, visuaalinen arvio on kuitenkin tärkeä (histogrammit ym.)
Muuttujien erilaisia jakaumia B on normaalijakautunut. A on positiivisesti huipukas jakauma C negatiivisesti huipukas jakauma Havainnot ovat kasaantuneet oikealle (jakauma on negatiivisesti vino eli vino vasemmalle)
Esimerkki: kouluarvosana SPSS: analyze > descriptive statistics > frequencies > charts / histogram
Arvosana sukupuolen mukaan
Määrää mittaava symmetrinen vaste Vertaile keskiarvoja ryhmissä Tilastollisen merkitsevyyden arvionti Kahden ryhmän tapauksessa kahden riippumattoman ryhmän t-testi SPSS: Analyze > Compare Means > Independent-Samples T-Test
Kahden riippumattoman ryhmän keskiarvojen t-testi Vertaillaan yhden ominaisuuden (muuttujan) keskiarvoja kahdessa eri perusjoukossa tai osajoukossa. Tutkittavan muuttujan oletetaan noudatettavan normaalijakaumaa Tietojenkäsittelyä varten tarvitaan lisäksi muuttuja, joka ilmaisee kummassa osajoukossa mittaus on tehty. Se on ns. ryhmittelymuuttuja (Grouping Variable).
t-testin hypoteesit H0: Tutkittavan ominaisuuden keskiarvo (odotusarvo) on yhtä suuri osajoukoissa 1 ja 2. H1: Tutkittavan ominaisuuden keskiarvot ovat erisuuret osajoukoissa 1 ja 2
Testisuureen kaavat Testisuureen havaittu arvo voidaan laskea kahdella eri kaavalla kaava A kaava B Kaavassa (A) oletetaan, että hajonta on osajoukoissa saman suuruinen eli tutkittavan ominaisuuden varianssit ovat yhtä suuret Kaavassa (B) tätä oletusta ei tehdä
Esimerkki: Pohjois-Suomen 1985-1986 syntymäkohortti
SPSS: Analyze > Compare Means > Independent-Samples T-Test
SPSS- tulostus Esimerkki: hajonnat eri suuret (kaava B)
Parametrittomat menetelmät Käytetään kun keskiarvo ei ole sopiva tutkittavan jakauman tunnusluku vino jakauma muista poikkeavat havainnot Ei tehdä oletuksia muuttujien todennäköisyysjakaumista parametriton = jakauman muodon määräävistä parametreistä ei lausuta mitään
Mann-Whitneyn U testi Verrataan tutkittavan ominaisuuden jakaumaa kahdessa ryhmässä Oletetaan, että tutkittava ominaisuus on mitattu vähintään järjestysasteikolla Testi on tarkka, jos ominaisuus on määrää mittaava Menetelmä perustuu havaintojen järjestyslukujen vertailuun (yhdistetyssä otoksessa)
Mann-Whitneyn testin hypoteesit H0: Tutkittavan ominaisuuden jakaumat ovat samat vertailtavissa ryhmissä H1: Tutkittavan ominaisuuden jakaumat eroavat sijainniltaan
Määrää mittaava vino vaste Ilmoita mediaanit ryhmittäin SPSS: Analyze > Descriptive Statistics > Explore Tilastollisen merkitsevyyden arvionti Kahden ryhmän tapauksessa Mann-Whitneyn testi SPSS: Analyze > Nonparametric Tests > Legacy dialogs > Two Independent Samples
Mann-Whitneyn testin esimerkki rank ALLERGIKOT EI ALLERGIAA 7 31,0 4,7 1 11 39,6 5,2 2 16 64,7 6,6 3 17 65,9 18,9 4 18 67,6 27,3 5 19 100,0 29,1 6 20 102,4 32,4 8 21 1112,0 34,3 9 22 1651,0 35,4 10 41,7 12 45,5 13 48,0 14 48,1 15 Tutkitaan yskösten histamiinipitoisuutta Aineisto koostui 22 tupakoijasta 9 allergikkoa 13 oireetonta
Mediaanien vertailu: Mann-Whitneyn U-testi
Box-plot
Esimerkkejä Bottlender et al. Eur Arch Psychiatry Clin Neurosci (2002) 252: 226–231
Esimerkki Koponen ym. Suomen Lääkärilehti 2009 2 –testi Fisherin eksakti testi
Lääketieteen opiskelijoiden mielenterveyskysely LK Kaisa-Maria Eronen ja LK Ville Saari Syventävien opintojen tutkielma Psykiatrian klinikka, Oulun yliopisto 2011 Lääketieteen opiskelijoiden mielenterveyskysely Yleisen lääketieteen 1. (n=101) ja 6. (n=103) vuoden opiskelijoiden SCL:n keskiarvot Studentin t test
Lääketieteen opiskelijoiden mielenterveyskysely LK Kaisa-Maria Eronen ja LK Ville Saari Syventävien opintojen tutkielma Psykiatrian klinikka, Oulun yliopisto 2011 Lääketieteen opiskelijoiden mielenterveyskysely Kliinisen vaiheen lääketieteen (n=232) ja hammaslääketieteen (n=107) opiskelijoiden SCL-keskiarvot Studentin t test
Lääketieteen opiskelijoiden mielenterveyskysely LK Kaisa-Maria Eronen ja LK Ville Saari Syventävien opintojen tutkielma Psykiatrian klinikka, Oulun yliopisto 2011 Lääketieteen opiskelijoiden mielenterveyskysely Opiskelun vaikutus elämänlaatuun Chi2 = 14.312, P=0.074 Chi2 = 29.145, P<0.001
USEAN RYHMÄN VERTAILU
Usean ryhmän vertailu Potilasryhmä Ikäryhmä Koulutusaste Sairaala Siviilisääty Hoitomenetelmä
VASTEMUUTTUJAN TYYPIT Vastemuuttujan tyyppi ratkaisee menetelmän valinnassa Luokkamuuttuja hoito, siviilisääty, jne. Jatkuva muuttuja Pituus, verenpaine, jne. Oireiden lukumäärä Hoitopäivien lukumäärä
95% Confidence Interval for Mean Descriptives Symptom Checklist (SCL-25) masennuspisteet N Mean Std. Deviation Std. Error 95% Confidence Interval for Mean Minimum Maximum Lower Bound Upper Bound married 3958 1,32 ,330 ,005 1,31 1,33 1,00 3,85 cohabiting 1988 1,35 ,362 ,008 1,34 1,37 4,00 single 1851 1,42 ,408 ,009 1,40 1,44 3,92 divorced, separated 351 1,56 ,494 ,026 1,51 1,61 3,69 widow 4 1,73 ,549 ,274 ,85 2,60 1,38 2,54 Total 8152 1,36 ,370 ,004
Menetelmän valinta (>2 ryhmää) EI, koska laatua mittaava vaste EI, koska vasteen jakauma hyvin vino Voiko keskiarvoa käyttää? Kyllä Ristiintaulukko - prosentit - khiin neliötesti Vertaile keskiarvoja ryhmien välillä - varianssianalyysi Ilmoita mediaanit - parametriton testi: Kruskal-Wallisin testi
VASTE ON LUOKKAMUUTTUJA Muodosta ristiintaulukko ryhmittelumuuttujan kanssa SPSS komento: Analyze- Descriptive Statistics - Crosstabs … Muista prosentit Tilastollisen merkitsevyyden arvionti 2 -testi (Chi square) Fisherin testi pienillä aineistoilla pitää erikseen pyytää Exact –napin kautta
Analyze > Descriptive Statistics > Crosstabs
Esimerkki: Pohjois-Suomen 1966 syntymäkohortti Tutkitaan lapsuuden (14v.) sosiaaliluokan yhteyttä kahvin ja teen juontiin aikuisena (31v.) Sosiaaliluokka jaettu ammatin mukaan kolmeen luokkaan korkea (I, II), matala (III, IV) ja maanviljelijät (V) kahvin ja teen juonti neljään luokkaan vain kahvia, vain teetä, molempia, ei kumpaakaan
tea and coffee drinking Esimerkki: Pohjois-Suomen 1966 syntymäkohortti tea and coffee drinking
Khin neliötestin p-arvot
Kasanen J ym. Suomen Lääkärilehti 2011; 33: 2339-2343.
Lääketieteen opiskelijoiden mielenterveyskysely LK Kaisa-Maria Eronen ja LK Ville Saari Syventävien opintojen tutkielma Psykiatrian klinikka, Oulun yliopisto 2011 Lääketieteen opiskelijoiden mielenterveyskysely Opiskelun vaikutus elämänlaatuun Chi2 = 14.312, P=0.074 Chi2 = 29.145, P<0.001
Khii2 testi
MÄÄRÄÄ MITTAAVA SYMMETRINEN VASTE Vertaile keskiarvoja ryhmissä Tilastollisen merkitsevyyden arviointi Kahden ryhmän tapauksessa kahden riippumattoman ryhmän t-testi Jos ryhmiä enemmän kuin kaksi: yksisuuntainen varianssianalyysi SPSS -komento: Analyze - Compare Means - One-Way Anova
YKSISUUNTAISEN VARIANSSI-ANALYYSIN OLETUKSET Tutkittava ominaisuus X noudattaa normaalijakaumaa vertailtavissa osapopulaatioissa. Ominaisuuden varianssi on sama kaikissa osapopulaatioissa. Huom. Levenen testi + vaihtoehtoiset testisuureet Osapopulaatiot ovat toisistaan riippumattomia
YKSISUUNTAISEN VARIANSSI-ANALYYSIN HYPOTEESIT H0: Tutkittavan ominaisuuden Y jakaumat ovat samat eri ryhmissä Ryhmittelymuuttuja ei vaikuta vasteen keskimääräiseen arvoon H1: Ominaisuuden jakaumat poikkeavat keskimääräiseltä arvoltaan osajoukoissa Ryhmittelijä vaikuttaa vasteen keskimääräiseen arvoon Ainakin yksi ryhmä poikkeaa muista
ESIMERKKI VARIANSSIANALYYSISTÄ Tutkitaan Pohjois-Suomen 1966 syntymäkohortissa perhetyypin yhteyttä masennusoireisiin 31-vuotiaana Tutkitaan nollahypoteesia: H0: masennusoireiden keskiarvo on sama eri vastaajaryhmissä Vertailtavat ryhmät: naimisissa, avoliitossa, naimaton, eronnut ja leski
VARIANSSIANALYYSI SPSS:SSÄ Analyze - Compare Means - One-Way Anova
ESIMERKKEJÄ VARIANSSIANALYYSIN TULOSTUKSESTA F testi
VARIANSSITESTIT Varianssit ovat eri suuruisia, eli ei symmetrinen vaste Voi kokeilla Kruskall-Wallisin testiä !
Esimerkki: Pohjois-Suomen 1966 syntymäkohortti Tutkitaan vuodenajan yhteyttä syntymäpainoon Vuodenajat talvi: joulu-helmi kevät: maalis-touko kesä: kesä-elo syksy: syys-marras Syntymäpaino jatkuva normaalijakautunut muuttuja
Esimerkki: Pohjois-Suomen 1966 Syntymäkohortti
Esimerkki Viitasalo ym. Suomen Lääkärilehti 2010
MONITESTAUSONGELMA Mikäli ryhmien välillä on eroa… Mikä ryhmä poikkeaa muista? Onko ryhmien A ja C välillä eroa? Entä ryhmien B ja C?
Esimerkki: Pohjois-Suomen 1966 Syntymäkohortti
Esimerkki, Baldassin et al (2008) Monivertailun p-arvoja Varianssianalyysin p arvo
MÄÄRÄÄ MITTAAVA VINO VASTE Ilmoita mediaanit ryhmittäin SPSS-komento: Analyze - Decriptive Statistics - Explore Tilastollisen merkitsevyyden arvionti Kahden ryhmän tapauksessa Mann-Whitneyn testi Jos ryhmiä enemmän kuin kaksi, niin Kruskal-Wallisin testi SPSS-komento: Analyze - Nonparametric Tests – (Legacy Dialogs) - K Independent Samples
KRUSKAL-WALLISIN TESTIN HYPOTEESIT H0: Tutkittava ominaisuuden jakaumat ovat samat eri ryhmissä H1: Ominaisuuden jakaumat poikkeavat sijainniltaan Keskimääräisessä arvossa on eroa ryhmien välillä Ainakin yksi ryhmä poikkeaa muista
ESIMERKKEJÄ K-W:N TESTISTÄ Tutkitaan SUISIDI aineiston muuttujaa yksityis (potilaan itsemurhan aiheuttama kuormitus hoitohenkilöstön yksityiselämään). Tutkitaan nollahypoteesia: H0: potilaan itsemurhan aiheuttaman yksityiselämän kuormituksen jakauma on sama eri vastaajaryhmissä Vertailtavat ryhmät: psykiatriset hoitajat, psykiatrit, sisätautilääkärit ja tehohoitajat
K-W:N TESTIN TULOSTUS
RAPORTOINTI Box on 25. ja 75. persentiilin väli eli kvartiiliväli (inter-quartile range) Musta viiva on mediaani jos laatikkoa enemmän viivan yläpuolella, jakauma on positiivisesti vino jos laatikko on pieni suhteessa ”viiksien väliin” (”whiskers”), jakauma on pos. huipukas - Poikkeavat havainnot merkataan ympyrällä tai tähdellä - ympyrä: yli 1,5 boxin etäisyydellä ja asteriksi yli 3 boxin etäisyydellä boxin reunasta
ESIMERKKEJÄ K-W:N TESTISTÄ Tutkitaan Pohjois-Suomen 1966 Syntymäkohortissa siviilisäädyn ja masennuksen yhteyttä Tutkitaan nollahypoteesia: H0: masennuksen jakauma on sama eri vastaajaryhmissä Vertailtavat ryhmät: naimisissa, avoliitossa, naimaton ja eronnut
K-W:N TESTIN TULOSTUS
Salokangas ym. Suomen Lääkärilehti 2009 ***Kruskal–Wallisin testi
Teramo ym. Suomen Lääkärilehti 2007
Teramo ym. Suomen Lääkärilehti 2007
Suomen Lääkärilehti 2006
p < 0,05 invasiivisesti hoidetut vs *p < 0,05 invasiivisesti hoidetut vs. konservatiivisesti hoidetut, # < 0,05 pallolaajennushoito vs. uusi ohitusleikkaus.
RIIPPUMATTOMIEN RYHMIEN VERTAILU jouko.miettunen@oulu.fi / www.joukomiettunen.net