Terveys 2000 -tutkimus Otanta-asetelman ja painotuksen huomioon ottaminen analyysissä Yleinen lähdeviite: Laiho, J. & Nieminen, T. (toim.). 2004. Terveys 2000 -tutkimus. Aikuisväestön haastatteluaineiston tilastollinen laatu. Tilastokeskus, Tutkimuksia 239. Kari Djerf 2.3.2004
Sisältö 1. Tutkimusasetelma 2. Otanta-asetelma 3. Vastauskato 4. Aineiston painotus 5. Otanta-asetelman ja painotuksen vaikutuksesta tilastollisiin analyyseihin Kari Djerf 2.3.2004
1. Terveys 2000 -tutkimuksen asetelma T2000 -tutkimus lienee laajin Suomessa toteutettu haastattelu- ja kyselytutkimus Tutkimuskokonaisuus sisältää: T2000 päätutkimuksen (30+ -vuotta täyttänyt väestö) T2000 nuoria aikuisia koskeneen osan (18-29 v.) Mini-Suomi -tutkimuksen seurantatutkimuksen Kari Djerf 2.3.2004
T2000 päätutkimus eli 30+ -v. väestö Kotihaastattelu (keskimäärin 95 min, Tilastokeskuksen haastattelijaorganisaatio) kutsu terveystarkastukseen Terveystarkastus terveyskeskuksessa (keskimäärin 3 h 15 min, KTL:n kiertävä tutkimusorganisaatio) useita osioita Osa jatkotutkimuksiin yliopistosairaalaan Kari Djerf 2.3.2004
Tutkimuksen vaiheet kaaviona Kari Djerf 2.3.2004
sisäänrakennettuja tutkimusasetelmia, kuten rinnakkaismittauksia Eri osioissa: sisäänrakennettuja tutkimusasetelmia, kuten rinnakkaismittauksia koe-verrokki -asetelmia Kari Djerf 2.3.2004
2. T2000-tutkimuksen otanta-asetelma 2.1. Tutkimusasetelman rajoitteet Otanta-asetelmaa laadittaessa jouduttiin ottamaan huomioon useita reunaehtoja: terveystarkastuspaikkoja kyettiin järjestämään vain terveyskeskuksiin kiertävää henkilökuntaa ei ollut mahdollista palkata kovin paljon maan eri osat ja eri väestöryhmät piti saada riittävän ”edustaviksi” otoksessa Kari Djerf 2.3.2004
Ahvenanmaa ja saaristo suljettiin pois kulkuyhteyksien takia 2.2. Tekniset rajoitteet Maa jaetaan hallinnollisesti yliopistosairaalapiirien eli ns. miljoonapiirien mukaan Paikallisena yksikkönä on terveyskeskus (joko kuntayhtymä tai kunnan oma) Ahvenanmaa ja saaristo suljettiin pois kulkuyhteyksien takia Kari Djerf 2.3.2004
2.3. Otanta-asetelmasta saavutettu kompromissi Jaetaan perusjoukko eli manner-Suomi viiteen osaan miljoonapiirien mukaan (alueellinen pää-OSITUS) Poimitaan kustakin miljoonapiiristä yhteensä 16 alueellista terveyskeskusta ja niissä kussakin varsinainen otos (pää-RYVÄSTYS) Käsitellään 15 suurinta kaupunkia erikseen niin, että ne sisältyvät otokseen a priori ja niiden otos poimitaan suoraan väestöosuuden suhteessa Kari Djerf 2.3.2004
80 v. täyttäneen väestön osuus tuplattiin otokseen Poimitaan muut terveyskeskukset suhteessa niiden väkimäärään (PPS-otanta) siten, että miljoonapiirissä rypäiden yhteismäärä on 16 Poimitaan valittujen toisen asteen terveyskeskusten sisältä otos niin, että otosalkioiden luku on kiinteä ositteen sisällä 80 v. täyttäneen väestön osuus tuplattiin otokseen Kari Djerf 2.3.2004
Lopputulos Likimäärin ITSEPAINOTTUVA OTOS 30-79 v. väestön osalta, 80 v. vanhuksia tuplaten Kompleksi otanta-asetelma - yhdistelmä ositetusta yksi- ja kaksiasteisesta otannasta. Koko maassa 5*16=80 poimintavaiheen ryvästä Kari Djerf 2.3.2004
2.3. Otoksen maantieteellinen jakauma Kari Djerf 2.3.2004
2.4. Otoksen jakautuminen alueittain, n = 8028 HYKS (HUS) 2811 Helsinki 918 Espoo 316 Vantaa 283 jne. 2. asteen rypäät 100 TYKS 1178 Turku 288 Pori 140 2. asteen rypäät 54 TaYS 2046 Tampere 334 jne. 2. asteen rypäät 110 KYS 1481 Kuopio 131 jne. 2. asteen rypäät 88 OYS 1153 Oulu 181 2. asteen rypäät 65 Kari Djerf 2.3.2004
3. Vastauskato Terveystutkimuksissa vastausosuus ylipäänsä kohtuullisen hyvä, mutta se vaihtelee tutkimuksen ja sen toteutuksen mukaan T2000 pääraportissa ns. maksimaalinen vastausosuus 93 %: hyväksyttävä vastaus saatu johonkin osioon Seuraavassa aineiston muodostuminen sekä vastaamiseen ja katoon liittyviä tarkasteluja haastatteluosuudesta Kari Djerf 2.3.2004
3.1. Aineiston muodostuminen tutkimuksen eri vaiheissa Pääraportti B3/2002 Kotihaastattelu 6986 Terveystarkastus 6354 Kotiterveystark. 416 Kysely 1 9 Puhelinhaastattelu 454 Jälkikysely 63 Vähintään jokin osio 7419 Painotusvaihe marraskuu 2002 Osallistunut johonkin 7415 Unioni 7112 Ravintokysely 6005 Leikkausjoukko 5482 Kari Djerf 2.3.2004
3.2. Terveyshaastatteluun vastaaminen Kari Djerf 2.3.2004
Vastaamista ja katoa koskevat tarkastelut Ensin kuvailevat analyysit: ikä sukupuoli kieli alue sosioekonomiset olot Sitten vaativammat analyysit, kuten vastausosuuden mallitus Kari Djerf 2.3.2004
Tavoite selvittää jakaumien yhtäläisyydet ja erot arvioida onko vastaamisprosessi tutkittavan ilmiön kannalta harmiton vai ei pyrkiä kompensoimaan vastaamisprosessin vaikutuksia, jotta analyysit eivät vinoutuisi (tai tulisi harhaisiksi) Kari Djerf 2.3.2004
Vastausosuus maantieteellisesti Kari Djerf 2.3.2004
Kato iän ja sukupuolen mukaan - naiset Kari Djerf 2.3.2004
Kato iän ja sukupuolen mukaan - miehet Kari Djerf 2.3.2004
Kato äidinkielen ja sukupuolen mukaan -naiset Kari Djerf 2.3.2004
Kato äidinkielen ja sukupuolen mukaan - miehet Kari Djerf 2.3.2004
Kato sosioekonomisen aseman ja sukupuolen mukaan - naiset Kari Djerf 2.3.2004
Kato sosioekonomisen aseman ja sukupuolen mukaan - miehet Kari Djerf 2.3.2004
Kato bruttotulojen ja sukupuolen suhteen - naiset Kari Djerf 2.3.2004
Kato bruttotulojen ja sukupuolen suhteen - miehet Kari Djerf 2.3.2004
Kato asuntokunnan koon ja sukupuolen suhteen - naiset Kari Djerf 2.3.2004
Kato asuntokunnan koon ja sukupuolen suhteen - miehet Kari Djerf 2.3.2004
3.3. Johtopäätökset Epäilyä vastausprosessiin sisältyvästä valikoituvuudesta ei voida sulkea pois! Vastaamiseen liittyvillä tekijöillä (ikä, sukupuoli, sosioekonominen asema jne.) saattaa olla riippuvuutta tutkimusmuuttujien kanssa. Erityisesti vanhusten ja muiden kuin suomen- ja ruotsinkielisten osuus pieneni tutkimuksen loppua kohti Aineistosta muodostetaan eri tutkimuksiin osajoukkoja, joihin mahdollisesti liittyvää valikoitumista on vaikea todentaa Kari Djerf 2.3.2004
4. Painotus Terveys 2000 aineistoon estimoitiin KTL:n pyynnöstä neljät painot : Kaikki eli osallistunut johonkin (7415) lähinnä rekisteritutkimuksia varten Unioni (7112) Ravintokysely (6005) poikkeava ! Leikkaus (5482) Kari Djerf 2.3.2004
4.1. Painotuksen periaatteet Reunaehdot: ositus, ryvästys ja vanhusten ylipoiminta pakko ottaa huomioon Painotus yritettiin tehdä niin vähän harmia aiheuttavaksi kuin mahdollista: katorakenne ajatellaan harmittomaksi kunkin painotussolun sisällä painojen vaihtelua rajoitettiin, jottei otosvarianssi kasvaisi muuttujia vähän, etteivät analyysit vaikeutuisi Kari Djerf 2.3.2004
4.2. Painotuksessa käytetyt väestöjakaumat sisältymistodennäköisyyteen perustuva otospaino miljoonapiiri ja terveyskeskuspiiri korjaa väestörakenteen alueittain oikeaksi ikä ja sukupuoli korjaa po. demograafisen rakenteen oikeaksi äidinkieli suomi+muut, ruotsi Kari Djerf 2.3.2004
4.3. Painotusmenetelmä: kalibrointi Hyvin tehokas, regressiomallin hyväksikäyttöön perustuva painotusmenetelmä, joka oikaisee myös kadon aiheuttamaa vinoutta ja tuottaa oikeat väestöjakaumat käytetyistä muuttujista Kehittäjät Deville & Särndal; Deville, Särndal & Sautory (JASA 1992, 1993) CALMAR-niminen SAS-makro-ohjelma Kari Djerf 2.3.2004
4.4. Painot ja niiden tuottamat jakaumat Kari Djerf 2.3.2004
Suuralue Kari Djerf 2.3.2004
Sosioekonominen asema Kari Djerf 2.3.2004
Siviilisääty Kari Djerf 2.3.2004
4.5. Suosituksia painojen käytöstä Em. neljää painoa tulisi aina käyttää osajoukoille, jotka määrittelyltään vastaavat parhaiten po. painotusjoukkoa. Jos (lähes) täysi havaintojoukko 7000, käytä UNIONIPAINOA! Jos useiden tutkimusosioiden yhdistelmä ja havaintojen määrä supistunut alle 6000, käytä LEIKKAUSPAINOA! Käytä ohjelmaa, joka hyväksyy otospainot analyyseissa. Kari Djerf 2.3.2004
Väestön tasolle korottavan painon ohella ns. analyysipaino: Kokonaismäärien estimoinnissa käytettävä väestön määrään korottavaa painoa. Väestön tasolle korottavan painon ohella ns. analyysipaino: summa vastaajien lukumäärä po. ryhmässä keskiarvo 1 ei vapausasteongelmaa! Huom. analyysipainolla samat ominaisuudet kuin väestöön korottavalla otospainolla, mutta eri skaala. Kari Djerf 2.3.2004
5. Otanta-asetelman vaikutuksesta analyyseihin Wolter (1985, Introduction to Variance Estimation Springer) kuvaa kompleksiseen otanta-asetelmaan liittyviä tekijöitä: otosasetelman monimutkaisuus käytettävien estimaattorien kompleksius tutkimusmuuttujien monitahoisuus survey-datan kuvaileva vs. analyyttinen käyttö tutkimuksen laajuus Kari Djerf 2.3.2004
Kahden ensinmainitun tekijän suhteen: Estimaattori Asetelma Yksinkertainen Kompleksi Lineaarinen a b Epälineaarinen c d Perusotantateoria käsittelee tapausta a, mutta useimmat survey-tutkimukset kuuluvat ryhmiin b, c tai d. T2000: b ja d . Kari Djerf 2.3.2004
5.1. Otanta-asetelma ja analyysit Otanta-asetelmaperusteisuus tarkoittaa seuraavien tietojen huomioon ottamista analyysissä ositus: perusjoukon jakaminen pienempiin kiinteisiin osajoukkoihin - ei otantaa ryvästys kiinteiden osajoukkojen sisällä olevat pienemmät otantaa varten muodostetut osajoukot otospaino aineiston palauttaminen perusjoukon suhteita vastaavaksi Kari Djerf 2.3.2004
Erityisesti täytyy muistaa: Ositekohtainen analyysi poikkeaa muista tutkimuksen osajoukoista, koska osite on kiinteä. Otosvarianssit estimoidaan ositteittain! Osajoukkokohtaisella (ns. domain) analyysillä tarkoitetaan satunnaisten osajoukkojen tarkastelua, esim. mielivaltaisen luokituksen mukaan. Esim. T2000: sukupuoli, ikä, alue: muu kuin miljoonapiiri, jokin ominaisuus tai riskitekijä jne. Kari Djerf 2.3.2004
5.2. T2000 -tutkimuksen analyysiasetelma Analyysien suorittamista varten alkuperäistä asetelmaa on jouduttu muokkaamaan tilasto-ohjelmia varten: 15 suurinta kaupunkia on ns. itse-edustavia ositteita ja niistä tulevat henkilöt katsotaan rypäiksi, terveyshaas-tattelu: 2695 henkilöä eli ryvästä. toisen asteen rypäät (eli poimitut terveyskeskukset) ennallaan, rypäiden lukumäärä 65. Kari Djerf 2.3.2004
Varianssiestimoinnissa otosvarianssit estimoidaan ositteittain rypäiden välisen vaihtelun mukaan itse-edustavissa ositteissa vapausasteiden lkm = henkilöiden eli rypäiden lkm - ositteiden lkm eli 2695-15 =2680 toisen asteen rypäissä vapausasteiden lkm = rypäiden lkm - ositteiden lkm = 65-5 = 60 Kari Djerf 2.3.2004
5.3. Asetelman vaikutus analyysiin Paras tapa arvioida otos- ja estimointiasetelman vaikutusta analyysiin on laskea asetelmakertoimien estimaatteja (Kish 1965): Kari Djerf 2.3.2004
T2000 -tutkimuksen asetelmakertoimia Seuraavassa taulukossa on muutamien tutkimusmuuttujien asetelmakertoimien estimaatit otosasetelman mukaan: oletettavasti yksiasteisessa asetelmassa - suurissa kaupungeissa - kertoimet ovat noin 1 2-asteisessa ryväsasetelmassa kertoimet voivat olla mitä vain, mutta (melkein) aina yli 1. Kari Djerf 2.3.2004
2-asteinen otoksen osa: Pelkästään tekniset syyt aiheuttavat liian pienen otosvarianssin (vrt. vapausasteiden lukua!) Useimmissa tapauksissa terveyskeskusten alue on suppea: henkilöiden välillä voi olla riippuvuuksia ts. havainnot sisäkorreloituneita asetelman vaikutus ei ole kiinteä, vaan vaihtelee muuttujasta toiseen sisäkorreloituneisuuden mukaan Kari Djerf 2.3.2004
Kari Djerf 2.3.2004
Painotuksen vaikutus piste-estimaatteihin Vaikutus vaihtelee muuttujasta toiseen Iän vaikutus todennäköisesti merkitsevin asia - iästä riippuvat prevalenssit, esim. krooninen sairaus sukupuoli painotettu ei-painotettu + oikea aset. srs miehet 50.0 (1.0) 51.1 (0.9) naiset 55.4 (0.9) 56.8 (0.8) kaikki 52.8 (0.8) 54.2 (0.6) Kari Djerf 2.3.2004
Painotuksen vaikutus otosvarianssiin Painotuksen vaikutusta asetelmakertoimiin ja siten estimoinnin tehokkuuteen oli vähäinen, paljon pienempi kuin otosasetelman vaikutus. vaikutus mukana eliminoitu Diastolinen bp 4.41 4.26 Systolinen bp 2.72 2.62 BMI 1.17 1.13 Krooninen sairaus 1.68 1.63 Kari Djerf 2.3.2004
Kokonaismäärien estimointi Asetelmakertoimet yleensä huomattavasti suurempia kokonaismäärille kuin keskiarvojen tai muiden mutkikkaampien parametrien tapauksessa, esim. keskiarvo kokonaismäärä lääkärissäkäynnit 1.18 1.65 terveydentila=hyvä 1.18 2.59 krooninen sairaus 1.68 2.90 Kari Djerf 2.3.2004
5.4. Asetelmapohjaiset analyysiohjelmistot Yleisimmin käytetyt: SUDAAN, melko monipuolinen pelkästään otosaineistojen analyysiin tarkoitettu ohjelmistot, vanhahtava suositellaan SAS-kutsuttavaa versiota STATA, täysi tilastoanalyysiohjelmisto, jossa eräitä otosasetelmaoptioita Kari Djerf 2.3.2004
R, muutama asetelmapohjainen analyysi: KTL:ssä kokemusta SAS v. 7 lähtien muutama asetelmapohjainen analyysi: SURVEYMEANS ja SURVEYREG (v. 7-8) SURVEYFREQ ja SURVEYLOGISTIC (v. 9) SPSS v. 12 Complex Samples lisämoduli: lähinnä kuvailevat analyysit, ei kokemusta WesVar, moderni Windows-ohjelma, ei laajassa käytössä Kari Djerf 2.3.2004
5.5. Vaihtoehtoisia tapoja Asetelmapohjaiset analyysit perustuvat haittaparametri-käsitteeseen (nuisance approach) Vaihtoehtoisesti voidaan asetelma tuoda malliin muillakin tavoilla (Lehtonen et al., 2003a ja b; Laiho ja Nieminen, 2004): GEE-estimointimenetelmä, jossa pareittaiset korrelaatiot rypään sisällä voivat poiketa nollasta, mutta oletetaan vakioisiksi kaikissa rypäissä sekamalleissa ryvästason vaikutus voidaan olettaa satunnaisefektiksi Kari Djerf 2.3.2004
T2000 - TK:n menetelmäraportti, taulukko 6.1 Kari Djerf 2.3.2004
T2000 - TK:n menetelmäraportti, taulukko 6.2 Kari Djerf 2.3.2004
T2000 - TK:n menetelmäraportti, taulukko 6 T2000 - TK:n menetelmäraportti, taulukko 6.5: Systolinen verenpaine, tutkitaan vyötärönympäryksen ja iän yhdysvaikutuksen merkitsevyyttä Kari Djerf 2.3.2004
T2000 - TK:n menetelmäraportti, taulukko 6 T2000 - TK:n menetelmäraportti, taulukko 6.6: Systolinen verenpaine, tutkitaan vyötärönympäryksen ja sukupuolen yhdysvaikutuksen merkitsevyyttä Kari Djerf 2.3.2004
Johtopäätökset IID-perusteinen (toisistaan riippumattomien havaintojen) malli 0 tuotti moniparametrisempia malleja kuin ryvästyksen huomioon ottavat malliratkaisut Asetelmaperusteisten ja muiden asetelman huomioon ottavien menetelmien toimivuudessa ei ollut kovin suuria eroja Kari Djerf 2.3.2004
Lähteet Aromaa, A. & Koskinen, S. (toim.). 2002.Terveys ja toimintakyky Suomessa. Terveys 2000 -tutkimuksen perustulokset. Kansanterveys-laitoksen julkaisuja B3/2002. Helsinki: Kansanterveyslaitos Deville, J.-C., and C.-E. Särndal (1992). Calibration Estimators in Survey Sampling. Journal of the American Statistical Association, Vol. 87, No. 418, 376!382. Deville, J.-C., C.-E. Särndal and O. Sautory (1993). Generalized Raking Procedures in Survey Sampling. Journal of the American Statistical Association, Vol. 88, No. 423, 1013 Kari Djerf 2.3.2004
Kish, L. 1965. Survey Sampling. New York: Wiley Laiho, J. & Nieminen, T. (toim.). 2004. Terveys 2000 -tutkimus. Aikuisväestön haastatteluaineiston tilastollinen laatu. Tilastokeskus, Tutkimuksia 239. (painossa). Lehtonen, R., Djerf, K., Härkänen, T. & Laiho, J. 2003a. A Comparison of Design-Based and Model-Based Methods for the Analysis of Complex Health Survey Data: A Case Study. Ottawa: Proceedings of Statistics Canada Methodology Symposium 2002, Modelling Survey Data for Social and Economic Research. Lehtonen, R., Djerf, K., Härkänen, T. & Laiho, J. 2003b. Modelling Complex Health Survey Data: A Case Study. Teoksessa: Höglund, R. Jäntti, M., & Rosenqvist, G. (toim.). Statistics, Econometrics and Society: Essays in Honour of Leif Nordberg. Helsinki: Statistics Finland, Research Reports 238, 91-114. Wolter, K. 1985. Introduction to variance estimation. New York: Springer. Kari Djerf 2.3.2004