Terveys 2000 koulutus KTL 3.6.2003
Sisältö Tutkimusasetelmat Otanta-asetelma Esimerkit Ositus ja ryvästys Painokertoimet Esimerkit SAS/SUDAAN Stata R Kysymykset ja keskustelu
Tutkimusasetelmat Poikkileikkaustutkimus Kahden riippumattoman otoksen vertailu Mini-Suomi –otoksen toistomittaustutkimus Kohortti- ja upotetut tapaus-verrokkitutkimukset
Ositus ja ryvästys Suomi jaettiin 20 ositteeseen Suurimmat kaupungit muodostivat 15 ositetta Lopuista 5 ositteesta (miljoonapiiristä) poimittiin 65 terveyskeskuspiiriä (ryvästä) 234:stä 8028 havaintoyksilöä poimittiin yli 80-vuotiaita kaksinkertaisella todennäköisyydellä havaintojen lukumäärä ositetta kohden vastasi ositteen väkilukua
Kaksitasoisen otannan vaikutuksia Kustannussäästöjä aineiston keräämisessä Samasta terveyskeskuspiiristä poimittujen henkilöiden välillä riippuvuuksia: Maantieteelliset etäisyydet pieniä Sukulaisuussuhteita enemmän Monet palvelut yhteisiä Riippuvuuksien huomioiminen analyyseissä välttämätöntä
Painokertoimien taustaa Yksilöillä erilaiset poimintatodennäköisyydet Yli 80-vuotiailla kaksinkertainen poimintatodennäköisyys Esim. suora keskiarvo havainnoista tuottaa harhaisen arvion väestökeskiarvosta Ratkaisu: painotettu keskiarvo, jossa yli 80-vuotiailla painoiksi asetetaan 1/2
Painokertoimet ja kato Yksilöiden osallistumisaktiivisuus vaihtelee Jos osallistuneet ja katotapaukset ovat… samanlaisia, erot voidaan korjata melko hyvin (esim. vain iästä ja sukupuolesta johtuva kato) oletus havaittujen ja katotapausten samankaltaisuudesta erilaisia, erojen huomioiminen on vaikeaa (usein esim. terveyteen ja toimintakykyyn liittyvät muuttujat) kadon luonteesta vahvoja oletuksia, joiden testaaminen vaikeaa
Osallistumisasteita (unioni) n=7112 Ikäryhmä Naiset Miehet 30-39 40-49 50-59 60-69 70-79 80+ 89.4 % 91.7 % 92.2 % 92.8 % 86.7 % 85.7 % 85.4 % 86.3 % 88.5 % 91.4 % 91.3 % Yhteensä 90.1 % 87.8 %
Osallistumisasteita alueittain (terveyshaastattelu)
Painokertoimien taustaa Painokertoimilla voidaan korjata tunnetuista tekijöistä johtuvan kadon vaikutusta Terveys 2000 –painokertoimissa huomioitu - alkuperäinen poimintatodennäköisyys - terveyskeskuspiiri - miljoonapiiri - ikä - sukupuoli - äidinkieli
Erilaisia painokertoimia Osallistuminen voidaan määritellä eri tavoilla Terveys 2000 –osallistuneiden määrät eri painoilla: Unionipaino: osallistunut vähintään yhteen tutkimuspisteeseen (n = 7112) Ravintokyselypaino: Osallistunut ravintokyselyyn (n = 6005) ”Kaikki”-paino: Osallistunut tutkimuspisteeseen tai vastannut karhu- tai puhelinhaastatteluun (n = 7415) Leikkauspaino: osallistunut kaikkiin tutkimuspisteisiin (n = 5482)
Väestöpainot vs. analyysipainot Analyysipainoja käytetään erilaisten keskiarvojen, prevalenssien ja regressiomallien estimoinnissa Väestöpainoja käytetään vain estimoitaessa erilaisia totaaleja, kuten ominaisuuden X lukumääriä väestössä
Painomuuttujan valinta Analyysimuuttujien puuttuvan tiedon profiilin pitäisi vastata painomuuttujan puuttuvia tietoja Leikkauspainojen käyttäminen saattaa karsia merkittävän osan havaintoyksilöistä Unionipainot sopivat useimpiin tilanteisiin Ravintokyselyssä osallistumisprofiili poikkeaa selvästi unionipainojen profiilista ”Kaikki”-painoissa mukana on yksilöitä, joista on vain vähän tietoja
Painotuksen ja osituksen vaikutuksia Tarkastellaan esimerkkejä, joissa keskiarvoja estimoidaan … painotuksella tai ilman, ja … huomioimalla ositus/ryvästys tai ei Keskiarvoesimerkkien tuloksia voidaan havaita myös monimutkaisemmissa analyyseissä
Esimerkkimuuttujat Ikä Systolinen verenpaine SystBP Painoindeksi BMI Kokonaiskolesteroli
Tunnusluvut Keskiarvo, joka kuvaa 30+ -vuotiaiden keskiarvoa Estimoitu keskivirhe (s.e.) DEFT eli ”Design Factor” on suhteellinen ero keskivirheissä (ja luottamusvälin leveydessä), jos jätetään huomioimatta painot sekä ositus- ja ryvästystiedot DEFF ”Design Effect” on DEFT 2
Ikä Ei ositusta eikä ryvästystä Ositus ja ryvästys Ei painotusta [DEFT = 1.00] 54.2 (s.e. = 0.21) [DEFT = 1.17] Painotus 52.96 (s.e. = 0.17) [DEFT = 0.96] 52.96 (s.e. = 0.20) [DEFT = 1.14]
Systolinen verenpaine Ei ositusta eikä ryvästystä Ositus ja ryvästys Ei painotusta 133.7 (s.e. = 0.27) [DEFT = 1.00] (s.e. = 0.43) [DEFT = 1.61] Painotus 133.5 (s.e. = 0.44) [DEFT = 1.64]
Painoindeksi BMI Ei ositusta eikä ryvästystä Ositus ja ryvästys Ei painotusta 26.6 (s.e. = 0.06) [DEFT = 1.00] [DEFT = 1.05] Painotus [DEFT = 1.02] [DEFT = 1.15]
Kokonaiskolesteroli Ei ositusta eikä ryvästystä Ositus ja ryvästys Ei painotusta 5.93 (s.e. = 0.014) [DEFT = 1.00] (s.e. = 0.017) [DEFT = 1.23] Painotus 5.94 [DEFT = 1.01] [DEFT = 1.26]
Johtopäätöksiä otanta-asetelman huomioimisesta Painokertoimien huomioiminen tuottaa oikean piste-estimaatin Rypäiden (erityisesti tk-piirien) sisäinen homogeenisuus ja erot verrattuna toisiin rypäisiin aiheuttavat sisäkorreloituneisuutta, mikä voi muuttaa huomattavasti estimoituja keskivirheitä verrattuna analyysiin yksinkertaisella satunnaisotannalla
Lukumäärien estimointi Monellako 30+ -vuotiaalla on ominaisuus X? Terveys 2000 –tutkimuksen 30+ -vuotiaiden perusjoukossa on 3,254,681 ihmistä Käytetään väestöpainokertoimia, jotka kuvaavat kuinka montaa kohdeperusjoukon ihmistä kohdehenkilö kuvaa, ja painotettua summaa tutkimusmuuttujasta
Lukumääräestimointiesimerkki Kuinka monella 30+ -vuotiaalla systolinen verenpaine on yli 140? Mikä on keskivirhe? Käytetään väestöpainoja ja ositus-ryvästystietoja Miehet Naiset 30-49 115515 (8579) 63208 (5815) 50-69 240253 (10587) 245780 (11683) 70+ 89125 (7085) 172362 (9337) Yhteensä 444893 (16595) 481350 (16462)
Esimerkkiaineisto Selittäjiä: ikä (jatkuvana tai 6-luokkaisena) ika ja ika6 sukupuoli sp2 siviilisääty aa01 painoindeksi (body mass index) BMI kokonaiskolesteroli T114 HDL-kolesteroli T115 ja portaiden nouseminen PortaanNousu.
Vastemuuttuja Jatkuva: systolinen verenpaine SystBp2 Binäärinen SystBp2_01: arvo on 1, jos yli 140 muuten 0 Kolmiluokkainen SystBp2_123: arvo on 1, jos alle 120 arvo on 2, jos välillä 120, 160 muuten 3
Mallivakiointi Mikä on muuttujan Y keskiarvo (tai prevalenssi) eri determinanttimuuttujan arvoilla, jos sekoittavan tekijän jakauma olisi sama? Determinanttimuuttuja voi olla esim. sukupuoli Mallivakiointi predictive marginal: determinanttimuuttujan X havaittu arvo muutetaan arvoksi x kaikilla yksilöillä, lasketaan ennustearvo jokaiselle yksilölle ja lasketaan keskiarvo ennusteista Hyöty: vertailukelpoisuus hyvä, koska erilaisilla tekijän X arvoilla x muuttujan Y arvoon vaikuttavien muiden tekijöiden jakauma on sama
Mallivakiointi (jatkoa) Miksi ei sijoiteta kaavoihin yksinkertaisesti kovariaattien keskiarvoja? Estimoitaessa prevalenssia mallivakioitu tulos voi erota merkittävästi havaitusta prevalenssista
Mallivakiointiesimerkki: jatkuva vaste Vasteena systolinen verenpaine, lineaarinen regressiomalli Selittäjinä BMI, sukupuoli, 6-luokkainen ikä, kokonaiskolesteroli ja siviilisääty Mallivakioitu Sukupuolittaiset keskiarvot Suku-puoli Prediktiivinen marginaali Keski-virhe (s.e.) N Keski-arvo Mies 134.64 0.468 2899 134.42 0.485 Nainen 131.67 0.488 3502 132.63 0.516
Mallivakiointiesimerkki: binäärinen vaste Vasteena systolinen verenpaine (”1” = yli 140, logit-malli) Selittäjinä BMI, sukupuoli, 6-luokkainen ikä, kokonaiskolesteroli ja siviilisääty Mallivakioitu Sukupuolittaiset keskiarvot Suku-puoli Prediktiivinen marginaali Keski-virhe (s.e.) N Keski-arvo Mies 32.4 % 0.96% 2899 31.3 % 0.98% Nainen 28.8 % 3502 30.8 % 0.95%
Esimerkit Perustunnusluvut (keskiarvot, taulukoinnit) Lineaarinen regressiomalli Logistinen regressiomalli Moniluokkainen logistinen regressiomalli Järjestysasteikollinen vaste Luokiteltu vaste
Yhteenveto Ohjelma Painotus Ositus, ryvästys SUDAAN weight paino; nest osite ryvas; Stata svyset [pweight=paino], strata(osite) psu(ryvas)