Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Miksi tilastollinen malli kiinnostaa biologiassa?

Samankaltaiset esitykset


Esitys aiheesta: "Miksi tilastollinen malli kiinnostaa biologiassa?"— Esityksen transkriptio:

1 Miksi tilastollinen malli kiinnostaa biologiassa?
Mikko J. Sillanpää Oulun yliopisto

2 ESITYS KESKITTYY TÄHÄN
BIOLOGIA TILASTOTIEDE GENETIIKKA BIOMETRIA ESITYS KESKITTYY TÄHÄN

3 Wikipedia: Mikä on malli?
Malli voi tarkoittaa ainakin seuraavia asioita: henkilö, joka esittelee vaatteita kaavain, jota kutsutaan myös sapluunaksi Looginen malli eli loogisen kielen tulkinta (lauseen peruspropositioiden arvottaminen tosiksi tai epätosiksi) mallinnuksen tulos, todellisuuden osaa esittävä olio kuten käsitteellinen, kausaalinen tai matemaattinen malli pienoismalli, alkuperäistä kooltaan huomattavasti pienempi kopio

4 Mikä on tilastollinen malli?
karkea kuvaus ilmiöön vaikuttavista tekijöistä sisältäen oletuksia tekijöiden todennäköisyysjakaumista ja tekijöiden välisistä riippuvuuksista tekijöitä pyritään arvioimaan/oppimaan kerätyn mittausaineiston perusteella

5 Mitä biologia/genetiikka tarjoaa?
Kysymyksenasettelu / hypoteesit Biologinen tietämys esim. periytymissäännöt tai miten rekombinaatio ja mutaatio toimivat Tutkittavan lajin genomin koko Sukusiittoinen / ristisiittoinen Vapaapölytteinen jne.

6 Mitä mittausdata tarjoaa?
- Usein tilastollisen mallin kiinnostuksen kohteena olevista suureista ei saada suoria mittauksia -Tällöin niitä arvioidaan epäsuorasti olemassa olevan mittausaineiston perusteella

7 Esimerkkejä kysymyksistä ja epäsuorista mittauksista
Määritä verenpaineeseen vaikuttavien geenien paikat ja vaikutusten suuruudet ihmisen genomissa geenimerkkien perusteella? - verenpaineen ja geenimerkin mittaukset 2000 ihmiseltä

8 Assosiaatiokartoituksessa, olemme kiinnostuneet estimoimaan geenimerkkikohtaiset vaikutukset βj

9 Geneettinen assosiaatio-malli
geenimerkin j arvo yksilöllä i tuntematon (virhe)varianssi yleiskeskiarvo virhe ei~N(0,σ2) verenpaine yksilöllä i vaikutus geenimerkissä j

10 Geenimerkkien mittaukset
Genotyypille AA, koodi xij = -1 AB, koodi xij = 0 BB, koodi xij = 1 Näistä saadaan: βj AA:lle βj xij = AB:lle βj BB:lle

11 Kiinnostavia menetelmällisiä kysymyksiä
Koska mittauksia enemmän kuin yksilöitä, tarvitsemme dimensionpudotusta ja regularisaatiota – > erilaiset mallinvalintamenetelmät Koska havaitsematon populaatiorakenne ja sukulaisuuden aiheuttavat vääriä assosiaatioita -> sekoittavien tekijöiden korjausmenetelmät Toisistaan riippuvien mittauspisteiden riippuvuuden huomiointi mallissa -> erilaiset silotusmenetelmät

12 Koska mittausdatassa puuttuvia havaintoja
-> puuttuvan tiedon korvausmenetelmät Koska mittausdatassa voi olla mittausvirhettä -> mittausvirhemallit

13 Muita tutkittavia eri lajeilla
Epilepsia koirilla Sukasten lukumäärä banaanikärpäsellä Kukkimisaika lituruoholla Juomakäyttäytyminen hiirillä Tuotosominaisuudet viljakasveilla Lihan laatuominaisuudet lohikaloilla

14 Jalostusarvostelu Määritä maidontuotannon jalostusarvo sonneilla jalostuspopulaatiossa Tunnettu sukupuu (sis lehmän ja 8000 sonnin tiedot) ja maidontuotantomittaukset lypsylehmillä Nykyään: geenimerkki-mittausta kaikilta sonneilta pitkin niiden genomia

15 Jalostusarvostelumalli
Y = Xb + Zu +e Y maitotuotokset b ympäristötekijät u ~ N(0, G σ2 ) jalostusarvot e ~ N(0, I σ2 ) virhetermit G sisältää sukulaisuudet u e

16 Kiinnostavia menetelmällisiä kysymyksiä
Perinteisen tilastotieteen kehikossa tästä nousee yhtälöryhmä jossa yli tuntematonta. Tässä tarvitaan iteratiivisia numeerisia menetelmiä ja harvamatriisitekniikoita Sekoittumisongelmat ja monihuippuiset posteriorit MCMC-estimoinnissa variansseja arvioitaessa

17 Mallin tekijöiden arviointi
Epäsuorien mittausten ja tehtyjen oletusten perusteella ei usein saada yksikäsitteistä ratkaisua mallin tekijöille mutta voidaan saadaa esimerkiksi todennäköisyysjakauma-muotoisia arvioita

18 Bayes-päättely p(data|θ) on uskottavuusfunktio p(θ) on priorijakauma
p(data) on normalisoiva tekijä usein ollaan kiinnostuttu

19 Bayes-analyysin tulokset esitetään usein kertomalla
piste-estimaatti (esim. MAP) posterioriväli

20 Koska malleissa voi helposti olla tuhansia tuntemattomia tekijöitä, pitää posteriori jakaumia varten arvioida tuhat-ulotteisia integraaleja

21 MCMC-menetelmät Numeeriset integrointimenetelmät jotka saivat alkunsa Manhattan-projektista toisessa maailman sodassa Käytetään nykyyään laajasti arvioitaessa posteriori jakaumia Bayesläisessä tilastotieteessä

22 posteriorI JAKAUMA

23 Vaikka tietokoneet ovat nopeita, niin MCMC-laskenta voi silti kestää nykytietokoneilla tapauksesta riippuen vielä useita päiviä ..koska tilastomatemaatikot haluavat käyttää monimutkaisempia malleja

24 Tilastolliset mallit ja estimointialgoritmit
Tutkimus kysymys ja biologinen tietämys Tilastolliset mallit ja estimointialgoritmit GENETIIKKA TILASTOTIEDE Mittaukset, tunnetut seikat ja oletukset tutkittavasta ilmiöstä

25 Tulokseksi parhaassa tapauksessa voidaan saada jotain epälineaarista
ELI ENEMMÄN KUIN OSIENSA SUMMA

26 Lopuksi jotakin alan työpaikoista
Matemaattisen yliopistokoulutuksen saaneita henkilöitä jotka ”puhuvat hyvin biologiaa” on työmarkkinoiden kysyntään nähden jatkuvasti liian vähän Tästä johtuen työllistymisnäkymät kyseisellä alalla erityisen hyvät

27 Muuta aiheesta suomenkielellä
Sillanpää MJ (2012) ”Perinnöllisyyttä ja tilastotiedettä” Solmu 3/2012. Juga J, Sillanpää MJ, Mäntysaari E (2012) ”Lypsykarjan genominen valinta” Helsingin yliopiston maataloustieteiden pääsykoekirjassa ”Maailma muuttuu: muuttuuko maatalous”, sivut Mervi Seppänen (ed.)

28 Kiitos!!!


Lataa ppt "Miksi tilastollinen malli kiinnostaa biologiassa?"

Samankaltaiset esitykset


Iklan oleh Google