Miksi tilastollinen malli kiinnostaa biologiassa?

Slides:



Advertisements
Samankaltaiset esitykset
Osaamisen ja sivistyksen parhaaksi Ammatillisen peruskoulutuksen valtionavustushankkeet Tuija Laukkanen
Advertisements

Estimointi Laajennettu Kalman-suodin
Osaamisen ja sivistyksen parhaaksi Oppijan verkkopalveluiden hyväksymistestauksen raportointiohje Testitapauksen raportointi Havainnon raportointi.
Ohjelman perusrakenteet
Tietokanta.
Artikkelin kriittinen arviointi - havainnoivat tutkimukset
Sensorifuusio Jorma Selkäinaho.
Osaamisen ja sivistyksen parhaaksi Oppijan verkkopalveluiden hyväksymistestauksen testausohjeet Yleisohjeet testaukseen Havaintoraportin täyttäminen.
Aineen rakenteen standardimalli
Hypoteesin testeistä Testin valinta perustuu aina tutkimusongelmaan ja kuvailuun (joka perustuu mitta-asteikoihin) Testaus ei koskaan ole itsenäinen, vaan.
Novellin analyysin käsitteitä
YMALin strategia: tavoitteet ja painopistealueet.
YMALin strategia: tavoitteet ja painopistealueet.
Tietojärjestelmän suunnittelu
KANTATAAJUINEN BINÄÄRINEN SIIRTOJÄRJESTELMÄ AWGN-KANAVASSA
Solusimulaattorit S Laskennallinen systeemibiologia Sebastian Köhler.
Kanuuna seminaari Seinäjoki  Aiemmissa malleissa lähtökohta, jossa määriteltiin hyvinvoinnin esteitä, joita sitten voitiin ratkoa  Toimintavalmius.
MAB8: Matemaattisia malleja III
LAMK Outdoors Finland Etelä Aktiviteettisivuston lanseeraustutkimus 2013 T IEDOSTA M ENESTYS INNOLINK RESEARCH OY TAMPELLAN ESPLANADI 2, 4.krs, TAMPERE.
Kalakantojen arviointi: Merkintä-takaisinpyynti
Ohjelman perusrakenteet
2. Vuokaaviot.
Mittausepävarmuuden määrittäminen 1
Valmennuskurssi sosiaalitieteiden tutkinto-ohjelmaan
Virhelähteet yksittäisten puiden latvusten ilmakuvamittauksessa Antti Mäkinen Maatalous-metsätieteellinen tiedekunta / Metsävarojen käytön laitos.
Monipuolista alakoulun kemian opetusta.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 3 - Outi Somervuori Optimointiopin seminaari - Kevät 2010 The trouble with choice: Studing.
Tutkijan identifioinnin esiselvitys 2013 Tuija Raaska RAKETTI-TIEHA –ohjausryhmän kokous.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmöijän nimi Systeemitieteiden kandidaattiseminaari – Syksy/Kevät 200X Dynaamiset kausaaliset.
Luku- ja tenttivihjeet 6 Eero Salmenkivi Opettajankoulutuslaitos.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 27 – Tommi Kauppinen Optimointiopin seminaari - Syksy 2005 / 1 Oppiminen Bayes-verkoissa.
TEATTERI MEDIANA/TOISESSA MEDIASSA Mikko Kanninen TEKIJÄ- hanke. Trailerityöpaja
Metodit – Arvotyyppi Ellei metodi palauta arvoa, sen arvotyyppi on void Tällöin ”return;”-lauseke ei ole metodissa pakollinen, vaikka sen käyttö on sallittua.
Lukiolaisen opintopolut
Kalakantojen arviointi (KALAT22)
Käyttäytymistieteiden laitos
TUTKIMUSAINEISTOPROJEKTI 2009/2010 Tavoitteena tutkimusta helpottavia ja tehostavia tietokantoja. Huolehditaan tietoaineistojen säilyttämisestä, saatavuudesta.
tilastollinen todennäköisyys
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
Miksi on olemassa hiiriä?  Mitkä tekijät ovat johtaneet hiirien syntyyn? (kausaalinen selitys)  Mitä tarkoitusta/päämäärää varten hiiret ovat olemassa.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Mallinnusmenetelmät 5 – Emilia Partanen Optimointiopin seminaari - Syksy 2005 Mallinnusmenetelmät.
© Conformiq Software Ltd. | The Future of Software Testing Virheenarvaus.
Laskennallisen tieteen pääaine Pääaineinfo Kai Puolamäki Pääainekahvit kello 15:10-16 huoneessa A328 (T-talo, 3 krs., T2:n puoleinen A-käytävä.
Todennäköisyyslaskentaa
Kotitehtävän 21 ratkaisu Ensimmäisen havaintoaineiston luokittelu – Ryhmäkeskiarvot hakeutuvat niin, että ryhmään kuuluvat pisteet ovat mahdollisimman.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 11 – Tuomas Nummelin Optimointiopin seminaari - Syksy 2010 Lokaalit uskottavuusmenetelmät.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 30 - Aatu Kaapro Optimointiopin seminaari - Syksy 2005 / 1 Dynaamiset Bayes-verkot Osa.
Mallit ja teoriat Idealisaatiot, abstraktiot, isolaatiot, konstruktiot.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmöijän nimi Systeemitieteiden kandidaattiseminaari – Syksy/Kevät 200X Virheraportoijien jakaumat.
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
2. MÄÄRÄTTY INTEGRAALI Pinta-alan käsite Kirja, sivut
5. Fourier’n sarjat T
Mallit ja teoriat Idealisaatiot, abstraktiot, isolaatiot, konstruktiot.
Robustius Yleinen idea: jokin pysyy muuttumattomana vaikka jotakin muutetaan.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 22 – Jussi Kangaspunta Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
TILASTOTIEDE ARKEOLOGIASSA Har 230h
2 Tutkimuksen suunnittelu
5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
Laatumittauksen 2011 tuloksia. Tiedättekö Kuinka hyviä olette? Miten pärjäätte suhteessa parhaaseen? Missä laadun vaihtelu on suurta? Mihin suuntaan laatunne.
UNIVERSITY OF TURKU MONIMUUTTUJAMENETELMÄT SOSIAALITYÖN TUTKIMUKSESSA Leena Koivusilta Turun yliopisto, Sosiaalipolitiikan laitos.
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
Tutkielman teko-ohjeet
Bayes-päättelyn kertausta
10. Ajattelu.
Liikennevirasto nopeat kokeilut
Sosiaalisten verkostojen analyysi (ja Web2.0)
Menestyvä työyhteistö Oppimistehtävä
Luonnontiedeaiheinen projekti
Esityksen transkriptio:

Miksi tilastollinen malli kiinnostaa biologiassa? Mikko J. Sillanpää Oulun yliopisto

ESITYS KESKITTYY TÄHÄN BIOLOGIA TILASTOTIEDE GENETIIKKA BIOMETRIA ESITYS KESKITTYY TÄHÄN

Wikipedia: Mikä on malli? Malli voi tarkoittaa ainakin seuraavia asioita: henkilö, joka esittelee vaatteita kaavain, jota kutsutaan myös sapluunaksi Looginen malli eli loogisen kielen tulkinta (lauseen peruspropositioiden arvottaminen tosiksi tai epätosiksi) mallinnuksen tulos, todellisuuden osaa esittävä olio kuten käsitteellinen, kausaalinen tai matemaattinen malli pienoismalli, alkuperäistä kooltaan huomattavasti pienempi kopio

Mikä on tilastollinen malli? karkea kuvaus ilmiöön vaikuttavista tekijöistä sisältäen oletuksia tekijöiden todennäköisyysjakaumista ja tekijöiden välisistä riippuvuuksista tekijöitä pyritään arvioimaan/oppimaan kerätyn mittausaineiston perusteella

Mitä biologia/genetiikka tarjoaa? Kysymyksenasettelu / hypoteesit Biologinen tietämys esim. periytymissäännöt tai miten rekombinaatio ja mutaatio toimivat Tutkittavan lajin genomin koko Sukusiittoinen / ristisiittoinen Vapaapölytteinen jne.

Mitä mittausdata tarjoaa? - Usein tilastollisen mallin kiinnostuksen kohteena olevista suureista ei saada suoria mittauksia -Tällöin niitä arvioidaan epäsuorasti olemassa olevan mittausaineiston perusteella

Esimerkkejä kysymyksistä ja epäsuorista mittauksista Määritä verenpaineeseen vaikuttavien geenien paikat ja vaikutusten suuruudet ihmisen genomissa geenimerkkien perusteella? - verenpaineen ja 500 000 geenimerkin mittaukset 2000 ihmiseltä

Assosiaatiokartoituksessa, olemme kiinnostuneet estimoimaan geenimerkkikohtaiset vaikutukset βj

Geneettinen assosiaatio-malli geenimerkin j arvo yksilöllä i 500 000 tuntematon (virhe)varianssi yleiskeskiarvo virhe ei~N(0,σ2) verenpaine yksilöllä i vaikutus geenimerkissä j

Geenimerkkien mittaukset Genotyypille AA, koodi xij = -1 AB, koodi xij = 0 BB, koodi xij = 1 Näistä saadaan: -βj AA:lle βj xij = 0 AB:lle βj BB:lle

Kiinnostavia menetelmällisiä kysymyksiä Koska mittauksia enemmän kuin yksilöitä, tarvitsemme dimensionpudotusta ja regularisaatiota – > erilaiset mallinvalintamenetelmät Koska havaitsematon populaatiorakenne ja sukulaisuuden aiheuttavat vääriä assosiaatioita -> sekoittavien tekijöiden korjausmenetelmät Toisistaan riippuvien mittauspisteiden riippuvuuden huomiointi mallissa -> erilaiset silotusmenetelmät

Koska mittausdatassa puuttuvia havaintoja -> puuttuvan tiedon korvausmenetelmät Koska mittausdatassa voi olla mittausvirhettä -> mittausvirhemallit

Muita tutkittavia eri lajeilla Epilepsia koirilla Sukasten lukumäärä banaanikärpäsellä Kukkimisaika lituruoholla Juomakäyttäytyminen hiirillä Tuotosominaisuudet viljakasveilla Lihan laatuominaisuudet lohikaloilla

Jalostusarvostelu Määritä maidontuotannon jalostusarvo sonneilla jalostuspopulaatiossa Tunnettu sukupuu (sis. 3 000 000 lehmän ja 8000 sonnin tiedot) ja maidontuotantomittaukset lypsylehmillä Nykyään: 100 000 geenimerkki-mittausta kaikilta sonneilta pitkin niiden genomia

Jalostusarvostelumalli Y = Xb + Zu +e Y maitotuotokset b ympäristötekijät u ~ N(0, G σ2 ) jalostusarvot e ~ N(0, I σ2 ) virhetermit G sisältää sukulaisuudet u e

Kiinnostavia menetelmällisiä kysymyksiä Perinteisen tilastotieteen kehikossa tästä nousee yhtälöryhmä jossa yli 3 000 000 tuntematonta. Tässä tarvitaan iteratiivisia numeerisia menetelmiä ja harvamatriisitekniikoita Sekoittumisongelmat ja monihuippuiset posteriorit MCMC-estimoinnissa variansseja arvioitaessa

Mallin tekijöiden arviointi Epäsuorien mittausten ja tehtyjen oletusten perusteella ei usein saada yksikäsitteistä ratkaisua mallin tekijöille mutta voidaan saadaa esimerkiksi todennäköisyysjakauma-muotoisia arvioita

Bayes-päättely p(data|θ) on uskottavuusfunktio p(θ) on priorijakauma p(data) on normalisoiva tekijä usein ollaan kiinnostuttu

Bayes-analyysin tulokset esitetään usein kertomalla piste-estimaatti (esim. MAP) posterioriväli

Koska malleissa voi helposti olla tuhansia tuntemattomia tekijöitä, pitää posteriori jakaumia varten arvioida tuhat-ulotteisia integraaleja

MCMC-menetelmät Numeeriset integrointimenetelmät jotka saivat alkunsa Manhattan-projektista toisessa maailman sodassa Käytetään nykyyään laajasti arvioitaessa posteriori jakaumia Bayesläisessä tilastotieteessä

posteriorI JAKAUMA

Vaikka tietokoneet ovat nopeita, niin MCMC-laskenta voi silti kestää nykytietokoneilla tapauksesta riippuen vielä useita päiviä ..koska tilastomatemaatikot haluavat käyttää monimutkaisempia malleja

Tilastolliset mallit ja estimointialgoritmit Tutkimus kysymys ja biologinen tietämys Tilastolliset mallit ja estimointialgoritmit GENETIIKKA TILASTOTIEDE Mittaukset, tunnetut seikat ja oletukset tutkittavasta ilmiöstä

Tulokseksi parhaassa tapauksessa voidaan saada jotain epälineaarista ELI ENEMMÄN KUIN OSIENSA SUMMA

Lopuksi jotakin alan työpaikoista Matemaattisen yliopistokoulutuksen saaneita henkilöitä jotka ”puhuvat hyvin biologiaa” on työmarkkinoiden kysyntään nähden jatkuvasti liian vähän Tästä johtuen työllistymisnäkymät kyseisellä alalla erityisen hyvät

Muuta aiheesta suomenkielellä Sillanpää MJ (2012) ”Perinnöllisyyttä ja tilastotiedettä” Solmu 3/2012. Juga J, Sillanpää MJ, Mäntysaari E (2012) ”Lypsykarjan genominen valinta” Helsingin yliopiston maataloustieteiden pääsykoekirjassa ”Maailma muuttuu: muuttuuko maatalous”, sivut 165-172. Mervi Seppänen (ed.)

Kiitos!!!