Molekyylisystematiikka 1.osa Johdanto Käsitteet Sukulaisuuksien esittäminen eri formaateissa Puut: eri tavat muodostaa puu, algoritmeja, ohjelmistoja, esimerkki Petri Törönen Vanha materiaali: Päivi Onkamo, Jarno Tuimala Konsultaatiosta ISO Kiitos Ari Löytynojalle!
Fylogeneettinen analyysi? Päätellään miten toisilleen sukua oleva prot. tai nukleiinihapposekvenssit ovat kehittyneet yhteisestä kantamuodosta evoluutiossa sekä esitetään tämä visuaalisessa muodossa Tavoite löytää kaikki haarautumiskohdat ja määrittää (tarkasti) oksien pituudet Tärkeä osa sekvenssianalyysiä! Tehdään sekä lajien välistä että geenien/proteiinien välisten suhteiden analysoimista http://en.wikipedia.org/wiki/Phylogenetics
Mitä tulee fylogen. analyysiin Perinteinen fylogenetiikka tutki fysiologisia piirteitä, luita… Sekvensseihin perustuva fylogenetiikka perustuu proteiini- tai DNA-sekvensseihin Vertaillaan MSA:n tulosta Mitkä sekvenssit muistuttavat toisiaan? Uutena tulokkaana (2000-luku) on eliöiden koko genomien vertailu* Genomisten alueiden muuntelu Yhteisten geenien vertailu Mitkä genomit muistuttavat toisiaan? *http://www.nature.com/nrg/journal/v6/n5/pdf/nrg1603.pdf
Miksi fylogenetiikkaa? Eliöiden luokittelu Tarkempi evoluutio Molekyyliepidemiologia (infektiotutkimus) Voidaan seurata nopeasti muuttuvan organismin kehitystä, esim. virukset Evolutiivisten mekanismien tutkiminen
Miksi fylogenetiikkaa? Geenien funktioiden löytäminen Synkronisoitu evoluutio geenien välillä →sama funktio (tai interaktio) * Fylog. analyysi voi kertoa, kohdistuuko johonkin tiettyyn geeniin esim. evolutiivista valintapainetta *http://peds.oxfordjournals.org/content/14/9/609.short
Geenien funktioiden löytäminen Tuntemattomat geenit harmaita. Geenien naapurustossa esiintyy kahta funktiota (punainen, sininen). Ryhmiä on suoraan vaikea erottaa, mutta puuhun sijoitettuna ryhmät voivat erottua Eisen: Phylogenomics: Improving functional prediction http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.186.5434&rep=rep1&type=pdf
Geenien funktioiden löytäminen: Alfa- ja betaglobuliinit Onko tuntematon alfa vai beta?
Fylogenetiikka arkipäivässä Fylogenetiikka oikeussalissa (*): Hammaslääkärin likainen välineistö levitti HIV:iä Syyllisyys todistettiin käyttäen HIV:in evoluutiota apuna Fylogenetiikkaa käytetään DNA:n tunnistuksessa (**) Onko myyty liha, puu tms. lähtöisin suojellusta eliöstä *http://www.learner.org/courses/biology/textbook/compev/compev_5.html **http://en.wikipedia.org/wiki/DNA_barcoding Kiitokset Arille!!
Ihmisten evoluutio Phylogenetic tree (above) for 26 representative human populations from Nei and Roychoudhury (1993). The major divisions of human populations are Africans (A), Caucasians (B), Greater Asians (C), Amerindians (D) and Australopapuans (E).
Fylogenetiikan ongelmia Muista kuitenkin: useimpien eliöiden genomi on mosaikki vertikaalisesti (normaali periytyminen) ja horisontaalisesti (esim. virussekvenssien insertoituminen) siirtyneistä elementeistä!
Fylogenetiikan ongelmia: Homologia - Analogia Rakenteilla on yhteinen evolutiivinen kantamuoto Ortologia vs. paralogia! (tulee myöhemmin) Analogia Rakenteiden samankaltaisuus, joka johtuu samansuuntaisesta evoluutiosta, ei yhteisestä kantamuodosta Linnun ja lepakon siivet Organismit kuumissa lähteissä, loiset
Fylogenetiikan ongelmia: Geeni- ja eliöpuut Geenipuu: puu, joka kuvastaa geenisekvenssien evoluutiota Laji- tai eliöpuu: puu, joka kuvastaa eliöiden evoluutiota (lajiutumista) Nämä eivät välttämättä ole samanlaiset!
Fylogenetiikan ongelmat: Miksi eroja geeni- ja eliöpuussa Voimakas evoluutiopaine geeniryhmällä Geenien kopioituminen useammaksi eliössä Kopioituneet geenit voivat erikoistua eri tehtäviin Ortologit ja paralogit http://en.wikipedia.org/wiki/Homology_%28biology%29#Orthology
Ortologit ja paralogit Source: www.nitro.biosci.arizona.edu/.../lecture25.html.
Fylogenetiikka: Puun esittäminen
Puun osat http://www.dbbm.fiocruz.br/james/glossary.html Glossary of terms used in Phylogeny Reconstruction: http://www.dbbm.fiocruz.br/james/glossary.html Aktiivinen linkki (2014): http://medsocnet.ncsa.illinois.edu/MSSW/moodle/AuthTut/vpage_beta.php?tid=218&&pid=1055
Puiden esittäminen Unrooted tree Rooted tree Kladogrammit: oksien pituuksilla ei ole merkitystä, ainoastaan haarau- tumisjärjestyksellä on Fenogrammit: Oksien pituudet kertovat kussakin oksassa tapahtuneen evoluution määrän Suom: Rhea=nandu, tinamou=tinami, ostrich=strutsi, casuar=kasuaari
Fylogenetiikan menetelmät
Menetelmät Kytkeytyvät vahvasti sekvenssirinnastuksen menetelmiin: sekvenssien rinnastus, etäisyyksien laskenta Päälle lisätään evoluutiopuun luominen (puun koostamismenetelmä) Usein puun vakautta testataan lisäämällä pieniä muutoksia aineistoon Bootstrapping http://en.wikipedia.org/wiki/Bootstrapping#Phylogenetics
Menetelmien perusoletukset Evoluution kulkua voidaan kuvata kaksijakoisesti (dikotomisesti) haarautuvalla puulla vaihtoehtona voisi olla verkosto Evoluutio on tapahtunut mahdollisimman yksinkertaisesti = Parsimonia (selitys, joka olettaa vähiten muutoksia on paras) näin ei välttämättä ole
Analyysin vaiheet Sekvenssien valinta Menetelmän valinta Evolutiivisen mallin valinta Sekvenssien rinnastaminen Puun koostamismenetelmän valinta Lyhimmän puun etsintä Puun luotettavuuden arviointi (bootstrapping, jackknifing, decay index)
1. Sekvenssien valinta Muuttuvat sopivalla nopeudella; Sisältävät tarpeeksi muutoksia, muttei liikaa Liian vähän → ei signaalia Liian paljon → satunnaisuutta liikaa Käytetään vain ortologisia sekvenssejä jos ollaan kiinnostuneita lajien välisistä suhteista Mieluusti useita sekvenssejä kustakin lajista Pohdi ulkoryhmän käyttöä ja valintaa
Ulkoryhmän käyttö Ulkoryhmä on evoluutiossa tutkittavasta joukosta kauempana oleva eliö Ulkoryhmän kiinnittymiskohta juuren tutkittavan joukon juuren
2. Menetelmän valinta Kolme tärkeintä menetelmätyyppiä lähtöaineiston ja puun etsinnän optimaalisuuskriteerin mukaan jaoteltuna: Maksimiparsimonia (minimievoluutio, joka on tarvittu havaittujen sekvenssierojen syntymiseksi) Etäisyys (lasketaan sekvenssien välinen eroavaisuus vain määrällisesti; erojen laatuun ei kiinnitetä huomiota) Maximum likelihood (olettaen jokin tietty evolutiivinen malli, kuinka todennäköinen on mikin mahdollinen puu?) Hyvä review (2012): http://www.nature.com/nrg/journal/v13/n5/pdf/nrg3186.pdf
Menetelmän valinnasta: I Maksimiparsimonia (minimievoluutio) Lähtökohtana MSA joka kertoo mitkä sekvenssien positiot vastaavat toisiaan Jokaista positiota kohti muodostetaan minimievoluutiopuu (minimimäärä muutoksia jotka tarvitaan havaitun variaation aikaansaamiseksi) Lopuksi valitaan puu(t) jotka tuottavat minimievoluution kaikki sekvenssipositiot huomioon ottaen Maksimiparsimonia etsii puun jossa kukin sekvenssi on voinut muuttua toisekseen mahdollisimman pienellä määrällä askelia Käyttää siis evolutiivisia uutuuksia, jotka esiintyvät vähintään kahdessa sekvenssissä tai taksonissa (=synapomorfioita). Synapomorfiat voivat olla esim. yhden emäksen pistemutaatioita Olettaa että peräkkäiset substituutiot samassa kohdassa (homoplasiat) ovat harvinaisia ja tasaisesti jakautuneet eri kohtiin sekvenssiä ja puun oksia
PRINCIPLE OF PARSIMONY OR PRINCIPLE OF SIMPLICITY = a criterion for deciding among scientific theories or explanations. One should always choose the simplest explanation of a phenomenon, the one that requires the fewest leaps of logic. Apomorphy: A derived or specialised character. Plesiomorphy: An ancestral or primitive character. Synapomorphy: An apomorphy (derived or specialised character) shared by two or more groups which originated in their last common ancestor. Symplesiomorphy: A character shared by a number of groups, but inherited from ancestors older than the last common ancestor.
Parsimonia-puu, step-by-step Lähtökohtana MSA Etsitään (parsimonia)informatiiviset kohdat Muodostetaan mahdolliset puut, joiden perusteella lasketaan tarvittavien muutosten lkm Lopuksi etsitään kaikkien mahdollisten puiden joukosta havaintoaineiston valossa kaikkein lyhin puu
Parsimonia-puu, step-by-step Parsimonia-informatiivisia paikkoja ovat ne, joissa esiintyy vähintään kaksi eri merkkiä, joista jokaisen on esiinnyttävä vähintään kahdessa eri sekvenssissä. Esimerkiksi: paikka 1 2 3 4 5 6 Sekvenssi 1 A T T C C C Sekvenssi 2 A A T G C C Sekvenssi 3 A A C A C G Sekvenssi 4 A T C A A G
Kaikki mahdolliset puut: Puussa 1 on paikan 2 perusteella tapahtunut 2 (tai 3) mutaatiota: TAI T A T A A T Puussa 2 myös 2 (tai 3) mutaatiota A TAI T A T T T A T Puussa 3 paikan 2 perusteella 1 mutaatio: A T T A T A
Paikka 3 on myöskin parsimonia-informatiivinen, mutta se suosii puuta 1. 1 2 3 4 5 6 Sekvenssi1 A T T C C C Sekvenssi2 A A T G C C Sekvenssi3 A A C A C G Sekvenssi4 A T C A A G
Paikka 4 ei ole parsimonia-informatiivinen, koska kaikissa puissa tapahtuu ainakin 2 vaihdosta. 1 2 3 4 5 6 Sekvenssi1 A T T C C C Sekvenssi2 A A T G C C Sekvenssi3 A A C A C G Sekvenssi4 A T C A A G
Tulokset kerätään nyt taulukkoon: Vaihdosten lukumäärä Puu1 Puu2 Puu3 Myöskään paikka 5 ei ole parsimonia-informatiivinen, koska kaikissa kolmessa puussa siinä on tapahtunut vain yksi vaihdos. Paikka 6: puussa 1 tapahtuu yksi vaihdos, puissa 2 ja 3 kaksi vaihdosta. Tulokset kerätään nyt taulukkoon: Vaihdosten lukumäärä Puu1 Puu2 Puu3 Paikka 2 2 2 1 Paikka 3 1 2 2 Paikka 5 1 2 2 Yhteensä: 4 6 5 Koska puussa 1 tapahtui vähiten vaihtoja, kun tarkastellaan kaikkia parsimonia-informatiivisia paikkoja yhtä aikaa, niin puu 1 on parsimonisin puu tälle aineistolle. 1 2 3 4 5 6 Sekvenssi1 A T T C C C Sekvenssi2 A A T G C C Sekvenssi3 A A C A C G Sekvenssi4 A T C A A G
Fylogeneettiseksi puuksi saadaan täten Huom. Tässä jokainen vaihto pisteytettiin samalla arvolla. MP-menetelmässä voidaan käyttää myös pisteytysmatriiseja esim. antamalla vähemmän pisteitä transitioille (C → T, T → C, A → G, tai G → A) kuin transversioille. Tällöin vaihtojen määrän lisäksi vaihtojen sisältö vaikuttaa siihen mikä puu edustaa minimievoluutiota.
Parsimoniamenetelmä, hyvät ja huonot puolet Plussat: Helppo ymmärtää, ei oleta mitään tiettyä evolutiivista mallia Voidaan osoittaa että löytää varmaasti parhaan puun Hypotetisoi ominaisuuden kehittymisen Miinukset: Voi antaa vääriä tuloksia, jos homoplasiaa paljon Käytetään usein vain filosofisista syistä, menetelmän toimintaa ei ymmärretä hyvin Laskennallisesti raskas; mahdollisten puiden määrä kasvaa eksponentiaalisesti sekvenssien lukumäärän funktiona. Siksi yleisimmin käytetään heuristisia algoritmeja, jotka tuottavat “lähes-optimaalisen” puun Soveltuu parhaiten tilanteisiin, joissa kaikkien analysoitavien sekvenssiparien väliset eroavaisuudet ovat keskimäärin kohtuullisen pieniä ja samaa luokkaa keskenään (ei yhtäkään muista kovin paljon poikkeavaa sekvenssiä)
Parsimoniamenetelmä, hyvät ja huonot puolet (2012) LÄHDE: http://www.nature.com/nrg/journal/v13/n5/pdf/nrg3186.pdf Plussat: Simplicity and intuitive appeal The only framework appropriate for some data (such as SINES and LINES) Miinukset: Assumptions are implicit and poorly understood Lack of a model makes it nearly impossible to incorporate our knowledge of sequence evolution Branch lengths are substantially underestimated when substitution rates are high Maximum parsimony may suffer from long-branch attraction
Yhteenveto (osa 1) Fylogenetiikka tutkii eliöiden sukulaissuhteita Mahdollistaa proteiinien funktion ja tautien leviämisen tutkimisen Tulokset esitetään puiden muodossa Input ohjelmiin on MSA josta luodaan puu Parsimonia on yksinkertaisimpia menetelmiä puun luontiin