Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia.

Slides:



Advertisements
Samankaltaiset esitykset
TODENNÄKÖISYYSLASKENTA
Advertisements

Komponenttien rakenteellinen tärkeys
Mette Vedelsby, CVUSJ./Efelcren Isometriat ja Symmetriat.
Osaamisen ja sivistyksen parhaaksi Tilatiedot ja niiden muutokset
Lineaarisia malleja.
Kuperan linssin piirto- ja laskutehtävä 2005
Vuorovaikutuksesta voimaan
Aikakauslehtien lukukerrat KMT Kuluttaja • Nettikysely KMT Kuluttaja tutkimuksessa. • Kysyttiin lehdistä, jotka vastaaja KMT puhelinhaastattelussa.
Kenen lapsi?.
2.8.3 Abstraktit tietotyypit
Kirjaston verkkopalvelu Kirkes-kirjastojen asiakkailla on mahdollisuus käyttää IntroActive-verkkopalvelua internetissä. Verkkopalvelussa voi mm.  uusia.
Graafisen esityksen laatiminen taulukkolaskentaohjelmalla (excel 2013)
Duaali Teemu Myllynen.
2.3. Riippumattomuus ja kertolaskusääntö
AS Automaation signaalinkäsittelymenetelmät
Eemeli Pulliainen. 1.Käytä Internet Explorer-selainta 2.Menee sähköpostiisi ja etsi kyseinen kohta OHJEET.
Mittaustekniikka (3 op)
Lypsylehmien kuntoluokitus
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista,
Tiedonhakumenetelmät Helena Ahonen-Myka Kevät 2004, osa 9 Merkkijonohahmon etsintä selaamalla.
UMF I Luento 1. Aika Luennot, Klo 14–16 to 4.9 – ke 10.9 ke 24.9 – ke 1.10 ke – pe Demot, Klo 10–12/12–14/14–16 Pe 12.9, Ti 16.9, Pe 19.9.
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia.
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti Kbp (pituus tiedetään.
N-piirin johtamisvalmennus Lionsklubin muutosjohtaminen.
Murtoyhtälöt - Yhtälö, jossa nimittäjässä tuntematon
Aikakauslehtien lukukerrat KMT Kuluttaja syksy 2013 / kevät 2014.
Introduction to bioinformatics T.K. Attwood & D.J. Parry-Smith Addison Wesley Longman Limited 1999.
Syntaksin harjoituskurssi CYK140
UMF I Luento 7. Viime kerralta Lue II.5 ja II.6. Lause II.5.1 tapauksessa f(x,y) = (x, sin(y)) ja g(x, y) = (cos(x), y). Voit lähettää epäselvistä kohdista.
Graafialgoritmit laskennal- lisessa systeemibiologiassa Graph Algorithms in Computational Systems Biology Työn valvoja ja ohjaaja: Prof. Patric Östergård,
Paikkatietomullistus on vasta tulossa Kuntien paikkatietoseminaari Kuntatalo Osmo Soininvaara.
Toimisto-ohjelmat TVT osana Sädettä. Tehdään kyselylomake joko tekstinkäsittely- tai taulukkolaskentaohjelmalla. Pilvipalveluita käytettäessä saadaan.
Uusien esiintymien etsintä. malliin toinen ohjausmuuttuja z(t): löydetyt resurssit.
Lionsklubin muutosjohtaminen 107 N Apj-Lpj seminaari Bykulla
Merkkikohtaiset menetelmät fylogenetiikassa
6. Relaatioalgebra ja relaatiokalkyyli
Muuttujien riippuvuus
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
© Jukka Juslin1 Osio2 Olio-ohjelmointi: Merkkijonot eli Stringit Jukka Juslin.
Geenit.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 11 – Tuomas Nummelin Optimointiopin seminaari - Syksy 2010 Lokaalit uskottavuusmenetelmät.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Ohjaamaton oppiminen– Heikki Vesterinen Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 13 – Tommi Nykopp Optimointiopin seminaari - Syksy 2005 / 1 Päätösteoreettinen vianhaku.
Mikä on geenien rooli mikro- ja makroevoluutiossa?
Neperin luku e ja funktio y = ex
Meioosi Meioosi on hedelmöityksessä, sukusolujen tuotannossa tapahtuva perimän jakautuminen. Sen kautta syntyvät sukusolut, eli siittiöt ja munasolut.
Robustius Yleinen idea: jokin pysyy muuttumattomana vaikka jotakin muutetaan.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 8 – Reda Guerfi Optimointiopin seminaari - Syksy 2009 Taloudellisen tuotantoerän skedulointi.
Listat eli luettelot listaelementit ovat lohkoelementtejä:  lista ja listan alkiot alkavat uudelta riviltä  listan jälkeen tuleva elementti alkaa uudelta.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 22 – Jussi Kangaspunta Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
Lajittelun sovelluksia Yksilöllisyyden testaaminen Kopioiden poistaminen Mediaani/n:ksi suurimman valinta frekvenssien laskenta/yleisin alkio, l.moodi.
T Automaatiotekniikka 2 4op Matemaattinen mallinnus Matemaattinen malli on ensimmäinen askel säädön suunnittelussa (tietokoneavusteisessa) Matemaattinen.
MapInfon tiedostot TAB – Tiedosto, jonka avulla tietokanta avataan MapInfossa. Tiedostossa tietoja kentistä ja koordinaattijärjestelmästä. DAT, XLS. TXT.
T. Pasanen / Johdatus bioinformatiikkaan 1 4. DNA tietokannat.
Perimä evoluution todisteena. Yksilö perii geeninsä vanhemmiltaan Perimän tarkempaa vertailua tehdään tutkimalla -tuman kromosomien määrää -kromosomien.
TANGENTTI Suora, joka sivuaa käyrää.
Juha Knuuttila Bioinformatiikka TF00AA
Keskinopeus.
5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.
MATEMAATTISIA MALLEJA I Mab 3 Meri Sirkeinen Siikajoen lukio.
BIOS BIOS 2 jakso 1 Geenit ohjaavat proteiinien rakentumista 4 aminohappo DNA emäskolmikko geeni Golgin laite koodaava juoste lähetti-RNA mallijuoste Avainsanat.
Toimisto-ohjelmat TVT osana Sädettä.
Tutkielman teko-ohjeet
Monimuuttinimuuttuja-analyyseista
Kirjoita tähän Kirjoita tähän Kirjoita tähän Kirjoita tähän Kirjoita tähän Kirjoita tähän Kirjoita tähän.
Suoran yhtälön muodostaminen, kun suoralta tunnetaan 2 pistettä
Geeni vaikuttaa ominaisuuksiin eri tavoin
Tutki putoamisliikettä videon avulla
Lukion biologia Eliömaailma BI 1.
Kertausta FUNKTIOISTA MAB5-kurssin jälkeen (Beta 2.0)
Esityksen transkriptio:

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia proteiinituotteita Etsitään yhteisiä säilyneitä alueita Tarkastelemalla useita jonoja yhtä aikaa pyritään vähentämään yksittäisistä jonoista johtuvaa kohinaa (signaali/kohina  geeni/mutaatiot)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Päämäärä ja sen tarkkuus Informaatio, minkä avulla yritetään päätellä onko uusi jono sukua vai ei tiettyyn geeniperheeseen (ennustus!) Rinnastukset ovat vain matemaattisia ja biologisia malleja Miten tarkasti malli toimii biologisen tiedon kuvaajana?

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3 Eri tasot monirinnastuksessa Sekvenssi –rinnastettavat kohdat haetaan kustannusfunktioiden perusteella –kuvastaa evoluution kulkua (mut,korv) Sekundääri- ja tertiäärirakenne –translaation jälkeiset stabiilit proteenit –rinnastettavat kohdat rakenteiden perusteella –“varmoja” oikeita esimerkkejä vähän

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4 Monirinnastuksen määritelmä Absoluuttinen positio: tähteen paikka alkuperäisessä jonossa Suhteellinen positio: tähteen paikka monirinnastuksessa

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Rekursio kolmelle jonolle F(i 1, i 2, i 3 ) = max{ F(i 1  1, i 2  1, i 3  1) + s(x 1 [i 1 ], x 2 [i 2 ], x 3 [i 3 ]), F(i 1, i 2  1, i 3  1) + s( , x 2 [i 2 ], x 3 [i 3 ]), …, F(i 1, i 2, i 3  1) + s( , , x 3 [i 3 ]), F(i 1, i 2  1, i 3 ) + s( , x 2 [i 2 ],  ), F(i 1  1, i 2, i 3 ) + s(x 1 [i 1 ], ,  )}

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Suoran rekursion vaativuus Matriisissa ainakin n 1 · n 2 · · · n r = n r lokeroa kun jokaisen jonon pituus n Laskennassa tarvitaan O(2 r ·n r ) päätöstä (vrt. edellinen rekursiokaava)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Samankaltaisuusfunktio DNA: s:{ A, C, G, T, - } r  Real Ideaalitapauksessa riippuvainen positiosta (säilyneet alueet) ja siitä että sekvenssit eivät ole satunnaisia vaan ne voidaan yhdistää toisiinsa fylogeneetisen puun avulla (aika, toiminnallisten osien muutos evoluutiossa jne)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 Samankaltaisuusfunktio … yksinkertaistuksia Ei riippuvaisuutta paikasta Sarakkeet riippumattomia toisistaan Monirinnastuksen pistemääräksi määritellään S(m) = G +  i S(m i ), missä S(m i ) on sarakkeen i pisteet (score) ja G on kolojen kustannus(?)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Samankaltaisuusfunktio … Lähin kirjain Esitään kirjain joka on lähinnä kaikkia eli “lähin kirjain”, jolloin sarakkeen kustannus määritellään: S(m i ) = min   1  j  r s(m i [ j],  ) missä m i [ j] on j :s kirjain sarakkeessa i

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Samankaltaisuusfunktio … Entropiaan perustuva Oletetaan riippumattomuus sekä sarake- että rivisuuntaisesti c ia merkin a esiintymien määrä (frekvenssi) rinnastuksen sarakkeessa i sarakeen m i todennäköisyys on P(m i ) =  (p ia ) c ia, missä p ia on c ia /r S(m i ) =   a c ia  log p ia

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Samankaltaisuusfunktio … Parien summa (SP) S(m i ) =  1  j<k  r s(m i [ j], m i [k]) Evoluution merkitys vääristyy! –r jonoa, kaikilla on L tietyssä paikassa –BLOSUM 50 antaa pistearvon 5r(r  1)/2 –yhteen korvataan G, s( G, L ) =  4, pisteet vähenevät 9(r  1) :llä –Uusi rinnastus on 18/5r huonompi kuin aikaisempi –r suurenee  “virheen” painoarvo pienenee!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Laskentatilan optimointi Vähennetään laskettavia matriisin alkioita paririnnastuksien perusteella Idea: monirinnastuksen implikoimat paririnnastukset eivät välttämättä optimaalisia

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13 Laskentatilan optimointi... Oletetaan, että monirinnastuksen M arvo lasketaan siinä esiintyvien paririnnastuksien M i,j arvojen summana (SP) eli S(M) =  i < j S(M i,j ) Olkoon B optimaalinen SP-rinnastus eli S(B) = max M S(M) Lasketaan jollain heuristiikalla “hyvä” monirinnastus, olkoon sen arvo S’ ; nyt S’  S(B)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 Laskentatilan optimointi... S’  S(B) =  i < j S(M i,j ) =  i j  x y; i < j S(B i,j ) + S(B x,y )   i j  x y; i < j S(a i, a j ) + S(B x,y ) [S(a i, a j ) on paririnnastuksen optimi arvo ] =  i < j S(a i, a j ) + S(B x,y )  S(a x, a y ) eli S(a x, a y )  S(B x,y )   i < j S(a i, a j )  S’

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15 Laskentatilan optimointi... Position (i x, j y ) paras arvo: V(x, i x, y, i y ) = S(x[1..i x  1], y[1..i y  1] ) + s(x[i x ], y[i y ]) + S(x[n x..i x +1], y[n y..i y +1]) Laskentaan tarvitaan vain O(n 2 ) aika! Raja 2D matriisin alkioille: S(a x, a y )  V(x, i x, y, i y )   i < j S(a i, a j )  S’

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16 Laskentatilan optimointi... Pareja r(r  1)/2, joten laskentaan tarvitaan O(r 2 n 2 ) työ r -ulotteisesta matriisista käsitellään vain alkiot (i 1, i 2,..., i r ), missä V(x, i x, y, j y ) täyttää edellä esitetyn arvorajan kaikilla indeksipareilla (i x,j y ), kun 1  x, y  r ja x  y.

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17 Tuloksen esittäminen

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Tuloksen esittäminen... Profiili (painotettu keskimääräinen jono) kussakin sarakkeessa i lasketaan alkion a esiintymäkerrat c ia, jonka perusteella lasketaan todennäköisyys c ia /r P = P 1,..., P n, missä P i = (p 0, p 1,..., p |  | ); tässä P i [p j ], 1  j, on j :nen kirjaimen esiintymän todennäköisyys sarakkeessa i ja p 0 on tyhjän merkin todennäköisyys

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Jonon vertaaminen profiiliin Laskenta samankaltaisesti kuten aikaisemmin käyttämällä funktiota s(P i, a) =   s( , a)  P i [  ] eli F(P i, j) = max{ F(P i  1, j  1) +   s( , x[j])  P i [  ], F(P i  1, j) +   s( ,  )  P i [  ]} Tässä profiili kiinteä

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Tuloksen esittäminen... Blocks: etsitään rinnastuksesta yhtenäisiä hyvin säilyneitä tähteitä, joiden esiintymien perusteella lasketaan paikasta riippuvia pistematriiseja Sormenjäljet: etsitään rinnastuksesta yhtenäisiä (lyhyitä) säilyneitä motiiveja, joiden avulla muodostetaan painottamattomia pistematriiseja

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Progressiiviset menetelmät Dynaamisen ohjelmoinnin käyttö ei ole käytännöllistä kun jonoja paljon Yleinen rakenne –Tehdään alkioille parittainen vertailu –Toistetaan seuraavaa kunnes jäljellä on vain yksi alkio. Rinnastetaan kaksi lähintä alkiota (voivat olla jonoja tai rinnastuksia); tämä rinnastus on kiinteä eli sitä ei enää muuteta algoritmin kuluessa.

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 Feng-Doolittle Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla Muodosta ryvästyksen avulla puu, minkä rakenteen mukaan jonot rinnastetaan Rinnasta aina puun lähimmät alkiot (jonoja tai rinnastuksia) kunnes kaikki alkiot on rinnastettu; tässä järjestyksessä puu rakennettiin

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Opaspuun rakennus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 24 Feng-Doolittle... Etäisyyksien laskenta ryvästyksessä: –Jono-ryhmä: ryhmän lähin jono –Ryhmä-ryhmä: ryhmien lähimmät jonot Kolot korvataan symbolilla X minkä rinnastus ei maksa mitään; tällä paririnnastukset saadaan “yhteensopiviksi” monirinnastuksessa periaate “once a gap, always a gap”

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 25 CLUSTALW Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla Muodosta ohjauspuu ryvästämällä aina lähimmät naapurit Rinnasta ohjauspuussa aina lähimmät alkiot (jonoja tai profiileja) kunnes kaikki alkiot on rinnastettu

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 26 CLUSTALW... Profiilien vertailu Kahden profiilikirjaimen vertailu esim: s(P 1 i, P 2 j ) = (   w   |P 1 i [  ]  P 2 j [  ]|  ) 1/ , missä w on painokerroin kirjaimelle  F(P 1 i, P 2 j ) = max{ F(P 1 i  1, P 2 j  1 ) + s(P 1 i, P 2 j ), F(P 1 i  1, P 2 j ) + s(P 1 i,  ), F(P 1 i, P 2 j  1 ) + s( , P 2 j ) } Tässä “  ” voi merkitä kirjainta (1,0,...) tai jonoa “  ... ” (rekursion loppu)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 27 CLUSTALW...

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 28 Iteratiiviset menetelmät Koetetaan parantaa saatua tulosta esimerkiksi seuravasti: Muodosta profiili kahdesta lähimmästä jonosta. Täydennä/laajenna profiilia lisäämällä siihen toistuvasti jäljellä olevista jonoista lähin kunnes kaikki jonot on lisätty Toista seuraavaa Poista profiilista jono x i, i = 1,..., n, ja rinnasta se uudelleen profiiliin

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 29 Käsityö rinnastuksessa Rinnastuksen biologinen merkitys Identiteettien ja korvauksien määrä; (oikeellisuus) Aut. rinnastus toimii huonosti kun samankaltaisuutta vähän!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 30 Monirinnastustietokannat Automaattisesti tehtyjä Toisissa kannoissa tuloksia on lisäksi tarkasteltu manuaalisesti; tuottavat laadukkaamman tuloksen Luvussa 3 esimerkkejä Kolokustannuksen pitää riippua rinnastettavien jonojen määrästä ja niiden homologisuudesta!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 31

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 32

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 33 Rinnastus hakujonona Tietoa on “jalostettu” monirinnastuksella joten täsmäykset tietokantaan ovat “parempia” Suoritusaika kasvaa ja tulokset vaikeammin tulkittavia Käytetään yleensä vasta kun yhdellä jonolla etsintä tuottaa vain tiedettyjä samanlaisuuksia tai ei mitään tuloksia

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 34 PSI-BLAST Position-Specific Iterated BLAST Motiiveihin perustuva etsintä kaikkein herkintä ja valikoidumpaa Haetaan kannasta täsmäykset Toistetaan seuraavaa tarpeeksi: –Tulosjoukon perusteella muodostetaan motiivit, joilla haetaan uusi tulosjoukko joka korvaa aiemman Yksi huono jono saattaa pilata kaiken