Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia.

Samankaltaiset esitykset


Esitys aiheesta: "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia."— Esityksen transkriptio:

1 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia proteiinituotteita Etsitään yhteisiä säilyneitä alueita Tarkastelemalla useita jonoja yhtä aikaa pyritään vähentämään yksittäisistä jonoista johtuvaa kohinaa (signaali/kohina  geeni/mutaatiot)

2 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Päämäärä ja sen tarkkuus Informaatio, minkä avulla yritetään päätellä onko uusi jono sukua vai ei tiettyyn geeniperheeseen (ennustus!) Rinnastukset ovat vain matemaattisia ja biologisia malleja Miten tarkasti malli toimii biologisen tiedon kuvaajana?

3 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3 Eri tasot monirinnastuksessa Sekvenssi –rinnastettavat kohdat haetaan kustannusfunktioiden perusteella –kuvastaa evoluution kulkua (mut,korv) Sekundääri- ja tertiäärirakenne –translaation jälkeiset stabiilit proteenit –rinnastettavat kohdat rakenteiden perusteella –“varmoja” oikeita esimerkkejä vähän

4 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4 Monirinnastuksen määritelmä Absoluuttinen positio: tähteen paikka alkuperäisessä jonossa Suhteellinen positio: tähteen paikka monirinnastuksessa

5 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Rekursio kolmelle jonolle F(i 1, i 2, i 3 ) = max{ F(i 1  1, i 2  1, i 3  1) + s(x 1 [i 1 ], x 2 [i 2 ], x 3 [i 3 ]), F(i 1, i 2  1, i 3  1) + s( , x 2 [i 2 ], x 3 [i 3 ]), …, F(i 1, i 2, i 3  1) + s( , , x 3 [i 3 ]), F(i 1, i 2  1, i 3 ) + s( , x 2 [i 2 ],  ), F(i 1  1, i 2, i 3 ) + s(x 1 [i 1 ], ,  )}

6 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Suoran rekursion vaativuus Matriisissa ainakin n 1 · n 2 · · · n r = n r lokeroa kun jokaisen jonon pituus n Laskennassa tarvitaan O(2 r ·n r ) päätöstä (vrt. edellinen rekursiokaava)

7 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Samankaltaisuusfunktio DNA: s:{ A, C, G, T, - } r  Real Ideaalitapauksessa riippuvainen positiosta (säilyneet alueet) ja siitä että sekvenssit eivät ole satunnaisia vaan ne voidaan yhdistää toisiinsa fylogeneetisen puun avulla (aika, toiminnallisten osien muutos evoluutiossa jne)

8 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 Samankaltaisuusfunktio … yksinkertaistuksia Ei riippuvaisuutta paikasta Sarakkeet riippumattomia toisistaan Monirinnastuksen pistemääräksi määritellään S(m) = G +  i S(m i ), missä S(m i ) on sarakkeen i pisteet (score) ja G on kolojen kustannus(?)

9 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Samankaltaisuusfunktio … Lähin kirjain Esitään kirjain joka on lähinnä kaikkia eli “lähin kirjain”, jolloin sarakkeen kustannus määritellään: S(m i ) = min   1  j  r s(m i [ j],  ) missä m i [ j] on j :s kirjain sarakkeessa i

10 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Samankaltaisuusfunktio … Entropiaan perustuva Oletetaan riippumattomuus sekä sarake- että rivisuuntaisesti c ia merkin a esiintymien määrä (frekvenssi) rinnastuksen sarakkeessa i sarakeen m i todennäköisyys on P(m i ) =  (p ia ) c ia, missä p ia on c ia /r S(m i ) =   a c ia  log p ia

11 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Samankaltaisuusfunktio … Parien summa (SP) S(m i ) =  1  j<k  r s(m i [ j], m i [k]) Evoluution merkitys vääristyy! –r jonoa, kaikilla on L tietyssä paikassa –BLOSUM 50 antaa pistearvon 5r(r  1)/2 –yhteen korvataan G, s( G, L ) =  4, pisteet vähenevät 9(r  1) :llä –Uusi rinnastus on 18/5r huonompi kuin aikaisempi –r suurenee  “virheen” painoarvo pienenee!

12 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Laskentatilan optimointi Vähennetään laskettavia matriisin alkioita paririnnastuksien perusteella Idea: monirinnastuksen implikoimat paririnnastukset eivät välttämättä optimaalisia

13 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13 Laskentatilan optimointi... Oletetaan, että monirinnastuksen M arvo lasketaan siinä esiintyvien paririnnastuksien M i,j arvojen summana (SP) eli S(M) =  i < j S(M i,j ) Olkoon B optimaalinen SP-rinnastus eli S(B) = max M S(M) Lasketaan jollain heuristiikalla “hyvä” monirinnastus, olkoon sen arvo S’ ; nyt S’  S(B)

14 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 Laskentatilan optimointi... S’  S(B) =  i < j S(M i,j ) =  i j  x y; i < j S(B i,j ) + S(B x,y )   i j  x y; i < j S(a i, a j ) + S(B x,y ) [S(a i, a j ) on paririnnastuksen optimi arvo ] =  i < j S(a i, a j ) + S(B x,y )  S(a x, a y ) eli S(a x, a y )  S(B x,y )   i < j S(a i, a j )  S’

15 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15 Laskentatilan optimointi... Position (i x, j y ) paras arvo: V(x, i x, y, i y ) = S(x[1..i x  1], y[1..i y  1] ) + s(x[i x ], y[i y ]) + S(x[n x..i x +1], y[n y..i y +1]) Laskentaan tarvitaan vain O(n 2 ) aika! Raja 2D matriisin alkioille: S(a x, a y )  V(x, i x, y, i y )   i < j S(a i, a j )  S’

16 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16 Laskentatilan optimointi... Pareja r(r  1)/2, joten laskentaan tarvitaan O(r 2 n 2 ) työ r -ulotteisesta matriisista käsitellään vain alkiot (i 1, i 2,..., i r ), missä V(x, i x, y, j y ) täyttää edellä esitetyn arvorajan kaikilla indeksipareilla (i x,j y ), kun 1  x, y  r ja x  y.

17 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17 Tuloksen esittäminen

18 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Tuloksen esittäminen... Profiili (painotettu keskimääräinen jono) kussakin sarakkeessa i lasketaan alkion a esiintymäkerrat c ia, jonka perusteella lasketaan todennäköisyys c ia /r P = P 1,..., P n, missä P i = (p 0, p 1,..., p |  | ); tässä P i [p j ], 1  j, on j :nen kirjaimen esiintymän todennäköisyys sarakkeessa i ja p 0 on tyhjän merkin todennäköisyys

19 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Jonon vertaaminen profiiliin Laskenta samankaltaisesti kuten aikaisemmin käyttämällä funktiota s(P i, a) =   s( , a)  P i [  ] eli F(P i, j) = max{ F(P i  1, j  1) +   s( , x[j])  P i [  ], F(P i  1, j) +   s( ,  )  P i [  ]} Tässä profiili kiinteä

20 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Tuloksen esittäminen... Blocks: etsitään rinnastuksesta yhtenäisiä hyvin säilyneitä tähteitä, joiden esiintymien perusteella lasketaan paikasta riippuvia pistematriiseja Sormenjäljet: etsitään rinnastuksesta yhtenäisiä (lyhyitä) säilyneitä motiiveja, joiden avulla muodostetaan painottamattomia pistematriiseja

21 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Progressiiviset menetelmät Dynaamisen ohjelmoinnin käyttö ei ole käytännöllistä kun jonoja paljon Yleinen rakenne –Tehdään alkioille parittainen vertailu –Toistetaan seuraavaa kunnes jäljellä on vain yksi alkio. Rinnastetaan kaksi lähintä alkiota (voivat olla jonoja tai rinnastuksia); tämä rinnastus on kiinteä eli sitä ei enää muuteta algoritmin kuluessa.

22 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 Feng-Doolittle Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla Muodosta ryvästyksen avulla puu, minkä rakenteen mukaan jonot rinnastetaan Rinnasta aina puun lähimmät alkiot (jonoja tai rinnastuksia) kunnes kaikki alkiot on rinnastettu; tässä järjestyksessä puu rakennettiin

23 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Opaspuun rakennus

24 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 24 Feng-Doolittle... Etäisyyksien laskenta ryvästyksessä: –Jono-ryhmä: ryhmän lähin jono –Ryhmä-ryhmä: ryhmien lähimmät jonot Kolot korvataan symbolilla X minkä rinnastus ei maksa mitään; tällä paririnnastukset saadaan “yhteensopiviksi” monirinnastuksessa periaate “once a gap, always a gap”

25 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 25 CLUSTALW Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla Muodosta ohjauspuu ryvästämällä aina lähimmät naapurit Rinnasta ohjauspuussa aina lähimmät alkiot (jonoja tai profiileja) kunnes kaikki alkiot on rinnastettu

26 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 26 CLUSTALW... Profiilien vertailu Kahden profiilikirjaimen vertailu esim: s(P 1 i, P 2 j ) = (   w   |P 1 i [  ]  P 2 j [  ]|  ) 1/ , missä w on painokerroin kirjaimelle  F(P 1 i, P 2 j ) = max{ F(P 1 i  1, P 2 j  1 ) + s(P 1 i, P 2 j ), F(P 1 i  1, P 2 j ) + s(P 1 i,  ), F(P 1 i, P 2 j  1 ) + s( , P 2 j ) } Tässä “  ” voi merkitä kirjainta (1,0,...) tai jonoa “  ... ” (rekursion loppu)

27 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 27 CLUSTALW...

28 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 28 Iteratiiviset menetelmät Koetetaan parantaa saatua tulosta esimerkiksi seuravasti: Muodosta profiili kahdesta lähimmästä jonosta. Täydennä/laajenna profiilia lisäämällä siihen toistuvasti jäljellä olevista jonoista lähin kunnes kaikki jonot on lisätty Toista seuraavaa Poista profiilista jono x i, i = 1,..., n, ja rinnasta se uudelleen profiiliin

29 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 29 Käsityö rinnastuksessa Rinnastuksen biologinen merkitys Identiteettien ja korvauksien määrä; (oikeellisuus) Aut. rinnastus toimii huonosti kun samankaltaisuutta vähän!

30 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 30 Monirinnastustietokannat Automaattisesti tehtyjä Toisissa kannoissa tuloksia on lisäksi tarkasteltu manuaalisesti; tuottavat laadukkaamman tuloksen Luvussa 3 esimerkkejä Kolokustannuksen pitää riippua rinnastettavien jonojen määrästä ja niiden homologisuudesta!

31 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 31

32 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 32

33 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 33 Rinnastus hakujonona Tietoa on “jalostettu” monirinnastuksella joten täsmäykset tietokantaan ovat “parempia” Suoritusaika kasvaa ja tulokset vaikeammin tulkittavia Käytetään yleensä vasta kun yhdellä jonolla etsintä tuottaa vain tiedettyjä samanlaisuuksia tai ei mitään tuloksia

34 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 34 PSI-BLAST Position-Specific Iterated BLAST Motiiveihin perustuva etsintä kaikkein herkintä ja valikoidumpaa Haetaan kannasta täsmäykset Toistetaan seuraavaa tarpeeksi: –Tulosjoukon perusteella muodostetaan motiivit, joilla haetaan uusi tulosjoukko joka korvaa aiemman Yksi huono jono saattaa pilata kaiken


Lataa ppt "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia."

Samankaltaiset esitykset


Iklan oleh Google