Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti 30-100 Kbp (pituus tiedetään.

Samankaltaiset esitykset


Esitys aiheesta: "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti 30-100 Kbp (pituus tiedetään."— Esityksen transkriptio:

1 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti 30-100 Kbp (pituus tiedetään 10% tarkkuudella) Voidaan lukea satunnaisia 5’-3’ suuntaisia lyhyehköjä yhtenäisiä paloja (fragments)

2 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Sekvensointi... Palojen suuntaa tai paikkaa ei tiedetä, lisäksi virheitä 1-5% Haulikkomenetelmä: –palan koko < 1000 –500-2000 kappaletta Esim tiedetään että kohdejono on noin 10 merkkiä pitkä: Ideaaliesimerkki: Konsensusjono:

3 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3 Korvaus ja lisäys

4 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4 Poisto ja epäaito jono

5 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Suunta n palaa  2 n erilaista vaihtoehtoa

6 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Toisto

7 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Peitto (cover) Palojen muodostuminen satunnainen prosessi Pystytään laskemaan vain keskimääräinen peittokyky eli kaikkien palojen pituus jaettuna kohdejonon pituudella Olisi hyvä että tämä suhde olisi ainakin 8

8 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 Peittoon liittyviä arvioita Olkoon T kohdejonon pituus, n palojen määrä, l palojen koko, ja olkoon palat päälekkäin t positiota Todennäköisyyksiin perustuvia arvioita: –yhtenäisten alueiden määrä: ne  n(l  t)/T –k :n palan peittämä osuus: e  (nl / T) (nl / T) k / k!, missä nl / T on keskimääräinen peittokerroin

9 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Muita menetelmiä Haulikkomenetelmän täydennystä... Suora sekvenssointi –yhtenäisen alueen loppupäästä luodaan aluke (primer, polynukleotidiketju, käynnistää DNA:n kahdentumisen) –tämän avulla tuotetaan paloja, jotka sisältävät alukkeen, eli ne voidaan paikallistaa tarkasti –näin yhtenäisiä alueita yhdistetään toisiinsa –voidaan tehdä myös rinnakkain

10 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Muita menetelmiä Haulikkomenetelmän täydennystä... Kaksisuuntainen sekvenssointi ( dual end ) –1-5 kbp kokoisista jonoista voidaan lukea vain alle 1000 merkkiä, tämä voidaan kuitenkin tehdä molempiin suuntiin –nyt kustakin jonosta luetaan kaksi palaa, joiden etäisyys tiedetään tarkasti; tämä auttaa paljon yhtenäisten alueiden yhdistämisessä!

11 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Muita menetelmiä Sekvenssointi hybridisaation avulla ( SBH ) Kohdejono hybridisoidaan monen hyvin lyhyen kiinteämittaisen koettimen (probe) kanssa; (vrt DNA rakenne) DNA siru pyritään suunnitelemaan siten että kaikki tarpeelliset hybridisaatiot tapahtuvat; ei triviaali esim toistot, jakautuma ja minimikoko Nykyään koettimen maksimikoko on 8

12 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Muita menetelmiä Sekvenssointi hybridisaation avulla... Voidaanko kaikki kohdejonoja sekvenssoida lyhyillä koettimilla? Koetin voi hybridisoitua useampaan kertaan, tästä ei kuitenkaan tietoa Haulikkomenetelmän toteutus hybridisaatiolla –koettimet voidaan tuottaa paloista, mutta kaikki paloja ei voida tuottaa koettimista

13 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13 Ongelman mallinnnus Kolme lähestymistapaa –Lyhin yhteinen merkkijono (SCS) –Uudelleenrakennus (Reconstruction) –Monijatkumo eli jatkumoiden (yhtenäisten alueiden) yhdistäminen (multicontig) Syötteessä ei ole –Haamujonoja (chimeras) –Vierasta DNA:ta kloonauksen jäljiltä

14 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 Lyhin yhteinen merkkijono (SCS) Syöte: joukko F paloja Tulos: Lyhyin jono S, jolle (  f  F ): f on S :n osajono Esim F = { ACT, CTA, AGT } jolloin S = ACTAGT Oletus: virheitä ei ole ja jokaisen palan suunta on määritelty

15 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15 Lyhin yhteinen merkkijono... Toisto-ongelma Tulos huono peitteen ja sidonnaisuuden kannalta

16 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16 Uudelleenrakennus (reconstruction) Editointietäisyys d –Poiston, lisäyksen ja vaihdon kustannus on 1 Etäisyyslasku d S (a, b) = min s  S(b) d(a, s), missä S(b) tarkoittaa kaikkia b :n osajonoja (ei alijonoja) Yleensä d S (a, b)  d S (b, a)

17 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17 Uudelleenrakennus... Vertaa osittain päälekkäinen täsmäysosittain päälekkäinen täsmäys Huomioi virheet ja suunnat muttei toistoja, peittoalueen puutteita tai kohdejonon pituutta

18 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Monijatkumo Jatkumoiden kiinnittyminen toisiinsa Tarkastellaan palajoukosta F (ei virheitä) muodostettua asettelua L –Jokaisessa sarakkeessa täytyy olla vain yhden tyyppisiä merkkejä (ei virheitä) –Palasta on asettelussa käytössä vain sen toinen suunta –Numeroidaan sarakkeet 1.. |L|

19 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Monijatkumo... Palan f koko on | f | = r( f )  l( f ) +1, kun f :n alkukohta on l( f ) ja loppukohta r( f ) asettelussa L (ei “ - ” merkkejä) Jos [l( f )..r( f )]  [l(g)..r(g)]  Ø, niin sanotaan, että f ja g ovat limittäin, ja tätä leikkausta sanotaan palojen f ja g limitykseksi limityksen koko on leikkausjoukon koko

20 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Monijatkumo... Limitys [x..y] ei ole linkki jos jokin pala sisältää limityksen [(x  1)..( y +1)] ; muutoin limitys on linkki Heikoin linkki asettelussa on pienimmän linkin koko Asettelu on t -jatkumo jos sen heikoin linkki on vähintään t :n kokoinen

21 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Monijatkumo... Syöte: palajouko F ja kokonaisluku t Tulos: joukon F jakaminen mahdollisimman pieneen määrään alijoukkoja C i, 1  i  k, niin että jokainen muodostaa t- jatkumon

22 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 F ={ GTAC, TAATG, TGTAA } t = 3: t = 2: t = 1:

23 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Monijatkumo... Virheet: muodostetaan konsensusjono (mahdollisesti “ - ” merkkejä) Yleisesti | f |  r( f )  l( f ) +1 Määritellään –S[l( f )... r( f )] on palan f kuva S on  -konsensus jos editointietäisyys f ja sen kuvan välillä on korkeintaan  | f |

24 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 24 Monijatkumo... Uudelleenrakennusmallissa palojen paikka ei ole tärkeä kun taas tässä on Ei huomioi kohdejonon pituutta, selviää joistakin toisto-ongelmista (kuva 4.12)

25 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 25 Limitykset graafina

26 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 26 Ahne idea F ={ f 1,..., f n }, S  Ø while F  Ø do for f i = uv, f j = vw  F with maximum overlap v (a) if f i  f j, then F = (F \ { f i, f j })  {uvw} (b) if f i = f j, then F = F \ { f i } and S = S  { f i } Tämä algoritmi tuottaa tuloksen, joka on korkeintaan 2.75 kertainen verrattuna optimaalisen tulokseen

27 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 27 Heuristiikoista Sarakkeen pisteet: –  X p X log p X, missä p X edustaa kirjaimen X esiintymien määrää sarakkeessa (esimerkki) Peittokyky: –f peittää sarakkeen i jos l( f )  i  r( f ) –minimi, maksimi ja keskimääräinen peitto –erilliset alueet voidaan vaihtaa ilman että pisteet tai peittokyky pienenee

28 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 28 Heuristiikoista... Sidonnaisuus: –miten hyvin alueet on sidottu toisiinsa

29 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 29 Sekvenssointi käytännössä Ongelma ratkaistaan kolmessa erillisessa vaiheessa: –Limitysten laskenta –Asettelun määrittäminen –Konsensussekvenssin laskenta Syötteen ja tuloksen suhde vaikeampi ymmärtää kun osat eriytetty toisistaan

30 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 30 Limitysten laskeminen Dynaaminen ohjelmointi kuten aikaisemmin Kustannukset editointietäisyyden laskennalle esim: –täsmäys: 1 –korvaus: -1 –kolo: -2

31 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 31 Palojen suunta f ’ on f käännettynä –F D = F  F’, missä F’ = { f ’| f  F} Kaari f  g, kertoo että myös g’  f ’ on kaari eli yleisesti f 1  f 2    f k  f ’ k  f ’ k-1    f ’ 1 Erillisiin osiin jakautunut graafi seuraa huonosta peittokyvystä (nollakaaria ei humioida)

32 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 32 Palojen suunta... Toistot tuottavat syklejä tai kaaripareja ( f  g, f  h), missä mikään relaatioista g  h, h  g, g  h, h  g ei pidä paikaansa Sykli joka sisältää f ja f ’ saattaa merkitsee käännettyä toistoa Toistot voivat tuottaa myös ison peittokyvyn paikallisesti (kuva 4.13)

33 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 33 Asettelu ja konsensus Miten muodostaa konsensussekvenssi graafin polun perusteella kun syötteessä on virheitä? Polku f  g  h

34 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 34 Asettelu ja konsensus... Virheiden huomioiminen Kumpi ylläolevista f ja g :n rinnastuksista on oikea? Molemmissa sama editointikustannus

35 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 35 Asettelu ja konsensus... Virheiden huomioiminen Kolmas ratkaisee! d S ( f, S ) = d S (g, S ) = 1 ja d S (h, S ) = 0 Jos A rinnastetaan G :n kanssa niin sarake 6 sisältäisi kolme erilaista kirjainta! Jos konsensusjonossa valittaisiin tähän sarakkeeseen jokin muu kuin A kirjain niin summa d S ( f, S ) + d S (g, S ) + d S (h, S ) olisi suurempi!

36 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 36 Asettelu ja konsensus... Virheiden huomioiminen Jono h lisää kaaren G :stä A :n Kaari kertoo kumpi alkioista täytyy sijaita järjestyksessä ensin Tuloksena syklitön graafi joka voidaan lajitelle topologisella lajittelulla polynomisessa ajassa!

37 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 37 Asettelu ja konsensus... Asettelun parantaminen paikallisesti Monirinnastus paikallisesti tietyn kokoiselle alueelle Pienellä alueen koolla nopea Kustannukset esim p(a, b) = 1, kun a = b p(a, b) = 0, kun a  b p(a,  ) =  1 ja p( ,  ) = 0


Lataa ppt "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti 30-100 Kbp (pituus tiedetään."

Samankaltaiset esitykset


Iklan oleh Google