Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti 30-100 Kbp (pituus tiedetään.

Slides:



Advertisements
Samankaltaiset esitykset
1. Missä vietät joulun useimmiten?. 2. Missä viettäisit joulun mieluiten?
Advertisements

15. Loogiset operaatiot.
Gumbel Suuret sateet (yli 30 mm sateet + 50%) Toistumi saikaMinMaks KA A1B 2500,7230,8500,816 0, ,7190,8470,813 0, ,7090,8390,807 0,854 Muutos.
Hampuri, Saksa Löytää suunta, joka mahdollistaa Lions Clubs Internationalin saavuttavan sen täyden potentiaalin kansainvälisenä.
Ompelukuvasarja laskosverhon valmistuksesta yksittäiskappaleena.
Työ, teho ja yksinkertaiset koneet
Binääripuut Kaksihaaraista puuta sanotaan binääripuuksi:
vuorovaikutteiset www-sivut 1.Asiakas-palvelinmalli kuvana Request Response request.asp response.asp.
2.8.3 Abstraktit tietotyypit
% mikko rahikka 2010 hyl.fi.
Yhteystila-algoritmi
Langattomien laitteiden matematiikka 1
Perusopetuksen huoltajat 2014 Generated on :04.
2.2. komplementtisääntö ja yhteenlaskusääntö
Elämyshankekyselyn tulokset © Sovita Toteutus: Opiferum1.
Valitse seuraaviin vaihtoehtotehtäviin oikea vastaus…
Elinkeinopoliittinen mittaristo 2014 Pelkosenniemi 1.
Elinkeinopoliittinen mittaristo 2014 Kittilä 1. ELINKEINOPOLITIIKAN TILA 2.
Elinkeinopoliittinen mittaristo 2014 Kemi 1. ELINKEINOPOLITIIKAN TILA 2.
1 Senioreiden säästäminen ja maksutavat 2014 SENIOREIDEN SÄÄSTÄMINEN JA MAKSUTAVAT
1 ©TNS 2012 NEUVOLOIDEN VASTAANOTTOJEN ASIAKASTYYTYVÄISYYSMITTAUS Neuvolat - suurten kaupunkien vertailu 2012 Kaupunkikohtainen vertailu.
V V V V V V V V V V V V Kuuden suurimman kaupungin lasten päivähoidon palvelujen ja kustannusten vertailu 2009 Kuuden suurimman kaupungin lasten päivähoidon.
KERTAUSTA PERUSASTEEN MATEMATIIKASTA Piia junes
AET:n liikkuminen ja liputustekniikka
Säännöt 30 kuvaa 45 sekuntia / kuva 15 sekuntia kirjoitusaikaa Vastaus suomeksi, ruotsiksi, englanniksi, tieteellisellä nimellä tai sen 3+3 lyhenteellä.
Säännöt 30 kuvaa 45 sekuntia / kuva 10 sekuntia kirjoitusaikaa Vastaus suomeksi, ruotsiksi, englanniksi, tieteellisellä nimellä tai sen 3+3 lyhenteellä.
I.R.O. Research Oy vee 10/2000 Mediakäyttö Käyttää vähintään kerran viikossa Tytöt ja pojat *) Kirjat (esim. romaanit, lasten- ja nuortenkirjat)
Käyttösuhdelaskenta …Liikenteellisen toimivuuden arviointi.
Tulos ennen satunnaisia eriä Me 7,1 6,5 3,3 4,3 4,
TMA.003 / L3 ( )1 3. Funktioista 3.1. Kuvaus ja funktio Olkoon A ja B ei-tyhjiä joukkoja. Tulojoukon A  B = {(x,y) | x  A, y  B} osajoukko on.
RSA – Julkisen avaimen salakirjoitusmenetelmä Perusteet, algoritmit, hyökkäykset Matti K. Sinisalo, FL.
Elinkeinopoliittinen mittaristo 2014
Säännöt 30 kuvaa 45 sekuntia / kuva 15 sekuntia kirjoitusaikaa Vastaus suomeksi, ruotsiksi, englanniksi, tieteellisellä nimellä tai sen 3+3 lyhenteellä.
1.1. Itseisarvo * luvun etäisyys nollasta E.2. Poista itseisarvot
Yrittäjien äänestyskäyttäytyminen 50,7 57,6 55,0 23,4 20,3 21,9 11,4 9,3 8,0 5,2 5,5 6,9 4,2 4,5 3,6 0,7 1,7 1,3 1,7 0,0 0,0 0,7 0,0 0,0 2,7 1,0 3,3.
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia.
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista,
UMF I Luento 1. Aika Luennot, Klo 14–16 to 4.9 – ke 10.9 ke 24.9 – ke 1.10 ke – pe Demot, Klo 10–12/12–14/14–16 Pe 12.9, Ti 16.9, Pe 19.9.
Suuntaamattoman graafin syvyyshaku
1 Raha-asioiden suunnitteleminen ja nykyinen rahatilanne Senioritutkimus 2011.
Seinäjoki kisa A Tuomari: Tytti Lintenhofer ALO 12kyl, 4pys Kyl:
Maatalous, maaseutuyrittäminen rahavirrat 2008 ja 2007 Pohjois-Savo Jari Kauhanen MTK- Pohjois-Savo.
Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.
Eksponentiaalinen kasvaminen ja väheneminen
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia.
Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.
1 Akavalaisten ja kaikkien palkansaajien palkkatietoja Lähde: Tilastokeskus n Palkkarakennetilasto 2007, diat 2-24 n Sektorikohtaiset palkkatilastot.
Visual Basic -ohjelmointi
Maitotaito PIENEN VAUVAN PÄIVÄ Maitotaito.
Säännöt 30 kuvaa 45 sekuntia / kuva 15 sekuntia kirjoitusaikaa Vastaus suomeksi, ruotsiksi, englanniksi, tieteellisellä nimellä tai sen 3+3 lyhenteellä.
KORIPALLON VIRALLISET PELISÄÄNNÖT 2014
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
Heuristinen arviointi Käyttöliittymäseminaari Jere Salonen.
6. Relaatioalgebra ja relaatiokalkyyli
PARAABELI (2. ASTEEN FUNKTION KUVAAJIA)
5. Lineaarinen optimointi
Suomen Lääkäriliitto | Finnish Medical AssociationLääkärit Suomessa | Physicians in Finland Tilastotietoja lääkäreistä ja terveydenhuollosta 2014 Statistics.
Visual Basic -ohjelmointi
Kontrollirakenteet laajemmin
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 2 - Jirka Poropudas Optimointiopin seminaari - Kevät 2005 / 1 Bayes-verkoista s
Tilastollisesti merkitsevä nousu Tilastollisesti merkitsevä lasku Edelliseen aineistoon KMT 2005 verrattuna* KMT Kevät06 puolivuosiaineisto KMT SYKSY05/KEVÄT06.
Visual Basic -ohjelmointi
Funktio.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 25 - Mark Mehtonen Optimointiopin seminaari - Syksy 2005 / 1 The Chain Rule for Influence.
Kuplalajittelu (bubble sort)
Lajittelun sovelluksia Yksilöllisyyden testaaminen Kopioiden poistaminen Mediaani/n:ksi suurimman valinta frekvenssien laskenta/yleisin alkio, l.moodi.
Hajoita ja hallitse (divide and conquer) Pikalajittele n-alkioinen taulukko 1. Divide: Jaetaan taulukko kahdeksi alitaulukoksi tukialkion (pivot) x suhteen:
Graafi G - terminologia Ei-tyhjä solmujen/kärkien (vertex) joukko V(G) Kaarien (edge) joukko E(G) Suuntaamaton (G 1 ), Suunnattu (G 2 ) solmu kaari.
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
Lausekielinen ohjelmointi II Ensimmäinen harjoitustyö
Esityksen transkriptio:

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti Kbp (pituus tiedetään 10% tarkkuudella) Voidaan lukea satunnaisia 5’-3’ suuntaisia lyhyehköjä yhtenäisiä paloja (fragments)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Sekvensointi... Palojen suuntaa tai paikkaa ei tiedetä, lisäksi virheitä 1-5% Haulikkomenetelmä: –palan koko < 1000 – kappaletta Esim tiedetään että kohdejono on noin 10 merkkiä pitkä: Ideaaliesimerkki: Konsensusjono:

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3 Korvaus ja lisäys

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4 Poisto ja epäaito jono

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Suunta n palaa  2 n erilaista vaihtoehtoa

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Toisto

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Peitto (cover) Palojen muodostuminen satunnainen prosessi Pystytään laskemaan vain keskimääräinen peittokyky eli kaikkien palojen pituus jaettuna kohdejonon pituudella Olisi hyvä että tämä suhde olisi ainakin 8

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 Peittoon liittyviä arvioita Olkoon T kohdejonon pituus, n palojen määrä, l palojen koko, ja olkoon palat päälekkäin t positiota Todennäköisyyksiin perustuvia arvioita: –yhtenäisten alueiden määrä: ne  n(l  t)/T –k :n palan peittämä osuus: e  (nl / T) (nl / T) k / k!, missä nl / T on keskimääräinen peittokerroin

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Muita menetelmiä Haulikkomenetelmän täydennystä... Suora sekvenssointi –yhtenäisen alueen loppupäästä luodaan aluke (primer, polynukleotidiketju, käynnistää DNA:n kahdentumisen) –tämän avulla tuotetaan paloja, jotka sisältävät alukkeen, eli ne voidaan paikallistaa tarkasti –näin yhtenäisiä alueita yhdistetään toisiinsa –voidaan tehdä myös rinnakkain

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Muita menetelmiä Haulikkomenetelmän täydennystä... Kaksisuuntainen sekvenssointi ( dual end ) –1-5 kbp kokoisista jonoista voidaan lukea vain alle 1000 merkkiä, tämä voidaan kuitenkin tehdä molempiin suuntiin –nyt kustakin jonosta luetaan kaksi palaa, joiden etäisyys tiedetään tarkasti; tämä auttaa paljon yhtenäisten alueiden yhdistämisessä!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Muita menetelmiä Sekvenssointi hybridisaation avulla ( SBH ) Kohdejono hybridisoidaan monen hyvin lyhyen kiinteämittaisen koettimen (probe) kanssa; (vrt DNA rakenne) DNA siru pyritään suunnitelemaan siten että kaikki tarpeelliset hybridisaatiot tapahtuvat; ei triviaali esim toistot, jakautuma ja minimikoko Nykyään koettimen maksimikoko on 8

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Muita menetelmiä Sekvenssointi hybridisaation avulla... Voidaanko kaikki kohdejonoja sekvenssoida lyhyillä koettimilla? Koetin voi hybridisoitua useampaan kertaan, tästä ei kuitenkaan tietoa Haulikkomenetelmän toteutus hybridisaatiolla –koettimet voidaan tuottaa paloista, mutta kaikki paloja ei voida tuottaa koettimista

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13 Ongelman mallinnnus Kolme lähestymistapaa –Lyhin yhteinen merkkijono (SCS) –Uudelleenrakennus (Reconstruction) –Monijatkumo eli jatkumoiden (yhtenäisten alueiden) yhdistäminen (multicontig) Syötteessä ei ole –Haamujonoja (chimeras) –Vierasta DNA:ta kloonauksen jäljiltä

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 Lyhin yhteinen merkkijono (SCS) Syöte: joukko F paloja Tulos: Lyhyin jono S, jolle (  f  F ): f on S :n osajono Esim F = { ACT, CTA, AGT } jolloin S = ACTAGT Oletus: virheitä ei ole ja jokaisen palan suunta on määritelty

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15 Lyhin yhteinen merkkijono... Toisto-ongelma Tulos huono peitteen ja sidonnaisuuden kannalta

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16 Uudelleenrakennus (reconstruction) Editointietäisyys d –Poiston, lisäyksen ja vaihdon kustannus on 1 Etäisyyslasku d S (a, b) = min s  S(b) d(a, s), missä S(b) tarkoittaa kaikkia b :n osajonoja (ei alijonoja) Yleensä d S (a, b)  d S (b, a)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17 Uudelleenrakennus... Vertaa osittain päälekkäinen täsmäysosittain päälekkäinen täsmäys Huomioi virheet ja suunnat muttei toistoja, peittoalueen puutteita tai kohdejonon pituutta

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Monijatkumo Jatkumoiden kiinnittyminen toisiinsa Tarkastellaan palajoukosta F (ei virheitä) muodostettua asettelua L –Jokaisessa sarakkeessa täytyy olla vain yhden tyyppisiä merkkejä (ei virheitä) –Palasta on asettelussa käytössä vain sen toinen suunta –Numeroidaan sarakkeet 1.. |L|

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Monijatkumo... Palan f koko on | f | = r( f )  l( f ) +1, kun f :n alkukohta on l( f ) ja loppukohta r( f ) asettelussa L (ei “ - ” merkkejä) Jos [l( f )..r( f )]  [l(g)..r(g)]  Ø, niin sanotaan, että f ja g ovat limittäin, ja tätä leikkausta sanotaan palojen f ja g limitykseksi limityksen koko on leikkausjoukon koko

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Monijatkumo... Limitys [x..y] ei ole linkki jos jokin pala sisältää limityksen [(x  1)..( y +1)] ; muutoin limitys on linkki Heikoin linkki asettelussa on pienimmän linkin koko Asettelu on t -jatkumo jos sen heikoin linkki on vähintään t :n kokoinen

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Monijatkumo... Syöte: palajouko F ja kokonaisluku t Tulos: joukon F jakaminen mahdollisimman pieneen määrään alijoukkoja C i, 1  i  k, niin että jokainen muodostaa t- jatkumon

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 F ={ GTAC, TAATG, TGTAA } t = 3: t = 2: t = 1:

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Monijatkumo... Virheet: muodostetaan konsensusjono (mahdollisesti “ - ” merkkejä) Yleisesti | f |  r( f )  l( f ) +1 Määritellään –S[l( f )... r( f )] on palan f kuva S on  -konsensus jos editointietäisyys f ja sen kuvan välillä on korkeintaan  | f |

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 24 Monijatkumo... Uudelleenrakennusmallissa palojen paikka ei ole tärkeä kun taas tässä on Ei huomioi kohdejonon pituutta, selviää joistakin toisto-ongelmista (kuva 4.12)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 25 Limitykset graafina

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 26 Ahne idea F ={ f 1,..., f n }, S  Ø while F  Ø do for f i = uv, f j = vw  F with maximum overlap v (a) if f i  f j, then F = (F \ { f i, f j })  {uvw} (b) if f i = f j, then F = F \ { f i } and S = S  { f i } Tämä algoritmi tuottaa tuloksen, joka on korkeintaan 2.75 kertainen verrattuna optimaalisen tulokseen

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 27 Heuristiikoista Sarakkeen pisteet: –  X p X log p X, missä p X edustaa kirjaimen X esiintymien määrää sarakkeessa (esimerkki) Peittokyky: –f peittää sarakkeen i jos l( f )  i  r( f ) –minimi, maksimi ja keskimääräinen peitto –erilliset alueet voidaan vaihtaa ilman että pisteet tai peittokyky pienenee

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 28 Heuristiikoista... Sidonnaisuus: –miten hyvin alueet on sidottu toisiinsa

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 29 Sekvenssointi käytännössä Ongelma ratkaistaan kolmessa erillisessa vaiheessa: –Limitysten laskenta –Asettelun määrittäminen –Konsensussekvenssin laskenta Syötteen ja tuloksen suhde vaikeampi ymmärtää kun osat eriytetty toisistaan

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 30 Limitysten laskeminen Dynaaminen ohjelmointi kuten aikaisemmin Kustannukset editointietäisyyden laskennalle esim: –täsmäys: 1 –korvaus: -1 –kolo: -2

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 31 Palojen suunta f ’ on f käännettynä –F D = F  F’, missä F’ = { f ’| f  F} Kaari f  g, kertoo että myös g’  f ’ on kaari eli yleisesti f 1  f 2    f k  f ’ k  f ’ k-1    f ’ 1 Erillisiin osiin jakautunut graafi seuraa huonosta peittokyvystä (nollakaaria ei humioida)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 32 Palojen suunta... Toistot tuottavat syklejä tai kaaripareja ( f  g, f  h), missä mikään relaatioista g  h, h  g, g  h, h  g ei pidä paikaansa Sykli joka sisältää f ja f ’ saattaa merkitsee käännettyä toistoa Toistot voivat tuottaa myös ison peittokyvyn paikallisesti (kuva 4.13)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 33 Asettelu ja konsensus Miten muodostaa konsensussekvenssi graafin polun perusteella kun syötteessä on virheitä? Polku f  g  h

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 34 Asettelu ja konsensus... Virheiden huomioiminen Kumpi ylläolevista f ja g :n rinnastuksista on oikea? Molemmissa sama editointikustannus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 35 Asettelu ja konsensus... Virheiden huomioiminen Kolmas ratkaisee! d S ( f, S ) = d S (g, S ) = 1 ja d S (h, S ) = 0 Jos A rinnastetaan G :n kanssa niin sarake 6 sisältäisi kolme erilaista kirjainta! Jos konsensusjonossa valittaisiin tähän sarakkeeseen jokin muu kuin A kirjain niin summa d S ( f, S ) + d S (g, S ) + d S (h, S ) olisi suurempi!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 36 Asettelu ja konsensus... Virheiden huomioiminen Jono h lisää kaaren G :stä A :n Kaari kertoo kumpi alkioista täytyy sijaita järjestyksessä ensin Tuloksena syklitön graafi joka voidaan lajitelle topologisella lajittelulla polynomisessa ajassa!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 37 Asettelu ja konsensus... Asettelun parantaminen paikallisesti Monirinnastus paikallisesti tietyn kokoiselle alueelle Pienellä alueen koolla nopea Kustannukset esim p(a, b) = 1, kun a = b p(a, b) = 0, kun a  b p(a,  ) =  1 ja p( ,  ) = 0