Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia.

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia Aakkostotaso (DNA, proteiini): identiteetti, vastaavuus, lisäys, poisto Yritetään päätellään sekvenssien suhteita käyttämällä aakkostoja ja erilaisia kustannusfunktioita, joilla yritetään mallintaa evoluutiota

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Rinnastus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Rinnastus... ACTGC  ACCGC  A-CGC  A-CGTC Kaksi rinnastusta ACTG-C tai ACTG-C A-CGTC AC-GTC Kumpi rinnastuksista on oikea/parempi? Evoluutiota ei voi arvata rinnastuksella Lisäyksiä ja poistoja ei voi erottaa

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Rinnastus...

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Samankaltaisuuden mitta Ei ole yhteisesti hyväksyttyä tarkkaa tapaa mitata samankaltaisuutta Perusoperaatiot: Identiteetti, Korvaus, Lisäys ja Poisto; yleisesti max{  (x)  I   (x)  K   (x)  L   (x)  P} Miten funtiot , ,  ja  määritellään? Voivat olla monimutkaisia funktioita (positio, positioiden peräkkäisyys jne)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 Yksinkertaistus Lasketaan vain Identiteetit, Korvaukset ja Aukot (gaps) eli poistot: max{  (x)  I   (x)  K   (x)  A } Identiteettien ja korvauksien arvot (“hyvyydet”) annetaan matriisimuodossa ja aukon sakkokustannus  (x) tehtävän mukaan (yleensä vakio)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Rinnastuksen tulokset Rinnastuksen tuottama samankaltaisuusarvo on suurin funktion M = max{  (x)  I   (x)  K   (x)  A } arvo Samalla annetaan myös kaikki sekvenssien erilaiset rinnastukset joiden tuottama samankaltaisuusarvo on M eli voi olla useita sekvenssien rinnastuksia jotka tuottavat arvon M

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Korvaus- kustannus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Dayhoff mutaatiomatriisit PAM = Point Accepted Mutations Todennäköisyysmatriisit perustuvat 85% identtisiin sekvensseihin Matriiseja kertomalla saadaan todennäköisyydet kaukaisille jonoille Käytettävä matriisi pitäisi valita jonojen etäisyyden perusteella?, esim 250 PAM kun identiteettejä on vain 20% Arvot on muutettu kokonaisluvuiksi

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13 Identtisyys ja PAM luvut Ongelma: miten tehdä sellainen matriisi jolla tunnistetaan sekvenssien sukulaisuudet kun jonoissa on vain 20% identtisiä merkkejä?

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 BLOSUM matriisit BLOcks SUBstitution Matrix Tehty BLOCKS kannan perusteella BLOSUM X on tehty sekvenssiryppään perusteella jossa kaikki jonot ovat ainakin X% samanlaisia, esim BLOSUM 62, BLOSUM 80 jne

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16 Matriisien vaikutus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17 Tilastollinen arviointi Arvo = score ja Expect = mitä lähempänä 0:llaa sitä “todellisempi” täsmäys

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Globaali rinnastus kaavassa funktio d kuvaa poiston kustannusta ja funktio s alkioiden samankaltaisuutta erilaisia rinnastuksia 2 O(n)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Laskenta matriisissa

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Algoritmi (Gotoh 1982) S 0,0  0 for i  1..n do S i,0  S i-1,0 -d for j  1..m do S 0,j  S 0,j-1 -d for i  1..n do for j  1..m do S i,j  max{S i-1,j - d, S i-1,j-1 + s(x i,y j ), S i,j-1 - d}

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Merkityksiä Ensimmäisen rivi kertoo kustannukset kun jonosta y postetaan kirjaimia alusta Ensimmäisen sarake kertoo kustannukset kun jonosta x poistetaan kirjaimia alusta Matriisin alkio (i, j) kertoo jonojen x 1..x i ja y 1..y j samankaltaisuuden eli paikasta (n, m) löydetään globaalin rinnastuksen arvo

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 Esimerkki

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Esimerkki...

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 24 Alkuperäinen Needleman- Wunsch (1970)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 25 Alkuperäinen Needleman- Wunsch algoritmi...

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 28 Dotplot

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 29 Dotplot...

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 30 Lokaali rinnastus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 31 Lokaali rinnastusalgoritmi for i  0..n do S i,0  0 for j  0..m do S 0,j  0 for i  1..n do for j  1..m do S i,j  max{0, S i-1,j - d, S i-1,j-1 + s(x i,y j ), S i,j-1 - d}

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 32 Merkitykset Ensimmäinen nollarivi antaa anteeksi tuhotut kirjaimet jonosta y Ensimmäinen nollasarake antaa anteeksi tuhotut kirjaimet jonosta x 0 rekursiyhtälössä sallii uuden rinnastuksn aloittamisen mistä vain Rinnastuksen arvo on max{(i, j)} mikä antaa anteeksi rinnastuksen x i+1..x n ja y j+1..y n

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 33 Lokaali rinnastus...

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 34 Smith-Waterman rinnastus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 35 Smith-Waterman rinnastus... täsmäys 1.0 ja epätäsmäys -0.33

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 36 Smith-Waterman rinnastus...

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 37 Dynaaminen ohjelmointi Edellä esitetyt algoritmit ovat esimerkkejä ns. dynaamisesta ohjelmoinnista Ongelma voidaan hajoittaa osaongelmiin (tyypillisesti päälekkäisiä), joiden arvon tallentamisesta voidaan hyötyä myöhemmin kun niitä ei tarvitse laskea uudelleen

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 38 FastA (1985) Haetaan lyhyet samanlaiset osajonot (proteiinit 1-2, DNA 6) vrt dotplot Yhdistellään saatuja pätkiä ja jos täsmäyksiä löytyy paljon niin käytetään dynaamista ohjelmointia

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 39 BLAST (1990) P35348 Basic Local Alignment Search Tool Erittäin nopea, koska optimoitu rinnakkaisille UNIX koneille Esii kaikki tietyn mittaiset yhtenäiset osajonot joiden saama samankaltaisuusarvo ylittää tietyn kynnysarvon Näitä täsmäyksiä pidennetään tietyin ehdoin ja ne annetaann tulokseksi

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 40 BLAST aukoilla Etsitään joinoista vain alue, jonka antama samankaltaisuuarvo on korkein ja laajennetaan tätä täsmäystä dynaamisella ohjelmoinnilla Nopeampi kuin edellinen (n. kolme kertaa) koska ei tarvitse tarkastella kaikki tarpeeksi hyviä täsmäyksiä

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 41 Osittain päälekkäinen täsmäys Hännistä ei haluta maksaa!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 42 Rekursioyhtälö Yhtälö sama kuin globaalissa rinnastuksessa, mutta alkuarvot samat kuin lokaalissa rinnastuksessa

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 43 Algoritmi for i  0..n do S i,0  0 for j  0..m do S 0,j  0 for i  1..n do for j  1..m do S i,j  max{S i-1,j - d, S i-1,j-1 + s(x i,y j ), S i,j-1 - d}

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 44 Merkitykset Ensimmäinen nollarivi (vast. nollasarake) antaa anteeksi tuhotut kirjaimet jonosta x (vast. y) Maksimin etsiminen alimmaiselta riviltä (vast. sarakkeelta) antaa anteeksi jonon x (vast. y) loppuosan Rinnastuksen tulos on max{{(n, j)  1  j  m}, {(i, m)  1  i  n}}

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 45 Esimerkki

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia.

Samankaltaiset esitykset

Esitys aiheesta: "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia."— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute

Kirjaudu sisään

Kirjaudu sisään sosiaaliverkostojen kautta:

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia.

Samankaltaiset esitykset

Esitys aiheesta: "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia."— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute