Lataa esitys
Esittely latautuu. Ole hyvä ja odota
JulkaistuEmma Nieminen Muutettu yli 9 vuotta sitten
1
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia Aakkostotaso (DNA, proteiini): identiteetti, vastaavuus, lisäys, poisto Yritetään päätellään sekvenssien suhteita käyttämällä aakkostoja ja erilaisia kustannusfunktioita, joilla yritetään mallintaa evoluutiota
2
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Rinnastus
3
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3
4
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4
5
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Rinnastus... ACTGC ACCGC A-CGC A-CGTC Kaksi rinnastusta ACTG-C tai ACTG-C A-CGTC AC-GTC Kumpi rinnastuksista on oikea/parempi? Evoluutiota ei voi arvata rinnastuksella Lisäyksiä ja poistoja ei voi erottaa
6
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Rinnastus...
7
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Samankaltaisuuden mitta Ei ole yhteisesti hyväksyttyä tarkkaa tapaa mitata samankaltaisuutta Perusoperaatiot: Identiteetti, Korvaus, Lisäys ja Poisto; yleisesti max{ (x) I (x) K (x) L (x) P} Miten funtiot , , ja määritellään? Voivat olla monimutkaisia funktioita (positio, positioiden peräkkäisyys jne)
8
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 Yksinkertaistus Lasketaan vain Identiteetit, Korvaukset ja Aukot (gaps) eli poistot: max{ (x) I (x) K (x) A } Identiteettien ja korvauksien arvot (“hyvyydet”) annetaan matriisimuodossa ja aukon sakkokustannus (x) tehtävän mukaan (yleensä vakio)
9
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Rinnastuksen tulokset Rinnastuksen tuottama samankaltai- suusarvo on suurin funktion M = max{ (x) I (x) K (x) A } arvo Samalla annetaan myös kaikki sekvenssien erilaiset rinnastukset joiden tuottama samankaltaisuusarvo on M eli voi olla useita sekvenssien rinnastuksia jotka tuottavat arvon M
10
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Korvaus- kustannus
11
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Dayhoff mutaatiomatriisit PAM = Point Accepted Mutations Todennäköisyysmatriisit perustuvat 85% identtisiin sekvensseihin Matriiseja kertomalla saadaan todennäköisyydet kaukaisille jonoille Käytettävä matriisi pitäisi valita jonojen etäisyyden perusteella?, esim 250 PAM kun identiteettejä on vain 20% Arvot on muutettu kokonaisluvuiksi
12
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Korvaus- kustannus
13
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13 Identtisyys ja PAM luvut Ongelma: miten tehdä sellainen matriisi jolla tunnistetaan sekvenssien sukulaisuudet kun jonoissa on vain 20% identtisiä merkkejä?
14
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 BLOSUM matriisit BLOcks SUBstitution Matrix Tehty BLOCKS kannan perusteella BLOSUM X on tehty sekvenssiryppään perusteella jossa kaikki jonot ovat ainakin X% samanlaisia, esim BLOSUM 62, BLOSUM 80 jne
15
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15 Korvaus- kustannus
16
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16 Matriisien vaikutus
17
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17 Tilastollinen arviointi Arvo = score ja Expect = mitä lähempänä 0:llaa sitä “todellisempi” täsmäys
18
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Globaali rinnastus kaavassa funktio d kuvaa poiston kustannusta ja funktio s alkioiden samankaltaisuutta erilaisia rinnastuksia 2 O(n)
19
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Laskenta matriisissa
20
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Algoritmi (Gotoh 1982) S 0,0 0 for i 1..n do S i,0 S i-1,0 -d for j 1..m do S 0,j S 0,j-1 -d for i 1..n do for j 1..m do S i,j max{S i-1,j - d, S i-1,j-1 + s(x i,y j ), S i,j-1 - d}
21
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Merkityksiä Ensimmäisen rivi kertoo kustannukset kun jonosta y postetaan kirjaimia alusta Ensimmäisen sarake kertoo kustannukset kun jonosta x poistetaan kirjaimia alusta Matriisin alkio (i, j) kertoo jonojen x 1..x i ja y 1..y j samankaltaisuuden eli paikasta (n, m) löydetään globaalin rinnastuksen arvo
22
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 Esimerkki
23
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Esimerkki...
24
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 24 Alkuperäinen Needleman- Wunsch (1970)
25
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 25 Alkuperäinen Needleman- Wunsch algoritmi...
26
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 26 Alkuperäinen Needleman- Wunsch algoritmi...
27
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 27 Alkuperäinen Needleman- Wunsch algoritmi...
28
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 28 Dotplot
29
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 29 Dotplot...
30
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 30 Lokaali rinnastus
31
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 31 Lokaali rinnastusalgoritmi for i 0..n do S i,0 0 for j 0..m do S 0,j 0 for i 1..n do for j 1..m do S i,j max{0, S i-1,j - d, S i-1,j-1 + s(x i,y j ), S i,j-1 - d}
32
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 32 Merkitykset Ensimmäinen nollarivi antaa anteeksi tuhotut kirjaimet jonosta y Ensimmäinen nollasarake antaa anteeksi tuhotut kirjaimet jonosta x 0 rekursiyhtälössä sallii uuden rinnastuksn aloittamisen mistä vain Rinnastuksen arvo on max{(i, j)} mikä antaa anteeksi rinnastuksen x i+1..x n ja y j+1..y n
33
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 33 Lokaali rinnastus...
34
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 34 Smith-Waterman rinnastus
35
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 35 Smith-Waterman rinnastus... täsmäys 1.0 ja epätäsmäys -0.33
36
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 36 Smith-Waterman rinnastus...
37
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 37 Dynaaminen ohjelmointi Edellä esitetyt algoritmit ovat esimerkkejä ns. dynaamisesta ohjelmoinnista Ongelma voidaan hajoittaa osaongelmiin (tyypillisesti päälekkäisiä), joiden arvon tallentamisesta voidaan hyötyä myöhemmin kun niitä ei tarvitse laskea uudelleen
38
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 38 FastA (1985) Haetaan lyhyet samanlaiset osajonot (proteiinit 1-2, DNA 6) vrt dotplot Yhdistellään saatuja pätkiä ja jos täsmäyksiä löytyy paljon niin käytetään dynaamista ohjelmointia
39
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 39 BLAST (1990) P35348 Basic Local Alignment Search Tool Erittäin nopea, koska optimoitu rinnakkaisille UNIX koneille Esii kaikki tietyn mittaiset yhtenäiset osajonot joiden saama samankaltai- suusarvo ylittää tietyn kynnysarvon Näitä täsmäyksiä pidennetään tietyin ehdoin ja ne annetaann tulokseksi
40
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 40 BLAST aukoilla Etsitään joinoista vain alue, jonka antama samankaltaisuuarvo on korkein ja laajennetaan tätä täsmäystä dynaamisella ohjelmoinnilla Nopeampi kuin edellinen (n. kolme kertaa) koska ei tarvitse tarkastella kaikki tarpeeksi hyviä täsmäyksiä
41
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 41 Osittain päälekkäinen täsmäys Hännistä ei haluta maksaa!
42
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 42 Rekursioyhtälö Yhtälö sama kuin globaalissa rinnastuksessa, mutta alkuarvot samat kuin lokaalissa rinnastuksessa
43
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 43 Algoritmi for i 0..n do S i,0 0 for j 0..m do S 0,j 0 for i 1..n do for j 1..m do S i,j max{S i-1,j - d, S i-1,j-1 + s(x i,y j ), S i,j-1 - d}
44
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 44 Merkitykset Ensimmäinen nollarivi (vast. nollasarake) antaa anteeksi tuhotut kirjaimet jonosta x (vast. y) Maksimin etsiminen alimmaiselta riviltä (vast. sarakkeelta) antaa anteeksi jonon x (vast. y) loppuosan Rinnastuksen tulos on max{{(n, j) 1 j m}, {(i, m) 1 i n}}
45
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 45 Esimerkki
Samankaltaiset esitykset
© 2024 SlidePlayer.fi Inc.
All rights reserved.