2. luento Kahden sekvenssin rinnastus

2. luento Kahden sekvenssin rinnastus

Miksi rinnastusta opetetaan
Keskeisintä bioinformatiikkaa Osa eniten käytettyjä bioinformatiikan tehtäviä käyttää rinnastusta: Tietokantahaut sekvensseillä Kahden eliön genomien vertailu Monen sekvenssin linjaus Selvitetään proteiiniperheen aktiivinen keskus Käytetään linjauksia selvittämään sekvenssien evoluutiota Oikein tehty rinnastus on vaatimus onnistuneille muille tehtäville Perustuu J.Tuimalan originaaleihin

Miten rinnastus tehdään?
Ruutupaperilla / Tietokoneella Rinnastaminen ei ole objektiivista Tietokoneen tulokset pitää tarkistaa Voidaan päätellä: konservoituneita alueita pistemutaatioita lajien tai geenien evolutiivisia suhteita Perustuu J.Tuimalan originaaleihin

Kahden sekvenssin rinnastus
Kahden sekvenssin rinnastukseen on olemassa useita menetelmiä. Pistematriisi-menetelmä (dot-plot) Dynaaminen optimointi Sana- tai k-tuple-menetelmät Tietokantahaut (Fasta) BLAST Perustuu J.Tuimalan originaaleihin

Rinnastustyypit Paikallinen rinnastus (local), jossa vain osa sekvenssien kokonaispituudesta pyritään rinnastamaan: Kokonaisrinnastus (global), jossa rinnastettavat sekvenssit pyritään asettamaan toisiaan vasten koko pituudeltaan. Perustuu J.Tuimalan originaaleihin

Dot-plot I Käytetään kahden sekvenssin rinnastukseen.
Tarkoittaa kuvaa, jossa rinnastettavat sekvenssit asetetaan koordinaatistoon, toinen x-akselille ja toinen y-akselille. Sellaisiin kohtiin, joissa molemmissa sekvensseissä on sama aminohappo tai nukleotidi merkitään piste tai rasti. Kuvioon muodostuvia diagonaalisia suoria käyttäen voidaan rinnastaa tutkittavat kaksi sekvenssiä. Perustuu J.Tuimalan originaaleihin

Miksi dot plot:ia opetetaan
Yksinkertainen toimintaperiaate Selittää monimutkikkaampien ohjelmien toimintaa Hyödyllinen visualisointi Pystyy esittämään toistoalueita, kääntyneitä alueita Dot plot –menetelmät suomeksi pistematriisimenetelmät (?) Perustuu J.Tuimalan originaaleihin

Dot-plot II Kaksi lyhyttä, identtistä sekvenssiä dot-plotissa. Tässä kuvassa alaoikealle suuntautuva diagonaalinen suora määrittää kokonaisrinnastuksen. Kuvasta voidaan löytää myös useampia paikallisia rinnastuksia. T K E V I V T K E D M R T * * K * * E * * V * * sekv 1. TKEVIVTKEDMR I * sekv 2. TKEVIVTKEDMR V * * D * M * R * Perustuu J.Tuimalan originaaleihin

Harjoitellaan! Muodosta seuraavista sekvensseistä dot-plot ruutupaperia käyttäen. sekvenssi 1: ACG ACG GTC GAC TG sekvenssi 2: ACG ACG GTA GAC TG

Merkkaa sitten rasti joka kohdalle, jossa identtinen emäs
Kirjoita ensin sekvenssit näkyviin taulukon ekalle riville ja ekaan sarakkeeseen Merkkaa sitten rasti joka kohdalle, jossa identtinen emäs A C G T

…sitten A C G T X

A C G T X Paras rinnastus: ACG ACG GTC GAC TG ACG ACG GTA GAC TG

Tee sama sanakoolla 2: A C G T

A C G T

Dot-plot netissä - sekä proteiini- että nukleotidisekvensseille – vain nukleotidisekvensseille –mille tahansa merkkijonolle

Dot-plottien tekoon käytettäviä EMBOSS. -ohjelmia http://emboss
Dot-plottien tekoon käytettäviä EMBOSS*-ohjelmia => Valitse valikosta Alignment Dot Plots dotmatcher Laskee pistekartan käyttäen samankaltaisuusvertailussa sanapituutta ja kynnysarvoa (sensitiivisempi) dotpath Laskee pistekartan, jossa ei ole päällekkäin meneviä diagonaalin suuntaisia viivoja. (”paras polku”) dottup Piirtää pistekartan käyttäen samankaltaisuusvertailussa annetun mittaisten sanojen (esim. 2, 5 tai 10 emäsparia) 100% identtisyyttä (hyvin simppeli!) polydot Lukee sisään joukon sekvenssejä ja tekee kaikille sekvenssipareille pistekartan *EMBOSS on vapaasti saatavilla oleva ohjelmistopaketti joka on rakennettu erityisesti molekyylibiologian tarpeisiin

Dottup Wordsize 2 Dottup etsii kohdat, joissa molemmilla sekvensseillä on käyttäjän antaman sanakoon mittainen täydellinen vastaavuus, ja piirtää vastaavuuden kohdalle diagonaalin suuntaisen viivan Nopea, muttei kovin herkkä (sensitiivinen) tapa luoda pistekarttoja Sopii visualisoimaan keskenään hyvin samankaltaisia alueita Wordsize 4 Esim.sekvenssi, jota vertaillaan itseensä: AGGGGTCCAAGGGAAATTGCCTGCAA Wordsize 10 TAI

Testataan eri dot-plot-ohjelmia!
Dottup. Esimerkkisekvenssit sekv. 1: agcgtcccgtttgtcaaggccctgaaacgaac sekv. 2: agggtcccgtttgatcagggcctgaaacgtc Dottup wordsize 3 Dottup wordsize 4

Dotmatcher Dotmatcher Dotmatcher
Siirtää annetun sanakoon mittaista ikkunaa kaikkien diagonaalin suuntaisten suorien mukaisesti ja piirtää viivan niille kohdille, joissa rinnastuksen pistesumma ylittää annetun kynnysarvon (vertailuun käytetään oletusarvoisesti EDNAFULL-nimistä pisteytysmatriisia) Hitaampi kuin Dottup mutta huomattavasti sensitiivisempi Dotmatcher wordsize 4, threshold 10 Dotmatcher wordsize 4, threshold 15

Dotpath Etsii kaikki sanakoon tai pidemmän mittaiset vastaavuudet kahden sekvenssin välillä. Sitten Dotpath redusoi löydetyt vastavuudet pienimpään mahdolliseen määrään ei-limittäisiä pitkiä vastaavuuksia Löytää (lähes) optimaalisen linjauksen kahden sekvenssin välillä. Keskenään hyvin samanlaisille sekvensseille tuottaa saman tuloksen kuin water tai needle (jotka ovat oikeasti optimaalisia, kts. rinnastusalgoritmit). Toimii hyvin pitkien sekvenssien kanssa) Dotpath wordsize 4

Dotmatcher kynnysarvo (threshold) samankaltaisuudelle:
Yksinkertainen esimerkki: tietystä sanakoosta jonkin tietyn määrän täytyy olla täydellisiä osumia: Esimerkiksi, jos sanakoko on viisi, ja määritetään, että vähintään neljä osumaa täytyy löytyä (treshold=15, koska yksi osuma on 5 pistettä ja ”huti” -4 pistettä EDNAFULL-taulukossa) : ACGTA -> viisi osumaa | | | | | ACGTA -> merkitään pisteet dot-plotiin ACGTA -> kolme osumaa | | | ACCTT -> ei pisteitä dot-plotiin Perustuu J.Tuimalan originaaleihin

Dotmatcher Tietyllä sanakoolla jonkin osumien riittävän samankaltaisuuden osoittavan kynnysarvon täytyy ylittyä: Pisteytysmatriisi osumien pisteytykseen Määritellään kynnysarvo pisteytysmatriisin perusteella lasketulle pistemäärälle Tämä kynnysarvo toimii samalla tavoin kuin edellä esitelty osumien kynnysarvo. Jos jonkin alueen saama pistemäärä ei ylitä määriteltyä kynnysarvoa, ei kuvioon merkitä pisteitä kyseisille kohdille Perustuu J.Tuimalan originaaleihin

Dot-plot, sanakoko ja raja-arvo: eräs DNA-sekvenssi verrattuna itseensä
3,5 3,15 11, ,55 Perustuu J.Tuimalan originaaleihin

Esim. vertaillaan seuraavia proteiineja toisiinsa eri dot-plot-menetelmin:
Sekv. 1. swissprot:csk_mouse Sekv. 2. swissprot:grb2_mouse Csk = c-src tyrosine kinase Grb2 = growth factor receptor bound protein 2 *matcher finds the best local alignments between two sequences

Ajetaan dottup: Dottup: sanakoko 3 Dottup: sanakoko 5

Ajetaan dotmatcher: Windowsize=3, threshold =7.00

...tulosten tulkinta Löydämme paikallisia, toisiaan muistuttavia alueita Nyt kannattaa katsoa tarkemmin, ovatko jaetut alueet vaikkapa toiminnallisesti tärkeitä funktionaalisia domeeneja. ... Itse asiassa hiiren Csk-proteiinista tiedetään, että se sisältää yhden SH3-domainin (9-70) ja yhden SH2-domainin (82-171) Ja hiiren Grb2-proteiini sisältää yhden SH2-domainin (60-152) ja 2 SH3-domainia muistuttavaa aluetta (1-58 ja )

Siis… Dotmatcher herkempi ja monipuolisempi kuin esim. dottup (pisteytysmatriisi mukana) Herkempi, koska ei tarkastele pelkkiä täydellisiä identtisyyksiä, vaan pystyy samankaltaisuuden kynnysarvoa käyttämällä havaitsemaan myös heikommin samankaltaisia alueita

...Mutta miksi tehdä pistekarttoja?
vertaavat toisiinsa sekvenssien kaikkia kohtia eivätkä poimi esille vain yksittäisiä samankaltaisia alueita esim toistuvat tai kaukana toisistaan olevat samankaltaiset alueet helpompi havaita pistekartoissa voidaan käyttää myös sekvenssin sisäisten samankaltaisuuksien analyysiin – löytää toistojaksot ja samantyyppiset toistuvat domeenit, sekä palindromisekvenssit!

Lisää rinnastusta: Aukkosakkoparametrit (Gap penalties)
Sekvenssievoluutiossa tapahtuu insertioita ja deleetioita → rinnastuksessa tarve aukkoihin Aukkojen lisäämisen ja jatkamisen vaikutukset rinnastuksen laatuun? Aukkoja pyritään välttämään, joten aukkosakkoparametrit asetetaan niin, että aukkojen lisääminen pienentää rinnastuksen saamaa samankaltaisuuspistemäärää Perustuu J.Tuimalan originaaleihin

Paras rinnastus Sellainen rinnastus, joka saa suurimman pistemäärän (tai pienimmän sakkomäärän) on paras rinnastus. Pistemäärä riippuu käytetyistä parametreista! Käytettävät parametrit tarkoittaa: Valittu pisteytysmatriisi ja aukkosakkoparametrit Perustuu J.Tuimalan originaaleihin

Aukkosakkoparametrit I
Aukot ovat evolutiivisesti ajateltuna kalliita. Yleensä aukkojen muodostumista sekvensseihin kuvataan siten, että aukon syntymisellä (tai avaamisella) ja jo avatun aukon jatkamisella on omat sakkonsa (affine gap penalty -pisteytys). Aukon avaamiseen liittyvä sakko on yleensä suurempi kuin aukon jatkamiseen liittyvä sakko. Perustuu J.Tuimalan originaaleihin

Aukkosakkoparametrit II
Matemaattisesti merkittynä siis P = c + gd jossa c on aukon avaamiseen liittyvä sakko, d aukon jatkamiseen liittyvä sakko ja g jatkon pituus. Jos rinnastukseen haluaa paljon aukkoja, pitää aukon avaamisesta johtuvaa sakkoa alentaa. Jos pitkät aukot ovat toivottavampia, alennetaan aukon jatkamisesta johtuvaa sakkoa. Perustuu J.Tuimalan originaaleihin

Rinnastuksen pistemäärä
Rinnastus: KARI LARI PAM-250-matriisi: K-L -3 A-A +2 R-R +6 I-I +5 (-3) = 10 Perustuu J.Tuimalan originaaleihin

Rinnastus: KATARRI vs. LARI 1. 2. KATARRI KATARRI LA---RI LA--R-I
KATARRI KATARRI LA---RI LA--R-I Aukkosakot (avaus=-10, jatko=-1): *(-1) = = *(-1) - 10 = -21 PAM-250-matriisi: K-L -3 A-A +2 R-R +6 I-I +5 (-3) = 10 Rinnastus 1: Yht = ja Rinnastus 2: = -11 Perustuu J.Tuimalan originaaleihin

Sakkoparametrien valinta?
Ei selkeää käytäntöä (samassa mielessä kuin pisteytysmatriiseille), suositellaan että: aukon avaamissakko (itseisarvoltaan) hieman suurempi kuin suurin käytetyssä pisteytysmatriisissa identtisyydestä annettava pistemäärä Laajennussakko n. 10% aukonavaamissakosta Rinnastusohjelmien oletusarvot on asetettu kokemuksen perusteella niin, että tuottavat keskimäärin hyviä tuloksia 2-vaiheisen aukkosakon lisäksi joissakin algoritmeissa myös muita aukkomalleja Perustuu J.Tuimalan originaaleihin

Rinnastusalgoritmit Mikä tahansa rinnastus voidaan pisteyttää kun aukkosakkoparametrit ja pisteytysmatriisi on päätetty Vähänkään pidemmillä sekvensseillä mahdollisia rinnastuksia valtava määrä – ei voi vertailla käsin → entäpä tietokoneella? Miten löytää rinnastus, joka saa suurimman pistemäärän ja siis on annettuja parametreja käyttäen paras mahdollinen rinnastus?

Mitä pidemmät sekvenssit, sitä enemmän mahdollisuuksia
Esim. lyhyet DNA-sekvenssit, 95 bp ja 100 bp rinnastetaan → mahdollisia rinnastuksia ~ 55 milj. kpl pelkästään 5 nukleotidin aukon huomioonottamisella! Mitä pidemmät sekvenssit, sitä enemmän mahdollisuuksia → Laskennallinen ongelma! Yleisimmin paras rinnastus etsitään ohjelmilla jotka käyttävät dynaamista optimointia: Jaetaan ongelma pienempiin aliongelmiin ja kootaan lopullinen vastaus osavastausten avulla Ensimmäisenä tällaisen kehittivät Needleman ja Wunsch, joiden algoritmi on yksi bioinformatiikan kulmakiviä

Needleman-Wunch -algoritmi
Sekvenssit asetetaan taulukon pysty- ja vaakariveille samalla tapaan kuin pistematriisimenetelmässä (dot plot). Taulukon ensimmäinen rivi ja ensimmäinen sarake ”varataan” aukolle. Tässä yhteydessä pitää myös valita, kuinka paljon sakotetaan aukon avaamisesta ja kuinka paljon aukon jatkamisesta. Perustuu J.Tuimalan originaaleihin

Needleman-Wunch netissä
Yksinkertainen esitys Ratkaisu haetaan alhaalta ylöspäin (päinvastoin kuin muissa) Pieni esimerkki Youtube-videosarja aiheesta Perustuu J.Tuimalan originaaleihin

Needleman-Wunch II Taulukon jokainen solu kertoo ko. soluun mennessä tehdyn linjauksen saaman kokonaispistemäärän (tietyllä pisteytysmatriisilla ja aukkosakoilla) Jokaiseen soluun voidaan saapua kolmea eri reittiä: edellisestä diagonaalisolusta (match/mismatch), vertikaalisesti (aukko ylärivin sekvenssiin) tai horisontaalisesti (aukko vasemman puoleiseen sekvenssiin)

Needleman-Wunsch II Fi,j = Max [
+si,j Fi,j = Max [ Fi-1, j-1 + si,j (match/mismatch in the diagonal), Fi,j-1 - d (gap in sequence #1), Fi-1,j - d (gap in sequence #2) ] Perustuu J.Tuimalan originaaleihin

Needleman-Wunsch III Three steps in dynamic programming
Initialization Matrix fill (scoring) Traceback (alignment) Esimerkiksi, rinnastetaan kaksi DNA-sekvenssiä. Valitaan pistemääriksi (hyvin simppeli versio) Match 1 Mismatch 0 Gap 0 Muodostetaan sekvensseistä matriisi → Perustuu J.Tuimalan originaaleihin

Initialization Step Source: http://www. sbc. su
The first step in the global alignment dynamic programming approach is to create a matrix with M + 1 columns and N + 1 rows where M and N correspond to the size of the sequences to be aligned. Since this example assumes there is no gap opening or gap extension penalty, the first row and first column of the matrix can be initially filled with 0.

Matrix Fill Step For each position, Fi,j is defined to be the maximum score at position i,j; i.e. Fi,j = Max [ Fi-1, j-1 + si,j (match/mismatch in the diagonal), Fi,j-1 - d (gap in sequence #1), Fi-1,j - d (gap in sequence #2) ]

Solun nimi: F0,0 Solun nimi: F1,1
Using this information, the score at position 1,1 in the matrix can be calculated. Since the first residue in both sequences is a ’G’, s1,1 = 1, and by the assumptions stated at the beginning, d = 0. Thus, F1,1= Max [F0,0+1, F1, 0+0, F0,1+0] = Max [1, 0, 0] = 1. Eli hakasulkujen sisältä suurin arvo siirtyy solulle F1,1. Jos solussa on osuma (match) niin hakasuluissa eka arvo on osuma (1 piste) plus diagonaalin arvo (tässä 0). Siksi hakasten sisällä eka numero on 1 eli solun F1,1 arvo on osuma plus solu F0,0. Yläpuolella tai vasemmalla oleville soluille ei ynnätä kohdesolun (tässä tapauksessa F1,1) arvoa vaan aukkosakko (eli nolla)! A value of 1 is then placed in position 1,1 of the scoring matrix. Solun nimi: F0,0 Solun nimi: F1,1

Row 1. At column 2, the value is the max of 0 (for a mismatch), 0 (for a vertical gap) or 1 (horizontal gap). The rest of row 1 can be filled out similarly until we get to column 8. At this point, there is a G in both sequences (light blue). Thus, the value for the cell at row 1 column 8 is the maximum of 1 (for a match), 0 (for a vertical gap) or 1 (horizontal gap). The value will again be 1. The rest of row 1 and column 1 can be filled with 1 using the above reasoning.

At the position column 2 row 3, there is an A in both sequences
At the position column 2 row 3, there is an A in both sequences. Thus, its value will be the maximum of [2(match), 1 (horizontal gap), 1 (vertical gap)] → value is 2. Moving along to position column 2 row 4, its value will be the maximum of [1 (mismatch), 1 (horizontal gap), 2 (vertical gap)], so its value is 2. Note that for all of the remaining positions except the last one in column 2, the choices for the value will be the exact same as in row 4 since there are no matches. The final row will contain the value 2 since it is the maximum of 2 (match), 1 (horizontal gap) and 2(vertical gap).

After filling in all of the values the score matrix is as follows:
4 5 Note! Alkuperäisessä versiossa oli ollut muutama laskuvirhe, tässä ne on korjattu (punaisella taustalla olevat luvut). Traceback-stepissä ovat oikein.

Traceback Step After the matrix fill step, the maximum alignment score for the two test sequences is 6. The traceback step determines the actual alignment(s) that result in the maximum score. Note that with a simple scoring algorithm such as one that is used here, there are likely to be multiple maximal alignments. The traceback step begins in the position that leads to the maximal score. In this case, there is a 6 in that location.

Traceback takes the current cell and looks to the neighbor cells that could be direct predacessors:
Look at the neighbor to the left (gap in sequence #2), the diagonal neighbor (match/mismatch), and the neighbor above it (gap in sequence #1). The algorithm for traceback chooses as the next cell in the sequence one of the possible predacessors. In this case, the neighbors are marked in red. They are all also equal to 5.

Since the current cell has a value of 6 and the scores are 1 for a match and 0 for anything else, the only possible predacessor is the diagonal match/mismatch neighbor. If more than one possible predecessors exists, any can be chosen. This gives us a current alignment of So now we look at the current cell and determine which cell is its direct predecessor. In this case, it is the cell with the red 5. (Seq #1) A | (Seq #2) A

The alignment as described in the above step adds a gap to sequence #2, so the current alignment is
(Seq #1) T A | (Seq #2) ─ A

Once again, the direct predacessor produces a gap in sequence #2.
After this step, the current alignment is (Seq #1) T T A | (Seq #2) ─ ─A

Continuing on with the traceback step, we eventually get to a position in column 0 row 0 which tells us that traceback is completed. One possible maximum alignment is : G A A T T C A G T T A G G A ─ T C ─ G ─ ─ A Giving an alignment of :

Kokeillaan! Aiemman (dot-plot-) esimerkin sekvensseillä
tai (vaatii CSCn käyttäjätunnukset) Aiemman (dot-plot-) esimerkin sekvensseillä sekv. 1: agcgtcccgtttgtcaaggccctgaaacgaac sekv. 2: agggtcccgtttgatcagggcctgaaacgtc

########################################
# Program: needle # Rundate: Tue 11 Jan :33:44 # Align_format: srspair # Report_file: outfile.align #======================================= # Aligned_sequences: 2 # 1: , # 2: , # Matrix: EDNAFULL # Gap_penalty: 4.0 # Extend_penalty: 1.0 # # Length: 33 # Identity: /33 (81.8%) # Similarity: 27/33 (81.8%) # Gaps: /33 ( 9.1%) # Score: 111.0 , agcgtcccgtttg-tcaaggccctgaaacgaac ||.|||||||||| || |||.||||||||| .| , agggtcccgtttgatc-agggcctgaaacg-tc #

Dynaaminen optimointi
Dynaamiset optimointialgoritmit jaetaan kahteen luokkaan: Globaaliset (kokonaisrinnastus) Esim. Needleman-Wunch Lokaaliset (paikallinen rinnastus) Esim. Smith-Waterman Dynaamisia algoritmeja voidaan käyttää myös usean (max. noin 10) sekvenssin rinnastukseen ja tietokantahakuihin, mutta ne ovat raskaita ja vaativat paljon laskenta-aikaa ja -tehoa.

Paikallinen rinnastus I
Globaali rinnastus on sopiva esim. sukulaisproteiineja koodaavien cDNA-sekvenssien vertailuun (josta intronit ovat siis poissa, jolloin vertaillaan pelkkiä valintapaineen alla olleita eksoneita) Paikallinen rinnastus I Usein vertailtavat sekvenssit sisältävät samankaltaisia kohtia, mutteivät ole globaalisti rinnastettavissa (esim. proteiinit, joissa domain- tai eksonijärjestys eroaa) Rinnastettava PAIKALLISESTI:

Etsi merkittävästi samankaltaiset alueet ja rinnasta vain nämä.
Paikallisen rinnastuksen tunnuspiirteitä ovat lyhyys ja aukkojen vähäisyys. Valitusta pisteytysmatriisista ja aukkosakoista riippuen paikallinen algoritmikin voi tuottaa rinnastuksen, joka muistuttaa globaalia rinnastusta. Smith-Waterman on dynaaminen algoritmi, joka tuottaa paikallisen rinnastuksen.

Smith-Waterman I Smith-Waterman eroaa Needleman-Wunsch -algoritmista siten, että jos pistemäärä taulukossa saa negatiivisen arvon, se muutetaan nollaksi. Esim. TTVVDMWV ja VVDMYWY Esim. PAM-250-matriisi, aukkosakot -12/-2 Perustuu J.Tuimalan originaaleihin

Negatiiviseksi muuttuvan pistemääräsumman nollaksi merkitseminen kuvaa sitä, että halutaan olla välittämättä niistä sekvenssien alueista, jotka eivät ole kovin samankaltaiset, ja aloittaa paikallinen linjaus uudelleen ”puhtaalta pöydältä”. (Siten myöskään parhaan lokaalin pistemäärän ei tarvitse ensin ylittää vähäisen samankaltaisuuden alueiden tuottamia negatiivisia summia) Tällä tavoin läpikäymällä kaikki mahdolliset linjaukset tulevat arvioiduiksi kunnes havaitaan huonommiksi kuin jokin kilpaileva linjaus. Paras linjaus saa siis parhaan pistemäärän, ja löytyy taas aloittamalla traceback tästä solusta

Smith-Waterman II Haetaan taulukosta korkein pistemäärä ja seurataan polkua, joka johtaa siihen. Paras paikallinen rinnastus on siis VVDM-W VVDMYW Perustuu J.Tuimalan originaaleihin

Smith-Waterman III Huom. Eri pisteytysmatriisit tuottavat nytkin erilaisen tuloksen, esimerkkinä BLOSUM62 – ja PAM250-matriisit. Perustuu J.Tuimalan originaaleihin

Voidaan osoittaa, että Smith-Waterman takaa parhaan mahdollisen pistemäärän linjauksen löytämisen kahden sekvenssin välillä EMBOSS-paketti sisältää mm. water ja matcher -algoritmit

Paikallisia rinnastuksia tarvitaan
Mikäli et ole varma, millainen rinnastus sopii sekvensseillesi, kannattaa ensimmäiseksi tehdä paikallinen rinnastus Paikallisia rinnastuksia tarvitaan Proteiinien ja geenien modulaarisen rakenteen selvittämiseen Eksonit / intronit, domeenit Toistojaksojen löytämiseen Sellaisten geenien rakenteen selvittämiseen, jotka ovat niin toisistaan eriytyneet, että samankaltaisuus on säilynyt vain tietyissä sekvenssien osissa.

Rinnastaminen käytännössä
Koska rinnastaminen ei ole objektiivista, tehdään useita erilaisia rinnastuksia vaihtelemalla aukkoparametrien arvoja ja/tai pisteytysmatriisia. Näistä rinnastuksista etsitään biologisesti kaikkein todennäköisin tarkastelemalla rinnastuksia silmämääräisesti. Samassa yhteydessä voidaan korjata tietokoneen tekemiä ”erehdyksiä” editoimalla rinnastusta käsin. Perustuu J.Tuimalan originaaleihin

Rinnastamisen tilastollinen merkittävyys *
Pelkästä tuloksesta ei voi aina päätellä onko saatu tulos oikeasti hyvä, tilastollisesti merkittävä Kuinka tarkistetaan rinnastuksen tulos? Ajetaan ohjelma uudestaan esim kertaa Vaihdetaan toinen sekvensseistä jokaisella ajokerralla täysin satunnaiseen sekvenssiin Talletetaan löydetyn linjauksen pistetulos Lopuksi verrataan oikeasta analyysistä saatua tulosta satunnaisten tulosten joukkoon

Rinnastamisen tilastollinen merkittävyys *
Kuinka saadaan satunnainen sekvenssi? (proteiinisekvensseille) BLAST:in idea Käytetään tietokannan frekvenssejä aminohappofrekvenssejä Arvotaan siis jokainen AH tietokannassa havaitulla frekvenssillä satunnaissekvenssiin PRSS:n idea Sotketaan aminohappojen järjestys toisesta sekvenssistä

Rinnastuksen yhteenveto
Rinnastuksessa pyritään sijoittamaan toisiaan vastaavat alueet nukleotidi tai aminohapposekvensseistä päällekkäin Rinnastus voi lokaali tai globaali (hyvää suomea) Rinnastukseen voi käyttää dot plot-menetelmiä Tulos saadaan visualisoinnin tulkinnasta Pystyy esittämään monta ratkaisua Dynaaminen algoritmi etsii parhaan linjauksen Esittää tavallisesti vain yhden ratkaisun Rinnastuksen tulos riippuu pistematriisista ja aukkosakkoparametreista

Extra-Slidet Seuraavat on taas lisäkalvoja
Kamaa aikaisemmista kalvoista

Rinnastuksen tilastollinen merkitsevyys I
Kun paras rinnastus on tuotettu, pyritään yleensä arvioimaan sen luotettavuutta. Tällöin pyritään erottamaan biologisesti merkittävät rinnastukset sellaisista, joiden perusteella sekvenssit sattumalta näyttävät samankaltaisilta. Seuraavassa esitellään perinteiselle tilastolliselle teorialle perustuva menetelmä rinnastuksen tilastollisen merkitsevyyden testaamiseksi. Perustuu J.Tuimalan originaaleihin

Tilastollinen merkitsevyys II
Testissä verrataan sekvenssirinnastuksen saamaa pistemäärää esimerkiksi tuhannen satunnaisen (saman mittaisen ja emäskoostumukseltaan samanlaisen) sekvenssirinnastuksen saamiin pistemääriin. Satunnaisten sekvenssien rinnastuksista voidaan määrittää niin sanottu extreme value –jakauma, jota testissä käytetään. Kuvan tulkinta: havaitun arvon (esimerkissä = 2) oikealle puolelle jäävän jakauman “hännän” todennäköisyysmassa kertoo p-arvon.

Tilastollinen merkitsevyys III
Jakaumaa voidaan approksimoida: todennäköisyys saada vain sattumalta rinnastus, jolle pistemäärä S on yhtä suuri tai suurempi kuin havaittu, voidaan (approksimatiivisesti) laskea kaavalla E = Kmn e-λS jossa K ja λ ovat skaalaustekijöitä, m ja n ovat rinnastettujen sekvenssien pituudet, e on neperin luku (2,72) ja S on rinnastuksen saama pistemäärä. Huom! E-arvo ei ole sama asia kuin p-arvo: P-arvo: todennäköisyys saada sattumalta sama tai parempi arvo kuin saatu linjauksen pistemäärä E-arvo: p-arvo korjattuna toistomittausten parittaisvertailun korjauskertoimella Perustuu J.Tuimalan originaaleihin homepages.ulb.ac.be/~dgonze/.../stat_scores.pdf

Tilastollinen merkitsevyys IV
K:n ja λ:n saamat arvot riippuvät lähinnä käytetystä pisteytysmatriisista ja aukkosakoista. Jos kaksi 250 merkkiä pitkää aminohappoa rinnastetaan PAM250-matriisiä käyttäen suurilla aukkosakoilla (jolloin K=0.06, λ=0.229), ja rinnastus saa pisteikseen 75, on todennäköisyys, että vastaava rinnastus saataisiin sattumalta E=Kmn e-λS = 0.06*250*250*2, *75 = 0,00013 Perustuu J.Tuimalan originaaleihin

Tilastollinen merkitsevyys V
Edellä laskettu todennäköisyys oli hyvin pieni, mikä on siis hyvä. Jotta ylläolevaa kaavaa voisi käyttää, tulee varmistaa, että käytetyn pisteytysmatriisin keskimääräinen pistemäärä (expected score) on negatiivinen (PAM250:lla –0,844). Perustuu J.Tuimalan originaaleihin

K:n ja λ:n arvoja inf. = ääretön
- = rinnastus on tällä alueella globaali, ei paikallinen Perustuu J.Tuimalan originaaleihin

Jotta paikallinen rinnastus dynaamisella optimoinnilla onnistuisi, tulee kahden satunnaisesti kohdakkain sattuvan nuleotidin tai aminohapon saaman pistemäärän olla keskimäärin negatiivinen. Jos näin ei ole, saattaa pitkä sekvenssialue saada korkean pistemäärän rinnastuksessa vain siitä systä että se on pitkä. Tämä vastaa käytännössä sitä että paikalliseen rinnastukseen käytettävän pisteytysmatriisin entropian tulee olla negatiivinen.

2. luento Kahden sekvenssin rinnastus

Samankaltaiset esitykset

Esitys aiheesta: "2. luento Kahden sekvenssin rinnastus"— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute

Kirjaudu sisään

Kirjaudu sisään sosiaaliverkostojen kautta:

2. luento Kahden sekvenssin rinnastus

Samankaltaiset esitykset

Esitys aiheesta: "2. luento Kahden sekvenssin rinnastus"— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute