Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Juha Knuuttila bioinformatiikka

Samankaltaiset esitykset


Esitys aiheesta: "Juha Knuuttila bioinformatiikka"— Esityksen transkriptio:

1 28.3.2011 Juha Knuuttila bioinformatiikka
BLAST Juha Knuuttila bioinformatiikka

2 Kirjallisuutta Kappale 7 Tuimalan kirjasta
Bioinformatics for Dummies: Similarity Searches on Sequence Databases

3 Sekvenssihaut tietokannoista
Monenlaisia mahdollisuuksia Homologiset sekvenssit (siis sama evolutiivinen historia) Etsi geeniperheitä eläinlajin sisällä Linjaa mRNA sekvenssejä genomiseen sekvenssiin Suunnittele alukkeita Hae tietokannasta motiiveja

4 Tietokantahaku Tyypillisin tehtävä bioinfomatiikassa
Proteiinit koostuvat usein funktionaalisista osista eli domeineista joiden esiintyminen proteiinissa selviää vertaamalla tutkittavan proteiinin sekvenssiä tietokannassa oleviin domeini sekvensseihin Kaksi tietokoneohjelma perhettä FastA (vanha ja nykyään harvoin käytetty, mutta joitain ominaisuuksia mitä ei muista löydy) BLAST

5 BLAST? Basic Local Alignment Search Tool
Luita erilaisia linjaus työkaluja (blastn, blastx… Optimoitu löytämään lokaalisia linjauksia kahden sekvenssin välille Vaatii käyttäjän optimointia asetuksille!

6 BLAST? Koska tietokannat ovat erittäin laajoja ei voida etsiä suoraan optimaalista linjausta siksi BLAST on ns heuristinen algoritmi (vaihesarja) Löytää riittävän läheisen tuloksen nopeasti ”riittävän läheisen” linjauksen jälkeen edetään tarkempaan analyysiin dynaamisella ohjelmoinnilla (Needleman- Wunch…)

7 BLAST? Kaikki BLAST ohjelmat toimivat samalla perus periaatteella (laskennallisesti): Kylväminen (seeding) Jatkaminen (extension) Tarkistus (evaluation)

8 Miten blast toimii? Hakuikkuna
”sanan” koko 3 proteiineille ja 11 nukleotideille Näillä haetaan täsmällisiä osumia tai lähes täsmällisiä Tietokoneet selviävät tästä nopeasti Sitten kun tälläinen osuma tulee pidennetään hakusanaa

9

10

11 Tarkistus / arviointi Kun laajentaminen on päättynyt ja linjaus on tehty lasketaan tilastollisesti kuinka lähellä sekvenssit ovat toisiaan Tässä käytetään Karlin-A ltschul statistiikkaa (E-score) Mitä pienempi arvo sitä parempi linjaus Riippuu asetuksista kuten rako-sakosta ja pisteytysmatriisi (gap penalties ja substitution matrix)

12 29.3.2011 Juha Knuuttila bioinformatiikka
BLAST OSA II Juha Knuuttila bioinformatiikka

13 Toistojaksot Ihmisen genomi on täynnä toistojaksoja LINE, SINE, ALU
Näihin kohtiin voi laittaa esim. ”N”: AATAGNNNNCGC BLAST ohjelma voi tehdä tämän halutessasi automaattisesti

14 BLAST puutteita Jos sekvenssien samankaltaisuus on alle 80% toimii BLAST jo huonommin Monia merkittäviä homologeja ei välttämättä löydy koska kylvösanan pitää olla aika pitkä Jos kylvösana saa mennä poikki parantuu osumat tältä osin

15 BLAST ohjelmia Etsittävä Tietokanta Ohjelma Tyypillinen käyttö DNA
blastn Annotaatio, lyhyiden nukleotidisekvenssien linjaus genomiin Proteiini blastp Tyypillisten alueiden tunnustus proteiineista Käännetty DNA blastx Proteiinia koodaavien geenien etsintä genomisesta DNA:sta KäännettyDNA tblastnt Transkriptien tunnistus, mahdollisesti useammista organismeista tblastx Geenin tunnistus useiden lajien perusteella geeneille joita ei vielä proteiini tietokannoissa megablast Isot ja läheistä sukua olevat sekvenssit

16 Pisteytysmatriisien valinta
PAM -matriisit eivät välttämättä toimi kovin hyvin tietokantahauissa BLOSUM -sarjaa kannattaa siis suosia mahdollisuuksien rajoissa

17 Lisää BLAST ohjelmia Primer-BLAST:
alukkeiden etsintään (Primer3 ja BLAST) PSI-Blast (Position Specific Iterated Blast): samaan proteiiniperheeseen kuuluvien proteiinien haku PHI-Blast (Pattern-Hit Initiated Blast): hakusekvenssistä etsitään ensin käyttäjän antama ”pattern”, jota sitten haetaan tietokannasta…

18

19 Vinkkejä Tee nämä samalla huolellisuudella kuin laboratoriokokeetkin!
Aloita aina hakuparametrien (aukkosakot, pisteytysmatriisit) oletusasetuksilla, ja jos tulokset eivät tyydytä, muuta sopivampaan suuntaan sanakokoa, pisteytysmatriisia ja mahd. E-arvorajaa ”Yleiskäyttöisiä” pisteytysmatriiseja aminohapoille: BLOSUM62 (aukkosakoilla -8 ja -2) BLOSUM50 (-12/-2 tai -14/-2)

20 Vinkkejä jatkuu… Rajoita haku vain kiinnostavaan tietokantaan (ja/tai sen osastoon) tämä voi nopeuttaa hakuasi oleellisesti! Esim., jos et halua monia kertoja saman sekvenssin eri muotoja vastauksina, tee hakusi Genomic BLASTilla! (Suoraan geenipankista = nukleotiditietokannasta hakeva BLAST antaa vastaukseksi KAIKKI vastaavat sekvenssit, vaikka olisivat vain saman genomisen sekvenssin eri versioita) Hakukoneet ovat eniten kuormitettuja keskellä työpäivää, paikallista aikaa klo (ota huomioon varsinkin amerikkalaisilla palvelimilla!)

21 Vinkkejä jatkuu… Mikäli sekvenssisi on proteiinia koodaava, käytä ah- sekvenssiä, ei DNAta vertailuihin. Eliöiden välillä on eroa mm. kodonien käytössä, mikä voi aiheuttaa ongelmia tietokantahauissa! Poista low-complexity (yksinkertaiset ja toistojakso-) alueet suodattamalla (”filtering”, löytyy optiona BLASTissa) -> vähentää biologisesti ei-relevanttien samankaltaisuuksien löytymistä.

22 Vinkkejä jatkuu… Hyvin lyhyet sekvenssit, noin 20 bp:
BLASTin hakuparametrien oletusarvot eivät toimi näille hyvin! Siispä: Pienennä sanakokoa, kasvata E-arvoa PCR -alukkeiden genomispesifisyyttä tutkittaessa sanakooksi voi kuitenkin valita alukkeen pituuden Lyhyet aminohappo-sekvenssit: pisteytysmatriisiksi lähisukuisille sekvensseille sopivat, esim.: PAM30, BLOSUM80, BLOSUM90 Kaukaisille sukulaisille: PAM250, BLOSUM62

23 Tulkintaa Osumat EST:hin ja ”hypoteettisiin” proteiineihin (varsinkin hyvin lyhyisiin) suhtaudu näihin varauksella! Huonot osumat on helppo tunnistaa linjauksessa olevan suuren aukkomäärän perusteella tällöin nosta aukkosakkoparametriesi arvoja!


Lataa ppt "Juha Knuuttila bioinformatiikka"

Samankaltaiset esitykset


Iklan oleh Google