Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista,

Samankaltaiset esitykset


Esitys aiheesta: "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista,"— Esityksen transkriptio:

1 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista, mutta tulkinta on usein vaikeaa: –(1998 GenBank) miljoonia sekvenssejä ja 180 000 organismia  tulokset monimutkaisia ja redundantteja –modulaariset toistavat jonot, monidomeiniset jonot (koko jono, yksi/usea domeeni)  vääriä täsmäyksiä

2 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Jatkuu... –tuloksissa lyhennetyt dokumentit  väärä toiminnallisuuden päättely –tietomäärän kasvu  lisääntyvä “kohina”  orthologian havaitseminen vaikeaa Orthologia perustana geenien fylogenetiikassa; tällä hetkellä tutkimus siirtymässä osittain homologian etsinnästä orthologian etsintään

3 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3 Monirinnastus Monirinnastuksesta tietoa säilyneistä alueista jotka heijastavat rakenteellisia eli toiminnallisia ominaisuuksia, jotka sisältyvät kaikkiin rinnastuksen jonoihin

4 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4 Rinnastuksesta saatavan tiedon esittäminen Erilaisia tietokantoja Erilaisia tapoja etsiä Erilaisten tulostusmuotojen tulkinta Tulosten biologisen tärkeyden arviointi

5 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Säännölliset ilmaukset –Parhaimmillaan kun proteiiniperhe voidaan kuvata yhdellä hyvin säilyneellä motiivilla (10-20 tähdettä); rakenteelle tärkeä tai kriittinen toiminnallinen rooli –Sekvenssidata hävitetään ja vain kaikkein säilynein eli tärkein tähdetieto säilytetään –Tuloksena vain yksi motiivi, joka tallennetaan säännöllisenä ilmauksena

6 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Säännölliset ilmaukset... Täsmäyksen täytyy olla identtinen suhteessa ilmaukseen; –vähennetään vääriä täsmäyksiä; biologisesti oikeita täsmäyksiä hukataan Mikä on rinnastuksen tärkein motiivi? –Pitäisi perustua perheen biologisiin seikkoihin, mutta ei aina tiedetä –Perustuu aina vain tämänhetkiseen tietoon; päivityksen tarve

7 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Sääntö (Rule) (short regular expression) 3-4 tähdettä, kertovat jonkin tietyn osan rakenteen (usein kiinnityspaikka) Eivät ole hyviä ennustamaan, koska todennäköisyys satunnaisen jonon täsmäykselle on suuri

8 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 PROSITE Tietokanta sisältää säännöllisiä ilmauksia ja sääntöjä Diagnosointiongelmien tätä lähestymistapaa on laajennettu profiileiksi (tarkastellaan myöhemmin)

9 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Sumeat säännölliset ilmaukset Tähteiden kesken olemassa sääntöjä joiden mukaan niitä voi vaihdella rakenteessa ilman että rakenne muuttuu oleellisesti

10 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Sumeat säänn. ilmaukset... eMOTIF systeemi perustuu BLOCKS ja PRINTS kantoihin Tunnistaa kaukaisempia sukulaisia mutta samalla satunnaisten täsmäyksien määrä kasvaa!

11 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Ilmauksen pituus/sallivuus

12 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Sormenjäljet Kaikkista motiiveista muodostetaan frekvenssimatriiseja Pistesysteemi painoton, koska ei käytetä korvausmatriiseja arvojen laskennassa Ei suosittu perusmuodossa koska sukulaisten löytäminen vaikeaa Perustana PRINTS kannalle

13 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13

14 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 Sormenjäljet... Parannus Iteroidaan eli tehdään haku kantaan ja liitetään tarpeeksi läheisistä jonoista saatava tieto matriisiin Sopivalla raja-arvolla matriisi pysyy harvana ja vain tärkeiden alkioiden arvot suurenevat eli sen erottelukyky paranee Tulokset heikonpia käytännössä jos käytetään PAM matriiseja

15 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15

16 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16

17 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17

18 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Lohkot (BLOCKS) Esitään säilyneiden tähdekolmikkojen avulla motiiveja eli lohkoja ja lasketaan pisteet BLOSUM 62 perusteella (esim Al-x-x-x-Val-x-x-Cys) Toisessa vaiheessa haetaan parhaimmat pisteet saaneista lohkoista oikeassa järjestyksessä olevat lohkot (ei saa olla päälekkäisiä)

19 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Tulokset ryhmitelty läheisyyden perusteella Ryhmän sisällä alle 80% samanlaiset jonot on eroteltu tyhjällä rivilla Arvon 100 merkitsee erittäin etäistä sukulaista Miten verrata jonoja, joista toinen täsmää vain yhteen motiiviin, mutta saa korkeat pisteet, ja toinen moniin/ kaikkiin motiiveihin, muttei saa yhtä hyviä pisteita?

20 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Profiilit Tarkastellaan koko rinnastusta ja koodataan seuraavien seikkojen logiikka kustannusmatriiseihin: –Mitkä tähteet ovat sallittuja missäkin positiossa –Mitkä positiot ovat hyvin säilyneitä ja mitkä eivät –Missä positiossa/alueissa voi olla lisäyksiä

21 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Profiilit... Kustannusmatriisien arvoja määritellää erilaisten tasojen perusteella: –Mutaatiot evoluutiossa –INDEL operaation painotus sekundäärirakenteen perusteella –Rakennetutkimus –Rinnastusjonojen data –jne

22 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 /M: [SY = char2; parameters] Rinnastuksessa kirjain char2 ja parametrilistassa arvot kaikkien aminohappojen täsmäykselle /I: [SY = char1; parameters] Lisäys ja siihen liittyviä arvoja kuten alku ja loppuarvoja, kolon jatkokustannus jne. MI/MD lisäyksen/tuhoamisen alkukustannus I/D lisäyksen/tuhoamisen jatkokustannus

23 Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Kätketty Markovin malli Lineaarinen todennäköisyys malli: jokaiselle positiolle määrätään täsmäys-, lisäys- ja tuhoamiskustannus


Lataa ppt "Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista,"

Samankaltaiset esitykset


Iklan oleh Google