Lataa esitys
Esittely latautuu. Ole hyvä ja odota
JulkaistuAku Palo Muutettu yli 9 vuotta sitten
1
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista, mutta tulkinta on usein vaikeaa: –(1998 GenBank) miljoonia sekvenssejä ja 180 000 organismia tulokset monimutkaisia ja redundantteja –modulaariset toistavat jonot, monidomeiniset jonot (koko jono, yksi/usea domeeni) vääriä täsmäyksiä
2
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Jatkuu... –tuloksissa lyhennetyt dokumentit väärä toiminnallisuuden päättely –tietomäärän kasvu lisääntyvä “kohina” orthologian havaitseminen vaikeaa Orthologia perustana geenien fylogenetiikassa; tällä hetkellä tutkimus siirtymässä osittain homologian etsinnästä orthologian etsintään
3
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3 Monirinnastus Monirinnastuksesta tietoa säilyneistä alueista jotka heijastavat rakenteellisia eli toiminnallisia ominaisuuksia, jotka sisältyvät kaikkiin rinnastuksen jonoihin
4
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4 Rinnastuksesta saatavan tiedon esittäminen Erilaisia tietokantoja Erilaisia tapoja etsiä Erilaisten tulostusmuotojen tulkinta Tulosten biologisen tärkeyden arviointi
5
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Säännölliset ilmaukset –Parhaimmillaan kun proteiiniperhe voidaan kuvata yhdellä hyvin säilyneellä motiivilla (10-20 tähdettä); rakenteelle tärkeä tai kriittinen toiminnallinen rooli –Sekvenssidata hävitetään ja vain kaikkein säilynein eli tärkein tähdetieto säilytetään –Tuloksena vain yksi motiivi, joka tallennetaan säännöllisenä ilmauksena
6
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Säännölliset ilmaukset... Täsmäyksen täytyy olla identtinen suhteessa ilmaukseen; –vähennetään vääriä täsmäyksiä; biologisesti oikeita täsmäyksiä hukataan Mikä on rinnastuksen tärkein motiivi? –Pitäisi perustua perheen biologisiin seikkoihin, mutta ei aina tiedetä –Perustuu aina vain tämänhetkiseen tietoon; päivityksen tarve
7
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Sääntö (Rule) (short regular expression) 3-4 tähdettä, kertovat jonkin tietyn osan rakenteen (usein kiinnityspaikka) Eivät ole hyviä ennustamaan, koska todennäköisyys satunnaisen jonon täsmäykselle on suuri
8
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 PROSITE Tietokanta sisältää säännöllisiä ilmauksia ja sääntöjä Diagnosointiongelmien tätä lähestymistapaa on laajennettu profiileiksi (tarkastellaan myöhemmin)
9
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Sumeat säännölliset ilmaukset Tähteiden kesken olemassa sääntöjä joiden mukaan niitä voi vaihdella rakenteessa ilman että rakenne muuttuu oleellisesti
10
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Sumeat säänn. ilmaukset... eMOTIF systeemi perustuu BLOCKS ja PRINTS kantoihin Tunnistaa kaukaisempia sukulaisia mutta samalla satunnaisten täsmäyksien määrä kasvaa!
11
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Ilmauksen pituus/sallivuus
12
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Sormenjäljet Kaikkista motiiveista muodostetaan frekvenssimatriiseja Pistesysteemi painoton, koska ei käytetä korvausmatriiseja arvojen laskennassa Ei suosittu perusmuodossa koska sukulaisten löytäminen vaikeaa Perustana PRINTS kannalle
13
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13
14
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 Sormenjäljet... Parannus Iteroidaan eli tehdään haku kantaan ja liitetään tarpeeksi läheisistä jonoista saatava tieto matriisiin Sopivalla raja-arvolla matriisi pysyy harvana ja vain tärkeiden alkioiden arvot suurenevat eli sen erottelukyky paranee Tulokset heikonpia käytännössä jos käytetään PAM matriiseja
15
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15
16
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16
17
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17
18
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Lohkot (BLOCKS) Esitään säilyneiden tähdekolmikkojen avulla motiiveja eli lohkoja ja lasketaan pisteet BLOSUM 62 perusteella (esim Al-x-x-x-Val-x-x-Cys) Toisessa vaiheessa haetaan parhaimmat pisteet saaneista lohkoista oikeassa järjestyksessä olevat lohkot (ei saa olla päälekkäisiä)
19
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Tulokset ryhmitelty läheisyyden perusteella Ryhmän sisällä alle 80% samanlaiset jonot on eroteltu tyhjällä rivilla Arvon 100 merkitsee erittäin etäistä sukulaista Miten verrata jonoja, joista toinen täsmää vain yhteen motiiviin, mutta saa korkeat pisteet, ja toinen moniin/ kaikkiin motiiveihin, muttei saa yhtä hyviä pisteita?
20
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Profiilit Tarkastellaan koko rinnastusta ja koodataan seuraavien seikkojen logiikka kustannusmatriiseihin: –Mitkä tähteet ovat sallittuja missäkin positiossa –Mitkä positiot ovat hyvin säilyneitä ja mitkä eivät –Missä positiossa/alueissa voi olla lisäyksiä
21
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Profiilit... Kustannusmatriisien arvoja määritellää erilaisten tasojen perusteella: –Mutaatiot evoluutiossa –INDEL operaation painotus sekundäärirakenteen perusteella –Rakennetutkimus –Rinnastusjonojen data –jne
22
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 /M: [SY = char2; parameters] Rinnastuksessa kirjain char2 ja parametrilistassa arvot kaikkien aminohappojen täsmäykselle /I: [SY = char1; parameters] Lisäys ja siihen liittyviä arvoja kuten alku ja loppuarvoja, kolon jatkokustannus jne. MI/MD lisäyksen/tuhoamisen alkukustannus I/D lisäyksen/tuhoamisen jatkokustannus
23
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Kätketty Markovin malli Lineaarinen todennäköisyys malli: jokaiselle positiolle määrätään täsmäys-, lisäys- ja tuhoamiskustannus
Samankaltaiset esitykset
© 2024 SlidePlayer.fi Inc.
All rights reserved.