Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

T. Pasanen / Johdatus bioinformatiikkaan

Samankaltaiset esitykset


Esitys aiheesta: "T. Pasanen / Johdatus bioinformatiikkaan"— Esityksen transkriptio:

1 T. Pasanen / Johdatus bioinformatiikkaan
Primääritietokannat DNA sekvenssit ja proteiinit merkkijonoina primääritietokannoissa T. Pasanen / Johdatus bioinformatiikkaan

2 3. Proteiinitietokannat
Tarkastellaan vain loogista tietoa ei talletustapaa T. Pasanen / Johdatus bioinformatiikkaan

3 T. Pasanen / Johdatus bioinformatiikkaan
Tasot Primääri- ja sekundääritason tietokannat sekä yhdistelmätietokannat T. Pasanen / Johdatus bioinformatiikkaan

4 Proteiinien primääritietokannat
Keskittyminen alkoi 80-luvun alussa Proteiinidatan keräysyhdistys PIR-international sisältää tietokannat: PIR (Protein Information Resource) JIPID (Protein Information Database of Japan) MIPS (Martinsried Institute for Protein Sequences) T. Pasanen / Johdatus bioinformatiikkaan

5 PIR-international OOSH
Neljä luokkaa perustuen laatuun ja kommenttien määrään PIR1: täydellisesti luokitellut ja kommentoidut PIR2: alustavat sekvenssit joita ei ole vielä täysin tarkastettu PIR3: sekvenssit joita ei ole tarkastettu (MIPS) PIR4: tekotranslaatiot mRNA:sta, tekotranslaatiot tekomRNA:sta, geneettisesti muokatut, koodaamattomat jonot joita ei ole tuotettu ribosomissa T. Pasanen / Johdatus bioinformatiikkaan

6 T. Pasanen / Johdatus bioinformatiikkaan
MIPS Martinsried Institute for Protein Sequences Kerää tarkastamattomia ulkoisistä lähteistä saatuja proteiineja PIR-international tietokantaan T. Pasanen / Johdatus bioinformatiikkaan

7 T. Pasanen / Johdatus bioinformatiikkaan
SWISS-PROT (1986) P02700 Ylläpitäjinä SIB ja EBI/EMBL Swiss Institute of Bioinformatics European Bioinformatics Institute European Molecular Biology Laboratory Laadukkaat kommentoinnit: toiminnan kuvaukset, itsenäiset osalaskostukset (domain), translaation jälkeiset muutokset ja proteiinin muunnelmat (jne). Minimiredundanssi T. Pasanen / Johdatus bioinformatiikkaan

8 T. Pasanen / Johdatus bioinformatiikkaan
TrEMBL 1996 Automaattisesti kommentoitu tietokanta joka täydentää SWISS-PROT:ia (Translated EMBL) Genomiprojektien data heti käyttöön rakenteellisessa muodossa ilman että SWISS-PROT laatu huononisi Sisältää proteiinit joille on olemassa koodaava DNA jono (EMBL) T. Pasanen / Johdatus bioinformatiikkaan

9 T. Pasanen / Johdatus bioinformatiikkaan
NRL-3D 1990 PIRin tuottama, perustuu Brookhaven Protein Databank (PDB) Hakukohteina avainsanojen/nimien lisäksi paljon muita biologiseen tietoon liityviä yksityiskohtia kuten sekundäärirakenteet, toiminnalliset alueet, kommentit, etc Etsintäsysteeminä ATLAS T. Pasanen / Johdatus bioinformatiikkaan

10 Paras primääritietokanta?
NRL-3D on suppein perustuen vain PDB:en, mutta mahdollistaa monipuoliset haut erilaisilla biologisilla yksityiskohdilla PIR(1-4) laajin mutta ei niin laadukas kuin SWISS-PROT, ei edes PIR1 SWISS-PROT kommenttien ja rakenteen suhteen laadukkain mutta suppea kuin PIR T. Pasanen / Johdatus bioinformatiikkaan

11 Yhdistelmätietokannat
SWISS-PROTupdate: lisäykset viikottain GenPeptupdate: lisäykset päivittäiset T. Pasanen / Johdatus bioinformatiikkaan

12 NRDB Non-Redundant Database
NCBI:n (USA) ylläpitämä, lähteinä PDB, SWISS-PROT/update, PIR, GenPept/update GenPept tuotetaan automaattisesti DNA tietokannasta GenBank (USA) käyttämällä tietoa koodaavista osajonoista Vain identtiset jonot poistetaan, ongelmia: polymorfismi, virheet, GenPept sisältää jonoja jotka on hylätty SWISS-PROT:sta T. Pasanen / Johdatus bioinformatiikkaan

13 T. Pasanen / Johdatus bioinformatiikkaan
OWL Ylläpito: Univ Leeds ja Daresbury Laboratory in Warrington, lähteinä SWISS-PROT, PIR, GenBank(aut. muunnokset) ja NRL-3D S-P vertailukohteena poistettaessa samanlaisia, pienet virheet huomioidaan, kuitenkin samoja ongelmia kuin edellisessä päivitys 6-8 viikon välein T. Pasanen / Johdatus bioinformatiikkaan

14 T. Pasanen / Johdatus bioinformatiikkaan
MIPSX Ylläpito: Max-Planck Institute in Martinsried, lähteinä PIR, alustavat MIPS versiot eli MIPSOwn, alustavat MIPS/PIR versiot eli PIRMOD, alustavat MIPS translaatiot eli MIPSTrn, MIPS hiivaproteiinit eli MIPSSH, NRL-3D SWISS-PROT, Aut. Translaation EMBL:stä eli EMTrans, Translaatiot GenBank:stä eli GBTrans, Kabat, PSeqIP Dublikaatit ja yhtenäiset alisekvenssit poistetaan edellä mainitussa järjestyksessä T. Pasanen / Johdatus bioinformatiikkaan

15 T. Pasanen / Johdatus bioinformatiikkaan
SWISS-PROT+TrEMBL Ylläpito EBI, kattava ja “minimaalisesti” redundanssia sisältävä 1997 arvioitiin että kanta sisältää 30% dublikaatteja Redundanssin vähentämiseksi tarvittaisiin enemmän asiantuntemusta tai parempia tietokanta-asiantuntijajärjestelmiä T. Pasanen / Johdatus bioinformatiikkaan

16 Paras yhdistelmätietokanta?
OWL on kokonaan indeksoitu eli voidaan tehdä monimutkaisia kyselyjä mutta se ei aina ole ajan tasalla NRDB on ajan tasalla perustuen kantojen GenPept ja SWISS-PROT päivityksiin mutta monimutkaisten kyselyjen tekeminen ei ole mahdollista Yhdistelemällä parhaaseen tulokseen? T. Pasanen / Johdatus bioinformatiikkaan

17 Proteiinien sekundääritietokannat
Kannat sisältävät primäärikantojen analyysien tulokset Eri tietokannat edustavat erilaisia informaation tallennustapoja T. Pasanen / Johdatus bioinformatiikkaan

18 Säilyneet osajonot eli motiivit
Homologisten jonojen monirinnastuksessa havaitaan säilyneet osajonot eli motiivit (aiheet) jotka esiintyvät lähes samanlaisina Motiiveilla tärkeä biologinen merkitys T. Pasanen / Johdatus bioinformatiikkaan

19 T. Pasanen / Johdatus bioinformatiikkaan

20 Informaation tallentaminen
“Säännölliset ilmaisut” Kirjainten frekvenssit paikkakohtaisesti Sormenjälki: joukko motiiveja frekvenssien avulla esitettynä Blocks: painotus frekvenssitaulukoille Profiili: rinnastuksen kaikki tieto (aukot) Markovin malli: profiilin todennäköisyysmalli T. Pasanen / Johdatus bioinformatiikkaan

21 T. Pasanen / Johdatus bioinformatiikkaan

22 T. Pasanen / Johdatus bioinformatiikkaan
Kannat Koska käytetty hyväksi useita jonoja voidaan kaukaisetkin sukulaiset tunnistaa paremmin kun etsimällä suoraan primääritietokannoista Käyttö primääritie-tokantojen lisänä T. Pasanen / Johdatus bioinformatiikkaan

23 T. Pasanen / Johdatus bioinformatiikkaan

24 T. Pasanen / Johdatus bioinformatiikkaan

25 T. Pasanen / Johdatus bioinformatiikkaan
PROSITE Ensimmäinen (SWISS-PROT) Homologisten proteiinien eli proteiiniperheen luokittelu monirinnastuksen parhaiten säilyneen motiivin perusteella (tärkeä biologinen toiminta) Säännölliset ilmaus (hahmo) Tuntematon proteiini koetetaan luokitella vertaamalla siihen tunnettuja motiiveja T. Pasanen / Johdatus bioinformatiikkaan

26 PROSITE kannan muokkaaminen www.expazy.ch/sprot PS00238
Säilyneiden alueiden etsiminen käsin automaattisesti tuotetusta rinnastuksesta Saatuja ilmauksia testataan SWISS-PROT kantaan vastaan (oikeita/vääriä positiivisia) Jos tulokset eivät tarpeeksi hyviä niin ilmauksia tarkennetaan ja testausta jatketaan Jotkut perheet täytyy jäsentään usealla ilmauksella T. Pasanen / Johdatus bioinformatiikkaan

27 T. Pasanen / Johdatus bioinformatiikkaan
PRINTS Proteiiniperheen tunnistamiseen tarvitaan yleensä useita motiiveja Perheen kaikki motiivit talletetaan (sormenjälki) Vaikka tuntematon proteiini ei sisällä kaikkia proteiineja niin silti voidaan tehdä suhteellisen varmoja diagnooseja Tallentaa kaiken informaation joten soveltuu automaattisen tertiäärikannan luomiseen T. Pasanen / Johdatus bioinformatiikkaan

28 PRINTS kannan muokkaaminen www.bioinf.man.ac.uk/dbbrowser/PRINTSN
Tehdään pienelle joukolle proteiineja monirinnastus josta haetaan käsin motiivit Etsitään OWL-kannasta proteiinit jotka täsmäävät kaikkiin motiiveihin Jos löydetään uusia proteiineja niin näistä saatava informaation lisätään motiivijoukkoon Etsintää toistetaan kunnes ei löydetä uusia proteiineja jotka täsmäävät kaikkiin motiiveihin T. Pasanen / Johdatus bioinformatiikkaan

29 T. Pasanen / Johdatus bioinformatiikkaan
PROSITE & PRINTS Proteiiniperheisiin lisätty tietoa käsin helpottaa ymmärtämään motiivien merkitystä proteiinin rakenteessa tai toiminnassa; lisätietoa käytetään arvioitaessa täsmäyksien biologista merkitystä Muut sekundääritietokannat tuotetaan automaat-tisesti joten ne sisältävät hyvin vähän lisätietoa; osa perustuu PRINTS/PROSITE kantoihin T. Pasanen / Johdatus bioinformatiikkaan

30 T. Pasanen / Johdatus bioinformatiikkaan
BLOCKS Perustuu PROSITEN, missä määritetään proteiiniperheen parhaiten säilyneet motiivit Jokaisesta motiivista valitaan kolme parhaiten säilynyttä aminohappoa (ei peräkkäisiä); lohkot talletetaan sellaisenaan (blocks = motif) Positioiden avulla arvioidaan samankaltaisuuden arvoja (score) oikeille negatiivisille ja oikeille positiivisille täsmäyksille, vrt laatikko 3.6 T. Pasanen / Johdatus bioinformatiikkaan

31 BLOCKS kannan tulkinta www.blocks.fhcrc.org
99.5% = samankaltaisuudelle rajan missä oikeiden negatiivisten määrä on 99,5 prosenttia Strength = lohkon jonojen samankaltaisuuksien mediaaniarvo kerrottuna 1000/99,5 Lohkon erottelukyky riippuu kenttien 99.5% ja strength erosta; eri lohkojen erottelukykyä voidaan vertailla strength kenttien arvoilla Kanta tuotetaan automaattisesti T. Pasanen / Johdatus bioinformatiikkaan

32 Profiles www.expasy.ch/cgi-bin/prosite-search-ac?PS50002
Profiilit eli painotusmatriisit Idea: huomioidaan myös motiivien väliset alueet Painotus sekvenssin kaikille positioille: lisäykset ja poistot (indels), vaihdot, parhaiten säilyneet motiivit Perheille tehdään profiilit ja kommmentit T. Pasanen / Johdatus bioinformatiikkaan

33 Pfam www.sanger.ac.uk/Software/Pfam 7tm
Monirinnastuksen tulos talletetaan Kätketyihin Markovin malleihin (Hidden Markov models, HMM) Tilastollisia automaatteja; jokaisesta tilasta seuraavaan tilaan on tietty todennäköisyys Tilat: tuhoa, lisää, vaihda ja hyväksy (samat) Käsin tehdyt rinnastukset (Pfam-A) Aut. SWISS-PROT klusterointi (Pfam-B) T. Pasanen / Johdatus bioinformatiikkaan

34 Kätketty Markovin malli
T. Pasanen / Johdatus bioinformatiikkaan

35 Aminohappojen karkea jako
T. Pasanen / Johdatus bioinformatiikkaan

36 Ominaisuuksien päällekkäisyys
T. Pasanen / Johdatus bioinformatiikkaan

37 T. Pasanen / Johdatus bioinformatiikkaan
IDENTIFY Sumea lähtökohta (fuzzy): aminohapot ryhmitellään ominaisuuksien mukaan päällekkäisiin luokkiin Pyrkimys löytää enemmän oikeita positiivisia jonoja kuin mitä säännöllisillä ilmauksilla saadaan Normaalisti tarvitaan lisäsääntöjä jotta ei saataisi liikaa vääriä positiivisia sekvenssejä T. Pasanen / Johdatus bioinformatiikkaan

38 Luokittelu eMOTIF ohjelmassa eMOTIF dna.stanford.edu/identify
T. Pasanen / Johdatus bioinformatiikkaan

39 Yhdistetyt sekundääritietokannat
Pyrkimys luoda yhtenäinen käyttöliittymä kaikkiin sekundäärikantoihin PROSITE, PRINTS, Profiles, Pfam ja BLOCKS Johdettuihin tietokantoihin linkit niihin kantoihin joissa kommentteja sekä tulevaisuudessa lisäksi animaatiota T. Pasanen / Johdatus bioinformatiikkaan

40 Rakenneluokittelu (vrt tasot)
3D rakenteita vähän (käsin löytäminen) Relaation (rakenne, sekvenssi) ei varma? Proteiineilla sama rakenne: sama esi-isä? Evoluutio toimii DNA- ja aminohappotasolla sekä laskostumistasolla (orthologia) Proteiinien säilyneet toiminnat merkitsevät että kriittisten aktiivisten tähteiden (residues) rakenteellinen ympäristö on myös säilynyt T. Pasanen / Johdatus bioinformatiikkaan

41 T. Pasanen / Johdatus bioinformatiikkaan
SCOP Structural Classification of Proteins Perhe: proteiinit joiden samankaltaisuus on yleensä vähintään 30% (joitakin poikkeuksia) Superperhe: proteiinit joiden rakenne ja toiminta viittaa yhteiseen esi-isään vaikka sekvenssi-tasolla proteiinien samankaltaisuus ei ole suuri Laskostuminen: suurimpien sekundääri-rakenteiden järjestys ja topologia on sama; saattavat johtua fyysisistä ja kemiallisista syistä T. Pasanen / Johdatus bioinformatiikkaan

42 CATH Class, Architecture, Topology, Homology
Luokka perustuu karkeaan jaotteluun: -kierteiset, -levyt,  rakenteet ja sekvenssit joilla ei juurikaan ole toisen asteen rakenteita Arkkitehtuuri kuvaa sekundäärirakenteiden karkean aseman suhteessa toisiinsa, liityntöjä ei kuvata (esim. tynnyri, rulla, kerrosleipä) Topologia kuvaa sekä asemat että liitynnät T. Pasanen / Johdatus bioinformatiikkaan

43 T. Pasanen / Johdatus bioinformatiikkaan
Homologia kuvaa samanlaisi rakenteita sisältäviä proteiineja kun proteiinien lineaarisen tason samankaltaisuuden alaraja on 35% ja Sekvenssitasolla edellisen tason proteiiniluokat jaotellaan vielä tarkemmin rakenteen perusteella T. Pasanen / Johdatus bioinformatiikkaan

44 PDBsum http://www.biochem.ucl.ac.uk/bsm/pdbsum/
Suurin rakennetiedon keräyspaikka Jokaisesta PDB:n sekvenssistä on luotu yhteenveto mikä sisältää mm. tuloksien luotettavuusarvion, proteiiniketjujen määrän, metalli-ionit, sekundäärirakenteet, laskostumispiirustuksen jne. Näitä käytetään kun yhdistetään proteiinin 1D, 2D ja 3D tietoa T. Pasanen / Johdatus bioinformatiikkaan


Lataa ppt "T. Pasanen / Johdatus bioinformatiikkaan"

Samankaltaiset esitykset


Iklan oleh Google