T. Pasanen / Johdatus bioinformatiikkaan

T. Pasanen / Johdatus bioinformatiikkaan
Primääritietokannat DNA sekvenssit ja proteiinit merkkijonoina primääritietokannoissa T. Pasanen / Johdatus bioinformatiikkaan

3. Proteiinitietokannat
Tarkastellaan vain loogista tietoa ei talletustapaa T. Pasanen / Johdatus bioinformatiikkaan

Tasot Primääri- ja sekundääritason tietokannat sekä yhdistelmätietokannat T. Pasanen / Johdatus bioinformatiikkaan

Proteiinien primääritietokannat
Keskittyminen alkoi 80-luvun alussa Proteiinidatan keräysyhdistys PIR-international sisältää tietokannat: PIR (Protein Information Resource) JIPID (Protein Information Database of Japan) MIPS (Martinsried Institute for Protein Sequences) T. Pasanen / Johdatus bioinformatiikkaan

PIR-international OOSH
Neljä luokkaa perustuen laatuun ja kommenttien määrään PIR1: täydellisesti luokitellut ja kommentoidut PIR2: alustavat sekvenssit joita ei ole vielä täysin tarkastettu PIR3: sekvenssit joita ei ole tarkastettu (MIPS) PIR4: tekotranslaatiot mRNA:sta, tekotranslaatiot tekomRNA:sta, geneettisesti muokatut, koodaamattomat jonot joita ei ole tuotettu ribosomissa T. Pasanen / Johdatus bioinformatiikkaan

MIPS Martinsried Institute for Protein Sequences Kerää tarkastamattomia ulkoisistä lähteistä saatuja proteiineja PIR-international tietokantaan T. Pasanen / Johdatus bioinformatiikkaan

SWISS-PROT (1986) P02700 Ylläpitäjinä SIB ja EBI/EMBL Swiss Institute of Bioinformatics European Bioinformatics Institute European Molecular Biology Laboratory Laadukkaat kommentoinnit: toiminnan kuvaukset, itsenäiset osalaskostukset (domain), translaation jälkeiset muutokset ja proteiinin muunnelmat (jne). Minimiredundanssi T. Pasanen / Johdatus bioinformatiikkaan

TrEMBL 1996 Automaattisesti kommentoitu tietokanta joka täydentää SWISS-PROT:ia (Translated EMBL) Genomiprojektien data heti käyttöön rakenteellisessa muodossa ilman että SWISS-PROT laatu huononisi Sisältää proteiinit joille on olemassa koodaava DNA jono (EMBL) T. Pasanen / Johdatus bioinformatiikkaan

NRL-3D 1990 PIRin tuottama, perustuu Brookhaven Protein Databank (PDB) Hakukohteina avainsanojen/nimien lisäksi paljon muita biologiseen tietoon liityviä yksityiskohtia kuten sekundäärirakenteet, toiminnalliset alueet, kommentit, etc Etsintäsysteeminä ATLAS T. Pasanen / Johdatus bioinformatiikkaan

Paras primääritietokanta?
NRL-3D on suppein perustuen vain PDB:en, mutta mahdollistaa monipuoliset haut erilaisilla biologisilla yksityiskohdilla PIR(1-4) laajin mutta ei niin laadukas kuin SWISS-PROT, ei edes PIR1 SWISS-PROT kommenttien ja rakenteen suhteen laadukkain mutta suppea kuin PIR T. Pasanen / Johdatus bioinformatiikkaan

Yhdistelmätietokannat
SWISS-PROTupdate: lisäykset viikottain GenPeptupdate: lisäykset päivittäiset T. Pasanen / Johdatus bioinformatiikkaan

NRDB Non-Redundant Database
NCBI:n (USA) ylläpitämä, lähteinä PDB, SWISS-PROT/update, PIR, GenPept/update GenPept tuotetaan automaattisesti DNA tietokannasta GenBank (USA) käyttämällä tietoa koodaavista osajonoista Vain identtiset jonot poistetaan, ongelmia: polymorfismi, virheet, GenPept sisältää jonoja jotka on hylätty SWISS-PROT:sta T. Pasanen / Johdatus bioinformatiikkaan

OWL Ylläpito: Univ Leeds ja Daresbury Laboratory in Warrington, lähteinä SWISS-PROT, PIR, GenBank(aut. muunnokset) ja NRL-3D S-P vertailukohteena poistettaessa samanlaisia, pienet virheet huomioidaan, kuitenkin samoja ongelmia kuin edellisessä päivitys 6-8 viikon välein T. Pasanen / Johdatus bioinformatiikkaan

MIPSX Ylläpito: Max-Planck Institute in Martinsried, lähteinä PIR, alustavat MIPS versiot eli MIPSOwn, alustavat MIPS/PIR versiot eli PIRMOD, alustavat MIPS translaatiot eli MIPSTrn, MIPS hiivaproteiinit eli MIPSSH, NRL-3D SWISS-PROT, Aut. Translaation EMBL:stä eli EMTrans, Translaatiot GenBank:stä eli GBTrans, Kabat, PSeqIP Dublikaatit ja yhtenäiset alisekvenssit poistetaan edellä mainitussa järjestyksessä T. Pasanen / Johdatus bioinformatiikkaan

SWISS-PROT+TrEMBL Ylläpito EBI, kattava ja “minimaalisesti” redundanssia sisältävä 1997 arvioitiin että kanta sisältää 30% dublikaatteja Redundanssin vähentämiseksi tarvittaisiin enemmän asiantuntemusta tai parempia tietokanta-asiantuntijajärjestelmiä T. Pasanen / Johdatus bioinformatiikkaan

Paras yhdistelmätietokanta?
OWL on kokonaan indeksoitu eli voidaan tehdä monimutkaisia kyselyjä mutta se ei aina ole ajan tasalla NRDB on ajan tasalla perustuen kantojen GenPept ja SWISS-PROT päivityksiin mutta monimutkaisten kyselyjen tekeminen ei ole mahdollista Yhdistelemällä parhaaseen tulokseen? T. Pasanen / Johdatus bioinformatiikkaan

Proteiinien sekundääritietokannat
Kannat sisältävät primäärikantojen analyysien tulokset Eri tietokannat edustavat erilaisia informaation tallennustapoja T. Pasanen / Johdatus bioinformatiikkaan

Säilyneet osajonot eli motiivit
Homologisten jonojen monirinnastuksessa havaitaan säilyneet osajonot eli motiivit (aiheet) jotka esiintyvät lähes samanlaisina Motiiveilla tärkeä biologinen merkitys T. Pasanen / Johdatus bioinformatiikkaan

Informaation tallentaminen
“Säännölliset ilmaisut” Kirjainten frekvenssit paikkakohtaisesti Sormenjälki: joukko motiiveja frekvenssien avulla esitettynä Blocks: painotus frekvenssitaulukoille Profiili: rinnastuksen kaikki tieto (aukot) Markovin malli: profiilin todennäköisyysmalli T. Pasanen / Johdatus bioinformatiikkaan

Kannat Koska käytetty hyväksi useita jonoja voidaan kaukaisetkin sukulaiset tunnistaa paremmin kun etsimällä suoraan primääritietokannoista Käyttö primääritie-tokantojen lisänä T. Pasanen / Johdatus bioinformatiikkaan

PROSITE Ensimmäinen (SWISS-PROT) Homologisten proteiinien eli proteiiniperheen luokittelu monirinnastuksen parhaiten säilyneen motiivin perusteella (tärkeä biologinen toiminta) Säännölliset ilmaus (hahmo) Tuntematon proteiini koetetaan luokitella vertaamalla siihen tunnettuja motiiveja T. Pasanen / Johdatus bioinformatiikkaan

PROSITE kannan muokkaaminen www.expazy.ch/sprot PS00238
Säilyneiden alueiden etsiminen käsin automaattisesti tuotetusta rinnastuksesta Saatuja ilmauksia testataan SWISS-PROT kantaan vastaan (oikeita/vääriä positiivisia) Jos tulokset eivät tarpeeksi hyviä niin ilmauksia tarkennetaan ja testausta jatketaan Jotkut perheet täytyy jäsentään usealla ilmauksella T. Pasanen / Johdatus bioinformatiikkaan

PRINTS Proteiiniperheen tunnistamiseen tarvitaan yleensä useita motiiveja Perheen kaikki motiivit talletetaan (sormenjälki) Vaikka tuntematon proteiini ei sisällä kaikkia proteiineja niin silti voidaan tehdä suhteellisen varmoja diagnooseja Tallentaa kaiken informaation joten soveltuu automaattisen tertiäärikannan luomiseen T. Pasanen / Johdatus bioinformatiikkaan

PRINTS kannan muokkaaminen www.bioinf.man.ac.uk/dbbrowser/PRINTSN
Tehdään pienelle joukolle proteiineja monirinnastus josta haetaan käsin motiivit Etsitään OWL-kannasta proteiinit jotka täsmäävät kaikkiin motiiveihin Jos löydetään uusia proteiineja niin näistä saatava informaation lisätään motiivijoukkoon Etsintää toistetaan kunnes ei löydetä uusia proteiineja jotka täsmäävät kaikkiin motiiveihin T. Pasanen / Johdatus bioinformatiikkaan

PROSITE & PRINTS Proteiiniperheisiin lisätty tietoa käsin helpottaa ymmärtämään motiivien merkitystä proteiinin rakenteessa tai toiminnassa; lisätietoa käytetään arvioitaessa täsmäyksien biologista merkitystä Muut sekundääritietokannat tuotetaan automaat-tisesti joten ne sisältävät hyvin vähän lisätietoa; osa perustuu PRINTS/PROSITE kantoihin T. Pasanen / Johdatus bioinformatiikkaan

BLOCKS Perustuu PROSITEN, missä määritetään proteiiniperheen parhaiten säilyneet motiivit Jokaisesta motiivista valitaan kolme parhaiten säilynyttä aminohappoa (ei peräkkäisiä); lohkot talletetaan sellaisenaan (blocks = motif) Positioiden avulla arvioidaan samankaltaisuuden arvoja (score) oikeille negatiivisille ja oikeille positiivisille täsmäyksille, vrt laatikko 3.6 T. Pasanen / Johdatus bioinformatiikkaan

BLOCKS kannan tulkinta www.blocks.fhcrc.org
99.5% = samankaltaisuudelle rajan missä oikeiden negatiivisten määrä on 99,5 prosenttia Strength = lohkon jonojen samankaltaisuuksien mediaaniarvo kerrottuna 1000/99,5 Lohkon erottelukyky riippuu kenttien 99.5% ja strength erosta; eri lohkojen erottelukykyä voidaan vertailla strength kenttien arvoilla Kanta tuotetaan automaattisesti T. Pasanen / Johdatus bioinformatiikkaan

Profiles www.expasy.ch/cgi-bin/prosite-search-ac?PS50002
Profiilit eli painotusmatriisit Idea: huomioidaan myös motiivien väliset alueet Painotus sekvenssin kaikille positioille: lisäykset ja poistot (indels), vaihdot, parhaiten säilyneet motiivit Perheille tehdään profiilit ja kommmentit T. Pasanen / Johdatus bioinformatiikkaan

Pfam www.sanger.ac.uk/Software/Pfam 7tm
Monirinnastuksen tulos talletetaan Kätketyihin Markovin malleihin (Hidden Markov models, HMM) Tilastollisia automaatteja; jokaisesta tilasta seuraavaan tilaan on tietty todennäköisyys Tilat: tuhoa, lisää, vaihda ja hyväksy (samat) Käsin tehdyt rinnastukset (Pfam-A) Aut. SWISS-PROT klusterointi (Pfam-B) T. Pasanen / Johdatus bioinformatiikkaan

Kätketty Markovin malli
T. Pasanen / Johdatus bioinformatiikkaan

Aminohappojen karkea jako

Ominaisuuksien päällekkäisyys

IDENTIFY Sumea lähtökohta (fuzzy): aminohapot ryhmitellään ominaisuuksien mukaan päällekkäisiin luokkiin Pyrkimys löytää enemmän oikeita positiivisia jonoja kuin mitä säännöllisillä ilmauksilla saadaan Normaalisti tarvitaan lisäsääntöjä jotta ei saataisi liikaa vääriä positiivisia sekvenssejä T. Pasanen / Johdatus bioinformatiikkaan

Luokittelu eMOTIF ohjelmassa eMOTIF dna.stanford.edu/identify

Yhdistetyt sekundääritietokannat
Pyrkimys luoda yhtenäinen käyttöliittymä kaikkiin sekundäärikantoihin PROSITE, PRINTS, Profiles, Pfam ja BLOCKS Johdettuihin tietokantoihin linkit niihin kantoihin joissa kommentteja sekä tulevaisuudessa lisäksi animaatiota T. Pasanen / Johdatus bioinformatiikkaan

Rakenneluokittelu (vrt tasot)
3D rakenteita vähän (käsin löytäminen) Relaation (rakenne, sekvenssi) ei varma? Proteiineilla sama rakenne: sama esi-isä? Evoluutio toimii DNA- ja aminohappotasolla sekä laskostumistasolla (orthologia) Proteiinien säilyneet toiminnat merkitsevät että kriittisten aktiivisten tähteiden (residues) rakenteellinen ympäristö on myös säilynyt T. Pasanen / Johdatus bioinformatiikkaan

SCOP Structural Classification of Proteins Perhe: proteiinit joiden samankaltaisuus on yleensä vähintään 30% (joitakin poikkeuksia) Superperhe: proteiinit joiden rakenne ja toiminta viittaa yhteiseen esi-isään vaikka sekvenssi-tasolla proteiinien samankaltaisuus ei ole suuri Laskostuminen: suurimpien sekundääri-rakenteiden järjestys ja topologia on sama; saattavat johtua fyysisistä ja kemiallisista syistä T. Pasanen / Johdatus bioinformatiikkaan

CATH Class, Architecture, Topology, Homology
Luokka perustuu karkeaan jaotteluun: -kierteiset, -levyt,  rakenteet ja sekvenssit joilla ei juurikaan ole toisen asteen rakenteita Arkkitehtuuri kuvaa sekundäärirakenteiden karkean aseman suhteessa toisiinsa, liityntöjä ei kuvata (esim. tynnyri, rulla, kerrosleipä) Topologia kuvaa sekä asemat että liitynnät T. Pasanen / Johdatus bioinformatiikkaan

Homologia kuvaa samanlaisi rakenteita sisältäviä proteiineja kun proteiinien lineaarisen tason samankaltaisuuden alaraja on 35% ja Sekvenssitasolla edellisen tason proteiiniluokat jaotellaan vielä tarkemmin rakenteen perusteella T. Pasanen / Johdatus bioinformatiikkaan

PDBsum http://www.biochem.ucl.ac.uk/bsm/pdbsum/
Suurin rakennetiedon keräyspaikka Jokaisesta PDB:n sekvenssistä on luotu yhteenveto mikä sisältää mm. tuloksien luotettavuusarvion, proteiiniketjujen määrän, metalli-ionit, sekundäärirakenteet, laskostumispiirustuksen jne. Näitä käytetään kun yhdistetään proteiinin 1D, 2D ja 3D tietoa T. Pasanen / Johdatus bioinformatiikkaan

T. Pasanen / Johdatus bioinformatiikkaan

Samankaltaiset esitykset

Esitys aiheesta: "T. Pasanen / Johdatus bioinformatiikkaan"— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute

Kirjaudu sisään

Kirjaudu sisään sosiaaliverkostojen kautta:

T. Pasanen / Johdatus bioinformatiikkaan

Samankaltaiset esitykset

Esitys aiheesta: "T. Pasanen / Johdatus bioinformatiikkaan"— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute