Lataa esitys
Esittely latautuu. Ole hyvä ja odota
JulkaistuHeikki Toivonen Muutettu yli 9 vuotta sitten
1
Biotietokannat Alkuperäismateriaalit: Rainer Lehtonen Eija Korpelainen, CSC Science Support/Biosciences Theresa Attwood, University of Manchester WWW – eri paikoista...
2
Mitä biotietokannat sisältävät? Mistä tunnistaa hyvän tietokannan? Nukleotidisekvenssitietokannat Proteiinisekvenssitietokannat Genomitietokannat Motiivi- eli tunnistetietokannat
3
Mitä biotietokannat sisältävät? Sekvenssejä Motiiveja Rakenteita Mutaatioita Ekspressiodataa Interaktioita Reaktioteitä (metabolic pathways) Transkriptiotekijöiden sitoutumiskohtia Julkaisut/kirjallisuus jne
4
Mitä tietokannoilla voi tehdä Hakea tietoa tutkittavasta –Sekvenssistä –Eliöstä –Synteesireitistä / Biologisesta prosessista Vertailu laboratorion tutkimusaineiston ja julkisen aineiston välillä –Geeniekspressioaineisto laboratoriosta vs. julkinen geeniekspressioaineisto Toteuttaa tutkimuksen jotka perustuu puhtaasti julkiseen tutkimusaineistoon ja niiden vertailuun
5
Manuaalinen (= hidas) ei-päällekkäinen luotettava tietoa puuttuu Automaattinen (= nopea) päällekkäisyyttä virheitä ajan tasalla LAATUKATTAVUUS Millainen on hyvä tietokanta? ylläpitohenkilökunta tulevaisuuteen sitoutuminen hyvä kyselykäyttöliittymä Yhteistä:
6
Miten löytää hyvä tietokanta? Kysy kollegalta Kirjallisuudesta WWW ”tietokantana” Verkkosivuja jotka listaavat tietokantoja Nucleic Acids Research, Database Issue, Jan 1
7
http://www.oxfordjournals.org/nar/database/c/
8
NAR issue 2014 Aakkostettu lista: http://www.oxfordjournals.org/nar/database/a 1552 tietokantaa listattu Kategorioittain järjestetty tietokantalista: http://www.oxfordjournals.org/nar/database/c/ Nämä on-line -resurssit sisältävät tietokantojen kuvaukset (summary-linkit) sekä linkit kaikkiin tietokantoihin (database-linkit)!
9
Tietokantatyyppejä Nukleotidisekvenssitietokannat Genomi-”- Pathways-”- Geeniontologia-”- Proteiinitietokannat Interaktio-”- Tauti-”-
10
Nyt käsitellään nukleotidisekvenssitietokantoja ja genomitietokantoja
11
Nukleotidisekvenssitietokannat DDBJ - DNA Data Bank of Japan EMBL Nucleotide Sequence Database GenBank® Sisältävät kaikenlaisia ja kaikentasoisia sekvenssejä, mitä tutkijat niihin ovat tallentaneet! Paljon päällekkäisyyksiä, ei-päivitetyt annotaatiot… Uusi julkaisu (release) muutaman kk välein, päivitykset (update) päivittäin Käyttäjän kannattaa muistaa, että varsinkin aivan uusista sekvensseistä tietoa löytyneekin vain päivityksestä, eli kannattaa muistaa hakea sekvenssiä molemmista paikoista Nämä ovat kattavia tietokantoja (usein) heikolla sekvenssien annotaatiolla
12
European Bioinformatics Institute (EBI) EMBL SRS DDBJ National Institute of Genetics (NIG), Japan getentry National Center for Biotechnology Information (NCBI), USA GenBank Entrez International Sequence Database Collaboration http://www.ddbj.nig.ac.jp/searches-e.html http://www.ebi.ac.uk/embl/http://www.ncbi.nlm.nih.gov/ http://www.insdc.org/ Nämä tietokannat sisältävät saman tiedon!
13
Genbank Amerikkalaisen NCBI:n (National Center for Biotechnology Information) ylläpitämä nukleotidisekvenssien tietokanta Data tutkijoilta, sekvensointikeskuksista, patenteista ~166 milj. entryä, yht. ~153 mrd nukleotidia (tammikuussa 2013) Kasvaa eksponentiaalisesti Tietokannasta voidaan tehdä hakuja sekvensseillä Tätä käsiteltiin BLAST-työkalun yhteydessä Seuraavassa esittelen kuinka Genbankista haetaan tietoa avainsanojen avulla Kyseinen haku perustuu NCBI:n Entrez-hakukoneeseen Entrez:llä voi hakea tietoa muistakin lähteistä kuin Genbankista http://en.wikipedia.org/wiki/GenBank
14
Genbank Kokeillaan: 1. Haetaan sekvenssejä geenin nimellä ”p53” 2. Haetaan kaikki proteiinikinaasit jotka eivät ole tyrosiinikinaaseja Rajoitetaan jälkimmäinen haku ihmiseen Boolean logiikka (AND, OR, NOT) AND = kumpikin ehto täytyy toteutua (oletusehto) OR = toisen ehdoista täytyy toteutua NOT = ehto ei saa toteutua Protein kinase NOT tyrosine (AND sanaa ei tarvita) http://www.ncbi.nlm.nih.gov/nuccore/ Basic searchhttp://www.ncbi.nlm.nih.gov/nuccore/ http://www.ncbi.nlm.nih.gov/nuccore/advanced Advanced searchhttp://www.ncbi.nlm.nih.gov/nuccore/advanced
15
Valitse hakukenttä Kirjoita haku tähän Valitse lisää hakuehtoja Genbank Advanced Search
16
P53 hakutulos Huomaa monet osumat (RefSeqGene, Transcript variants …)
17
Genbank Advanced Search Haku: Gene Name: protein kinase NOT tyrosine ; Organism: homo sapiens
18
Tuloksista Here more info on sequence These allow filtering of the results
19
Esimerkki Genbank- sekvenssistä http://www.ncbi.nlm.nih.gov/nuccore/NG_017013.2 Oheinen sekvenssi hyvin tunnettu!! Lisää tietoa löytyy menemällä sivulla alas.
20
EMBL-Bank (ENA) (http://www.ebi.ac.uk/ena/) EMBL:n Genbankia vastaava paikka (EMBL: European Molecular Biology Laboratory) Sisältää saman datan kuin Genbank Data tutkijoilta, sekvensointikeskuksista, patenteista 239,7 milj. entryä, yht. 397 mrd nukleotidia (tammikuussa 2011) Kasvaa eksponentiaalisesti (tilastoja http://www.ebi.ac.uk/ena/about/statistics) Release -versio 3 kk:n välein, update -versio päivittäin Viimeisimmän julkaisuversion (110) dokumentaatio: http://www.ebi.ac.uk/embl/Documentation/Release_notes/current/relnotes.html Tietojen korjausoikeus on sekvenssin tallentaneella tutkijalla User manual: http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html Kts. mm. ohjeet entryn lukemiseen, luku 3.3…ja vertaa näyte-entryn sisältöön Näyte-entry: http://www.ebi.ac.uk/cgi-bin/dbfetch?db=embl&id=trbg361&style=html
22
EMBL divisions (jaottelut) Hyödynnä esim. sekvenssien välisissä vertailuissa! ENV: Environmental Samples FUN: Fungi HUM: Human INV: Invertebrates MAM: Other Mammals MUS: Mus musculus PHG: Bacteriophage PLN: Plants PRO: Prokaryotes ROD: Rodents SYN: Synthetic TGN: Transgenic UNC: Unclassified VRL: Viruses VRT: Other Vertebrates Taksonomiset ryhmät on jaoteltu divisioihin, joita kutakin vastaa kolmikirjaiminen lyhenne:
23
Miksi jaottelut? Haun kohdistaminen kannattaa: Tulosjoukon käsittely helpottuu, merkittävät BLAST-osumat eivät huku taustakohinaan ja haku nopeutuu. Eri hakutavoissa opastaa: GENBANK: https://www.ncbi.nlm.nih.gov/guide/training-tutorials/ ENA: http://www.ebi.ac.uk/Databases/service.html
24
Nukleotiditietopankit – ongelmia: Datan päällekkäisyydet: sama sekvenssi viety pankkiin useaan kertaan eri tutkimusryhmien toimesta Virheelliset tai puutteelliset annotaatiot? Vektorikontaminaatio (oikean sekvenssin sijasta vektoria, jolla sekvenssi on kloonattu)? Sekvenssivirheet (EST, HTG jne)
25
”Organisoidut” sekvenssitietopankit Tietokannat jotka pyrkivät yhdistämään esim. saman geenin eri versiot yhdeksi tietueeksi –Splice variants –SNP –Other variants RefSeq http://www.ncbi.nlm.nih.gov/refseq/ ENSEMBL http://www.ensembl.org/index.html UniProt (Proteiinitietokanta) http://www.uniprot.org/ Informaatio paremmin järjesteltyä. Pienempi kattavuus
26
RefSeq NCBI:n Reference Sequence project http://www.ncbi.nlm.nih.gov/RefSeq/ Kuraattorit valitsevat/kokoavat parhaan sekvenssin ja tarkistavat tiedot Release 51 (12.1.2012): sisältää 14,090,554 proteiinia 16,609:sta organismista. Aims to provide a comprehensive, integrated, non-redundant, well- annotated set of sequences, including genomic DNA, transcripts, and proteins. Perustuvat sekvenssitietopankkien (GenBank) kokoelmiin mutta kukin RefSeq on itsessään informaation synteesi, ei palanen perustutkimuksesta saatua raakadataa sellaisenaan RefSeqin sisällä EI ole päällekkäisyyttä. Vaihtoehtoiset splice–muodot ovat mainittuina erikseen http://www.ncbi.nlm.nih.gov/books/NBK21091/pdf/ch18.pdf
27
RefSeq status -koodien selitykset: CodeDescription MODELThe RefSeq record is provided by the NCBI Genome Annotation pipeline and is not subject to individual review or revision between annotation runs. INFERREDThe RefSeq record has been predicted by genome sequence analysis, but it is not yet supported by experimental evidence. The record may be partially supported by homology data. PREDICTEDThe RefSeq record has not yet been subject to individual review, and some aspect of the RefSeq record is predicted. PROVISIONALThe RefSeq record has not yet been subject to individual review. The initial sequence-to-gene association has been established by outside collaborators or NCBI staff. REVIEWEDThe RefSeq record has been reviewed by NCBI staff or by a collaborator. The NCBI review process includes assessing available sequence data and the literature. Some RefSeq records may incorporate expanded sequence and annotation information. VALIDATEDThe RefSeq record has undergone an initial review to provide the preferred sequence standard. The record has not yet been subject to final review at which time additional functional information may be provided. WGSThe RefSeq record is provided to represent a collection of whole genome shotgun sequences. These records are not subject to individual review or revisions between genome updates.
29
Genomitietokannat Onko koko genomi sama asia kuin kaikki geenipankkiin viedyt lajin sekvenssit yhdessä? EI! Tarvitaan myös annotaatio Genomitietokannat ovat integroituja tietolähteitä –koottu genomi –eri tavoin ennustetut geenit, tunnetut geenit, –mRNAt, proteiinit, ESTit
30
Genomitietokannat Jotkut genomitietokannoista keskittyvät yhteen malliorganismiin (hiiva, hiiri, rotta, lituruoho…) –Nämä sisältävät usein hyvin laajan kirjon informaatiota kyseisestä organismista Toiset kokoavat informaatiota monesta lajista samaan paikkaan: –Ensembl http://www.ensembl.org/index.html –MapViewer http://www.ncbi.nlm.nih.gov/mapview/ –UCSC Genome Browser http://genome-euro.ucsc.edu/cgi- bin/hgGateway?redirect=auto&source=genome.ucsc.edu
32
Siksipä esimerkiksi... Ensembl-projekti
33
Mihin tätä tarvitaan? Eikö sekvenssi olekaan valmis...? Sekvenssiä parannellaan kaiken aikaa; uutta tietoa tulee sisään ja virheitä korjataan Elintärkeää pysyä ”kärryillä” näistä muutoksista tarkasti jotta kokonaiskuva säilyy Tehtävä olisi manuaalisesti tehtynä miltei mahdoton. Automaattinen systeemi on nopeampi, halvempi ja tarkempi http://www.ensembl.org/info/website/tutorials/Ensembl_introd uction.pdf
34
Ensembl – sisältö? Ihmisen sekä monien muiden monisoluisten organismien genomiset DNA-sekvenssit, jotka ovat tällä hetkellä saatavissa julkisista lähteistä Kaikki Ensembleen DNA-sekvenssistä karakterisoidut piirteet yhdessä muodostavat ”ANNOTAATION”. Annotaatio sisältää: –geenit (1. kokeellisesti tunnistetut geenit 2. Ensembl:n ennustamat geenit) –Muut mielenkiintoiset piirteet; SNP:t, toistojaksot, homologiat
35
Ensembl käyttää ”GenScan”-softaa DNA- sekvenssin annotointiin: ohjelma tunnistaa DNA- alueet, jotka ”näyttävät geeneiltä” Näitä geenikandidaatteja verrataan julkisesti saatavilla oleviin tunnettuihin geenisekvensseihin. Mikäli riittävästi yhtenevyyttä, saadaan lisätodisteita ennusteen todenperäisyydelle Nämä ”ennustetut” geenit tallennetaan tietokantaan jolloin nekin ovat tiedonhaussa käytettävissä
36
www.ensembl.org/index.html Pari esimerkkihakua ENSEMBL:stä –Etsitään tietty kohta ihmisen genomista –Etsitään ”epidermal growth factor”
37
click!
38
Click
41
Monenlaisia ”näkymiä” käytettävissä (vasemman puoleinen paneeli): Contigview, Cytoview, Geneview, Markerview, Transview, Proteinview... Selosteet eri featureille Detailed view:ssa: klikkaa hiirellä vasemmalla puolella näkyvää nimikettä (esim. UniGene, ncRNA gene, Proteins...), ja saat näkyviin pop-up-ikkunan, jossa kerrotaan mitä termi tarkoittaa.
43
Haetaan seuraavaksi ENSEMBL:stä ihmisen sekvenssi “epidermal growth factor” Etsitään sitä koodaava genominen alue http://www.ensembl.org/index.html
44
Write query here Select species
45
Pick gene view Select this sequence from long list
48
Tietokannat tähän asti Tarjolla olevista tietokannoista informaatiota NAR-lehden tietokantanumerosta Nukleotiditietokannat (Genbank, ENA) sisältävät kaiken julkisen nukleotidisekvenssiaineiston Tietokannat kuten RefSeq ja ENSEMBL pyrkivät poistamaan päällekkäisyyttä ja organisoimaan informaatiota Genomitietokannat esittävät sekvenssit eliökohtaisesti –näissä aineisto usein esitetään genomisekvenssiä vasten
49
Ylimäääräisiä seuraavassa …
50
UCSC Genome Browser http://genome.ucsc.edu/
51
Monilla lajeilla on omia tietokantojaan http://cinxiabase.vmhost.psu.edu/ (täpläverkkoperhonen) http://flybase.org/ (banaanikärpänen) http://silkworm.genomics.org.cn/ (silkkiperhonen) https://www.vectorbase.org/ (malariasääsket) http://www.butterflygenome.org/ (Heliconius) http://beetlebase.org/ (Tribolium) http://www.informatics.jax.org/ (hiiri) http://www.yeastgenome.org/ (hiiva) http://www.arabidopsis.org/ (lituruoho)
52
Genotyyppi-fenotyyppi DB Was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype. http://www.ncbi.nlm.nih.gov/gap/ Ihmisgeneetikon suosikkeja: http://www.ncbi.nlm.nih.gov/omim A catalog of published genome-wide association studies: http://www.genome.gov/gwastudies/ Individual genome sequences: http://www.1000genomes.org/ Reference genotype db: http://hapmap.ncbi.nlm.nih.gov/
53
Muita esimerkkejä * ENCODE: Encyclopedia of DNA Elements (http://genome.ucsc.edu/ENCODE/) * COSMIC: Catalogue of Somatic Mutations in Cancer (http://www.sanger.ac.uk/genetics/CGP/cosmic/) * ANNOVAR: Functional annotation of genetic variants (http://www.biobase-international.com/product/annovar) * HGMD: Human Gene Mutation Database (http://www.biobase-international.com/product/hgmd) * TRANSFAC: Transcription Factor Binding Sites (http://www.biobase-international.com/product/transcription-factor-binding-sites)
54
EBI Genomes Nucleotide Sequences Protein Sequences Macromolecular Structures Small Molecules Gene Expression Protein Expression Molecular Interactions Reactions& Pathways Protein Families Enzymes Literature Taxonomy Ontologies http://www.ebi.ac.uk/
Samankaltaiset esitykset
© 2024 SlidePlayer.fi Inc.
All rights reserved.