Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Biotietokannat Alkuperäismateriaalit: Rainer Lehtonen Eija Korpelainen, CSC Science Support/Biosciences Theresa Attwood, University of Manchester WWW –

Samankaltaiset esitykset


Esitys aiheesta: "Biotietokannat Alkuperäismateriaalit: Rainer Lehtonen Eija Korpelainen, CSC Science Support/Biosciences Theresa Attwood, University of Manchester WWW –"— Esityksen transkriptio:

1 Biotietokannat Alkuperäismateriaalit: Rainer Lehtonen Eija Korpelainen, CSC Science Support/Biosciences Theresa Attwood, University of Manchester WWW – eri paikoista...

2 Mitä biotietokannat sisältävät? Mistä tunnistaa hyvän tietokannan? Nukleotidisekvenssitietokannat Proteiinisekvenssitietokannat Genomitietokannat Motiivi- eli tunnistetietokannat

3 Mitä biotietokannat sisältävät? Sekvenssejä Motiiveja Rakenteita Mutaatioita Ekspressiodataa Interaktioita Reaktioteitä (metabolic pathways) Transkriptiotekijöiden sitoutumiskohtia Julkaisut/kirjallisuus jne

4 Mitä tietokannoilla voi tehdä Hakea tietoa tutkittavasta –Sekvenssistä –Eliöstä –Synteesireitistä / Biologisesta prosessista Vertailu laboratorion tutkimusaineiston ja julkisen aineiston välillä –Geeniekspressioaineisto laboratoriosta vs. julkinen geeniekspressioaineisto Toteuttaa tutkimuksen jotka perustuu puhtaasti julkiseen tutkimusaineistoon ja niiden vertailuun

5 Manuaalinen (= hidas) ei-päällekkäinen luotettava tietoa puuttuu Automaattinen (= nopea) päällekkäisyyttä virheitä ajan tasalla LAATUKATTAVUUS Millainen on hyvä tietokanta? ylläpitohenkilökunta tulevaisuuteen sitoutuminen hyvä kyselykäyttöliittymä Yhteistä:

6 Miten löytää hyvä tietokanta? Kysy kollegalta Kirjallisuudesta WWW ”tietokantana” Verkkosivuja jotka listaavat tietokantoja Nucleic Acids Research, Database Issue, Jan 1

7 http://www.oxfordjournals.org/nar/database/c/

8 NAR issue 2014 Aakkostettu lista: http://www.oxfordjournals.org/nar/database/a 1552 tietokantaa listattu Kategorioittain järjestetty tietokantalista: http://www.oxfordjournals.org/nar/database/c/ Nämä on-line -resurssit sisältävät tietokantojen kuvaukset (summary-linkit) sekä linkit kaikkiin tietokantoihin (database-linkit)!

9 Tietokantatyyppejä Nukleotidisekvenssitietokannat Genomi-”- Pathways-”- Geeniontologia-”- Proteiinitietokannat Interaktio-”- Tauti-”-

10 Nyt käsitellään nukleotidisekvenssitietokantoja ja genomitietokantoja

11 Nukleotidisekvenssitietokannat DDBJ - DNA Data Bank of Japan EMBL Nucleotide Sequence Database GenBank® Sisältävät kaikenlaisia ja kaikentasoisia sekvenssejä, mitä tutkijat niihin ovat tallentaneet! Paljon päällekkäisyyksiä, ei-päivitetyt annotaatiot… Uusi julkaisu (release) muutaman kk välein, päivitykset (update) päivittäin Käyttäjän kannattaa muistaa, että varsinkin aivan uusista sekvensseistä tietoa löytyneekin vain päivityksestä, eli kannattaa muistaa hakea sekvenssiä molemmista paikoista Nämä ovat kattavia tietokantoja (usein) heikolla sekvenssien annotaatiolla

12 European Bioinformatics Institute (EBI) EMBL SRS DDBJ National Institute of Genetics (NIG), Japan getentry National Center for Biotechnology Information (NCBI), USA GenBank Entrez International Sequence Database Collaboration http://www.ddbj.nig.ac.jp/searches-e.html http://www.ebi.ac.uk/embl/http://www.ncbi.nlm.nih.gov/ http://www.insdc.org/ Nämä tietokannat sisältävät saman tiedon!

13 Genbank Amerikkalaisen NCBI:n (National Center for Biotechnology Information) ylläpitämä nukleotidisekvenssien tietokanta Data tutkijoilta, sekvensointikeskuksista, patenteista ~166 milj. entryä, yht. ~153 mrd nukleotidia (tammikuussa 2013) Kasvaa eksponentiaalisesti Tietokannasta voidaan tehdä hakuja sekvensseillä Tätä käsiteltiin BLAST-työkalun yhteydessä Seuraavassa esittelen kuinka Genbankista haetaan tietoa avainsanojen avulla Kyseinen haku perustuu NCBI:n Entrez-hakukoneeseen Entrez:llä voi hakea tietoa muistakin lähteistä kuin Genbankista http://en.wikipedia.org/wiki/GenBank

14 Genbank Kokeillaan: 1. Haetaan sekvenssejä geenin nimellä ”p53” 2. Haetaan kaikki proteiinikinaasit jotka eivät ole tyrosiinikinaaseja Rajoitetaan jälkimmäinen haku ihmiseen Boolean logiikka (AND, OR, NOT) AND = kumpikin ehto täytyy toteutua (oletusehto) OR = toisen ehdoista täytyy toteutua NOT = ehto ei saa toteutua Protein kinase NOT tyrosine (AND sanaa ei tarvita) http://www.ncbi.nlm.nih.gov/nuccore/ Basic searchhttp://www.ncbi.nlm.nih.gov/nuccore/ http://www.ncbi.nlm.nih.gov/nuccore/advanced Advanced searchhttp://www.ncbi.nlm.nih.gov/nuccore/advanced

15 Valitse hakukenttä Kirjoita haku tähän Valitse lisää hakuehtoja Genbank Advanced Search

16 P53 hakutulos Huomaa monet osumat (RefSeqGene, Transcript variants …)

17 Genbank Advanced Search Haku: Gene Name: protein kinase NOT tyrosine ; Organism: homo sapiens

18 Tuloksista Here more info on sequence These allow filtering of the results

19 Esimerkki Genbank- sekvenssistä http://www.ncbi.nlm.nih.gov/nuccore/NG_017013.2 Oheinen sekvenssi hyvin tunnettu!! Lisää tietoa löytyy menemällä sivulla alas.

20 EMBL-Bank (ENA) (http://www.ebi.ac.uk/ena/) EMBL:n Genbankia vastaava paikka (EMBL: European Molecular Biology Laboratory) Sisältää saman datan kuin Genbank Data tutkijoilta, sekvensointikeskuksista, patenteista 239,7 milj. entryä, yht. 397 mrd nukleotidia (tammikuussa 2011) Kasvaa eksponentiaalisesti (tilastoja http://www.ebi.ac.uk/ena/about/statistics) Release -versio 3 kk:n välein, update -versio päivittäin Viimeisimmän julkaisuversion (110) dokumentaatio: http://www.ebi.ac.uk/embl/Documentation/Release_notes/current/relnotes.html Tietojen korjausoikeus on sekvenssin tallentaneella tutkijalla User manual: http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html  Kts. mm. ohjeet entryn lukemiseen, luku 3.3…ja vertaa näyte-entryn sisältöön Näyte-entry: http://www.ebi.ac.uk/cgi-bin/dbfetch?db=embl&id=trbg361&style=html

21

22 EMBL divisions (jaottelut) Hyödynnä esim. sekvenssien välisissä vertailuissa! ENV: Environmental Samples FUN: Fungi HUM: Human INV: Invertebrates MAM: Other Mammals MUS: Mus musculus PHG: Bacteriophage PLN: Plants PRO: Prokaryotes ROD: Rodents SYN: Synthetic TGN: Transgenic UNC: Unclassified VRL: Viruses VRT: Other Vertebrates Taksonomiset ryhmät on jaoteltu divisioihin, joita kutakin vastaa kolmikirjaiminen lyhenne:

23 Miksi jaottelut? Haun kohdistaminen kannattaa: Tulosjoukon käsittely helpottuu, merkittävät BLAST-osumat eivät huku taustakohinaan ja haku nopeutuu. Eri hakutavoissa opastaa: GENBANK: https://www.ncbi.nlm.nih.gov/guide/training-tutorials/ ENA: http://www.ebi.ac.uk/Databases/service.html

24 Nukleotiditietopankit – ongelmia: Datan päällekkäisyydet: sama sekvenssi viety pankkiin useaan kertaan eri tutkimusryhmien toimesta Virheelliset tai puutteelliset annotaatiot? Vektorikontaminaatio (oikean sekvenssin sijasta vektoria, jolla sekvenssi on kloonattu)? Sekvenssivirheet (EST, HTG jne)

25 ”Organisoidut” sekvenssitietopankit Tietokannat jotka pyrkivät yhdistämään esim. saman geenin eri versiot yhdeksi tietueeksi –Splice variants –SNP –Other variants RefSeq http://www.ncbi.nlm.nih.gov/refseq/ ENSEMBL http://www.ensembl.org/index.html UniProt (Proteiinitietokanta) http://www.uniprot.org/ Informaatio paremmin järjesteltyä. Pienempi kattavuus

26 RefSeq NCBI:n Reference Sequence project http://www.ncbi.nlm.nih.gov/RefSeq/ Kuraattorit valitsevat/kokoavat parhaan sekvenssin ja tarkistavat tiedot Release 51 (12.1.2012): sisältää 14,090,554 proteiinia 16,609:sta organismista. Aims to provide a comprehensive, integrated, non-redundant, well- annotated set of sequences, including genomic DNA, transcripts, and proteins. Perustuvat sekvenssitietopankkien (GenBank) kokoelmiin mutta kukin RefSeq on itsessään informaation synteesi, ei palanen perustutkimuksesta saatua raakadataa sellaisenaan RefSeqin sisällä EI ole päällekkäisyyttä. Vaihtoehtoiset splice–muodot ovat mainittuina erikseen http://www.ncbi.nlm.nih.gov/books/NBK21091/pdf/ch18.pdf

27 RefSeq status -koodien selitykset: CodeDescription MODELThe RefSeq record is provided by the NCBI Genome Annotation pipeline and is not subject to individual review or revision between annotation runs. INFERREDThe RefSeq record has been predicted by genome sequence analysis, but it is not yet supported by experimental evidence. The record may be partially supported by homology data. PREDICTEDThe RefSeq record has not yet been subject to individual review, and some aspect of the RefSeq record is predicted. PROVISIONALThe RefSeq record has not yet been subject to individual review. The initial sequence-to-gene association has been established by outside collaborators or NCBI staff. REVIEWEDThe RefSeq record has been reviewed by NCBI staff or by a collaborator. The NCBI review process includes assessing available sequence data and the literature. Some RefSeq records may incorporate expanded sequence and annotation information. VALIDATEDThe RefSeq record has undergone an initial review to provide the preferred sequence standard. The record has not yet been subject to final review at which time additional functional information may be provided. WGSThe RefSeq record is provided to represent a collection of whole genome shotgun sequences. These records are not subject to individual review or revisions between genome updates.

28

29 Genomitietokannat Onko koko genomi sama asia kuin kaikki geenipankkiin viedyt lajin sekvenssit yhdessä? EI! Tarvitaan myös annotaatio Genomitietokannat ovat integroituja tietolähteitä –koottu genomi –eri tavoin ennustetut geenit, tunnetut geenit, –mRNAt, proteiinit, ESTit

30 Genomitietokannat Jotkut genomitietokannoista keskittyvät yhteen malliorganismiin (hiiva, hiiri, rotta, lituruoho…) –Nämä sisältävät usein hyvin laajan kirjon informaatiota kyseisestä organismista Toiset kokoavat informaatiota monesta lajista samaan paikkaan: –Ensembl http://www.ensembl.org/index.html –MapViewer http://www.ncbi.nlm.nih.gov/mapview/ –UCSC Genome Browser http://genome-euro.ucsc.edu/cgi- bin/hgGateway?redirect=auto&source=genome.ucsc.edu

31

32 Siksipä esimerkiksi... Ensembl-projekti

33 Mihin tätä tarvitaan? Eikö sekvenssi olekaan valmis...? Sekvenssiä parannellaan kaiken aikaa; uutta tietoa tulee sisään ja virheitä korjataan Elintärkeää pysyä ”kärryillä” näistä muutoksista tarkasti jotta kokonaiskuva säilyy Tehtävä olisi manuaalisesti tehtynä miltei mahdoton. Automaattinen systeemi on nopeampi, halvempi ja tarkempi http://www.ensembl.org/info/website/tutorials/Ensembl_introd uction.pdf

34 Ensembl – sisältö? Ihmisen sekä monien muiden monisoluisten organismien genomiset DNA-sekvenssit, jotka ovat tällä hetkellä saatavissa julkisista lähteistä Kaikki Ensembleen DNA-sekvenssistä karakterisoidut piirteet yhdessä muodostavat ”ANNOTAATION”. Annotaatio sisältää: –geenit (1. kokeellisesti tunnistetut geenit 2. Ensembl:n ennustamat geenit) –Muut mielenkiintoiset piirteet; SNP:t, toistojaksot, homologiat

35 Ensembl käyttää ”GenScan”-softaa DNA- sekvenssin annotointiin: ohjelma tunnistaa DNA- alueet, jotka ”näyttävät geeneiltä” Näitä geenikandidaatteja verrataan julkisesti saatavilla oleviin tunnettuihin geenisekvensseihin. Mikäli riittävästi yhtenevyyttä, saadaan lisätodisteita ennusteen todenperäisyydelle Nämä ”ennustetut” geenit tallennetaan tietokantaan jolloin nekin ovat tiedonhaussa käytettävissä

36 www.ensembl.org/index.html Pari esimerkkihakua ENSEMBL:stä –Etsitään tietty kohta ihmisen genomista –Etsitään ”epidermal growth factor”

37 click!

38 Click

39

40

41 Monenlaisia ”näkymiä” käytettävissä (vasemman puoleinen paneeli): Contigview, Cytoview, Geneview, Markerview, Transview, Proteinview... Selosteet eri featureille Detailed view:ssa: klikkaa hiirellä vasemmalla puolella näkyvää nimikettä (esim. UniGene, ncRNA gene, Proteins...), ja saat näkyviin pop-up-ikkunan, jossa kerrotaan mitä termi tarkoittaa.

42

43 Haetaan seuraavaksi ENSEMBL:stä ihmisen sekvenssi “epidermal growth factor” Etsitään sitä koodaava genominen alue http://www.ensembl.org/index.html

44 Write query here Select species

45 Pick gene view Select this sequence from long list

46

47

48 Tietokannat tähän asti Tarjolla olevista tietokannoista informaatiota NAR-lehden tietokantanumerosta Nukleotiditietokannat (Genbank, ENA) sisältävät kaiken julkisen nukleotidisekvenssiaineiston Tietokannat kuten RefSeq ja ENSEMBL pyrkivät poistamaan päällekkäisyyttä ja organisoimaan informaatiota Genomitietokannat esittävät sekvenssit eliökohtaisesti –näissä aineisto usein esitetään genomisekvenssiä vasten

49 Ylimäääräisiä seuraavassa …

50 UCSC Genome Browser http://genome.ucsc.edu/

51 Monilla lajeilla on omia tietokantojaan http://cinxiabase.vmhost.psu.edu/ (täpläverkkoperhonen) http://flybase.org/ (banaanikärpänen) http://silkworm.genomics.org.cn/ (silkkiperhonen) https://www.vectorbase.org/ (malariasääsket) http://www.butterflygenome.org/ (Heliconius) http://beetlebase.org/ (Tribolium) http://www.informatics.jax.org/ (hiiri) http://www.yeastgenome.org/ (hiiva) http://www.arabidopsis.org/ (lituruoho)

52 Genotyyppi-fenotyyppi DB Was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype. http://www.ncbi.nlm.nih.gov/gap/ Ihmisgeneetikon suosikkeja: http://www.ncbi.nlm.nih.gov/omim A catalog of published genome-wide association studies: http://www.genome.gov/gwastudies/ Individual genome sequences: http://www.1000genomes.org/ Reference genotype db: http://hapmap.ncbi.nlm.nih.gov/

53 Muita esimerkkejä * ENCODE: Encyclopedia of DNA Elements (http://genome.ucsc.edu/ENCODE/) * COSMIC: Catalogue of Somatic Mutations in Cancer (http://www.sanger.ac.uk/genetics/CGP/cosmic/) * ANNOVAR: Functional annotation of genetic variants (http://www.biobase-international.com/product/annovar) * HGMD: Human Gene Mutation Database (http://www.biobase-international.com/product/hgmd) * TRANSFAC: Transcription Factor Binding Sites (http://www.biobase-international.com/product/transcription-factor-binding-sites)

54 EBI Genomes Nucleotide Sequences Protein Sequences Macromolecular Structures Small Molecules Gene Expression Protein Expression Molecular Interactions Reactions& Pathways Protein Families Enzymes Literature Taxonomy Ontologies http://www.ebi.ac.uk/


Lataa ppt "Biotietokannat Alkuperäismateriaalit: Rainer Lehtonen Eija Korpelainen, CSC Science Support/Biosciences Theresa Attwood, University of Manchester WWW –"

Samankaltaiset esitykset


Iklan oleh Google