Hakemistorakenteet biologisille aineistoille

Slides:



Advertisements
Samankaltaiset esitykset
Kemian tietolähteet ( ) Kaija Sipilä Maria Kovero Kevät 2002 kurssikerta.
Advertisements

EVIDENCE BASED SOFTWARE ENGINEERING – EBSE
AUTOMATIC DELIVERY REWARDS (ADR) (New Programme – 01 September) LifePak ® (Example) PSV 5% Discount= €51.71 (68.97 PSV) Shipping= €4.5.
• Kuvioita ja taulukoita raportista Finnish Science in International Comparison: A Bibliometric Analysis Annamaija Lehvo ja Anu Nuutinen Suomen.
OULU ADVANCED RESEARCH ON SOFTWARE AND INFORMATION SYSTEMS Teppo Räisänen | Oulun yliopisto Facebook API Teppo Räisänen Tietojenkäsittelytieteiden.
1 Java-kieleen pohjautuvien ohjelmien käyttökohteita Ohjelmat Appletit JavaBeans JavaScript Java Server Pages (JSP) Java Servletit J2ME, mobiililaitteet.
INTERNET MEDIANA Pääpiirteitä
Mediatekniikan seminaari Paula Sanaksenaho Voice over Internet Protocol Paula Sanaksenaho
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 2 - Kim Björkman Optimointiopin seminaari - Kevät 2007 / 1 Yksiulotteiset kuvaukset.
Tietojen hallinta Alkuperäinen teksti:
Tietokannan suunnittelu
13. Pakkaukset.
Tutkimus- ja kehittämisprosesseja keväällä 2012 Heikki Hannula.
Sovellusprojekti Jyväskylän yliopisto Tietotekniikan laitos.
C-ohjelmointi, kevät 2006 Taulukot Binääritiedostot Luento
Tfy-99.C Immateriaalioikeudet ja IPR strategia Harjoitukset
Tietokannat II Lasse Bergroth Turun yliopisto, IT-laitos Kevät 2013
Internetistä haku: USB portti – tiedonhaun vertailua Jouni Ojanperä TP09S
Kaisa Tuomisto TU08S1E  Tutkimuksen tavoitteet  Käytetyt hakusanat ja osumat  Linux  Tietolähteiden vertailua  Yhteenveto  Viitteet.
Luento 6-TJT-A26-Tietotyö ja sen välineet-SYKSY TJT-A26 Tietotyö ja sen välineet
Luento 6-TJT-A26-Tietotyö ja sen välineet-SYKSY TJT-A26 Tietotyö ja sen välineet
Transkriptiossa syntyy m-rna (lähetti-rna).
Solusimulaattorit S Laskennallinen systeemibiologia Sebastian Köhler.
RNA-rakenteen ennustaminen - Circles Vesa Riihimäki S Solubiosysteemien perusteet.
Suvi Karhu AUTO3070 Geneettiset algoritmit
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia.
MITEN MÄÄRITTELEMME VAMMAISUUTTA?
VAIHTOEHTOINEN SILMUKOINTI
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia.
Finnish Science in International Comparison A Bibliometric Analysis Kommenttipuheenvuoro Outi Krause TKK.
Aikuisdiabeetikkojen hoitovastuun jakautuminen ja hoitoyksiköiden sisäinen työnjako.
Introduction to bioinformatics T.K. Attwood & D.J. Parry-Smith Addison Wesley Longman Limited 1999.
SQL Standardoitu kieli, jonka avulla voidaan
Vuoden 2012 tietojen tarkistusprosessi Olli Eskola Sovellusasiantuntija CSC – Tieteen tietotekniikan keskus Oy TUTKI-julkaisutiedonkeruuseminaari
Graafialgoritmit laskennal- lisessa systeemibiologiassa Graph Algorithms in Computational Systems Biology Työn valvoja ja ohjaaja: Prof. Patric Östergård,
SYKE projekti. Missä mennään? Partnership agreementit roikkuvat vielä Raportointi loppusuoralla, jotain puuttuu vielä Palkkaukset ja suunnittelu.
Ontologia Hanna Hirvonen. Käsite Ontologia ● Peräisin filosofiasta oppi olevaisesta ● Kuvaus tarkasteltavan sovellusalueen käsitteistä ja niiden välisistä.
Heuristinen arviointi Käyttöliittymäseminaari Jere Salonen.
Johdatus viestintään, viimeinen teema: kooste Leif Åberg syksy 2003.
Tilinpäätös 2004.
Homeoottinen geeni Ns. isäntägeeni.
Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Harri Ehtamo Optimointiopin seminaari - Kevät 2005 / 1 Sähköinen kaupankäynti Harri Ehtamo.
© Heli Kangas Hyvät fysioterapiakäytännöt tavaksi: Sepelvaltimotautipotilaan liikunnallinen kuntoutus -suositus ja fysioterapian näkyminen eri.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Lasse Johansson Systeemitieteiden kandidaattiseminaari – Syksy 2009 Vaikutuskaaviopelit Lasse Johansson.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Ohjaamaton oppiminen– Heikki Vesterinen Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
(Luento)-opetuksen aktivointikeinot Pekka Makkonen
Tietoaineistot sisällönkuvailulla tietoresurssiksi – miksi, mitä, miten ? MATRI-seminaari Tietoaineistojen sisällönkuvailu ja sanastot Maj-Lis.
Mikä on geenien rooli mikro- ja makroevoluutiossa?
Kestävän kehityksen ja ympäristökasvatuksen didaktiikka Mauri Åhlberg FLS Biologian ja kestävän kehityksen didaktiikan professori Helsingin yliopisto.
VliSS-virtual laboratory in survey sampling Risto Lehtonen Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos TieVie-seminaari Jyväskylä.
1 Tästä monis1teesta Tämä moniste kattaa syksyn 2004 tentittävän ITK-211 kurssin materiaalin. Moniste on myös hyödyllinen kurssin harjoitustyötä (ITK-212)
Kuplalajittelu (bubble sort)
T. Pasanen / Johdatus bioinformatiikkaan 1 4. DNA tietokannat.
Juha Knuuttila bioinformatiikka
Juha Knuuttila Bioinformatiikka TF00AA
Juha Knuuttila Bioinformatiikka. Käytä hakukenttiä ja hae sisältöinformaatiota oppaista (handbook, guide) tai help linkkien alta Yleisinformaatiota.
Vakiintuneet kustantajat ja uudet yrittäjät OA-monografiamaailmassa
DNA:n & RNA:n rakenne ja toiminta
BIOS BIOS 2 jakso 1 Geenit ohjaavat proteiinien rakentumista 4 aminohappo DNA emäskolmikko geeni Golgin laite koodaava juoste lähetti-RNA mallijuoste Avainsanat.
Tyyppiluokat II ­ konstruktoriluokat, funktionaaliset riippuvuudet ­
BIOLÄÄKETIETEEN koulutusohjelma
YLIOPISTOTENTTI / UNIVERSITY EXAM
Tilastollinen koneoppiminen -lyhyt oppimäärä-
5 Solun toimintaohjeet ovat geeneissä.
Työpaja: englanninkielisiä tiedonlähteitä mediatekniikan opiskelijoille Kevät 2014, Kaisu Sallasmaa.
APA-tyyli Petri Nokelainen
BIOLÄÄKETIETEEN koulutusohjelma
Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Esityksen transkriptio:

Hakemistorakenteet biologisille aineistoille Katja Astikainen Tietokannat nyt –seminaari 15.11.2005

Taustaa: tietokannat ovat kookkaita Biologiset tietokannat, kuten Genomi- ja Proteiinitietokannat (GenBank, PDB) ovat kasvaneet nopeasti viime vuosien aikana. esim. ihmisen genomi on n. 3 biljoonaa emäsparia pitkä DNA-sekvenssi jaettuna 22 autonomiseen ja 2 sukupuolikromosomiin. 1Memäspari vie 1MB säilytystilaa levymuistista => ihmisen genomin talletukseen kuluu 3GB säilytystilaa [1]. yhteensä yli 80 biljoonaa emäsparia DNA:ta GenBank:ssa [2] VUOSI SEKVEN-OIDUT GENOMIT TUTKITAAN TÄLLÄ HETKELLÄ 1994 1995 2 1996 4 1997 5 9 1998 8 17 1999 13 30 2000 23 53 2001 42 95 2002 175 270 31.10.2005 315 1351 Taulukko 1: Kokonaisten genomien sekvensointi lisääntyy vuosi vuodelta [3].

Taustaa: aineistoa on vaikeaa käsitellä Sekvenssien ongelma pitkät sekvenssit pieni aakkosto (4) samankaltaisuus sallii aukot ja muutokset sekvenssien välillä proteiinit proteiineja on paljon: esimerkiksi ihmisellä on 30 tuhatta geeniä ja moni niistä koodaa useampaa proteiinia. kolmiulotteisen rakenteen vertailu hankalaa vaikka tiedetään proteiinin atomien paikat, miten tiedetään mikä atomi parhaiten vastaa toisen proteiinin mitäkin atomia? aminohapposekvenssien vertailu ei ole luotettavaa, lähes sama sekvenssi, toiminta eri

Taustaa: sekvenssien proteiinien vertailu DNA-sekvensien vertailu antaa tietoa yhteisistä ominaisuuksista eliöiden välillä tietoa geenien toiminnasta Proteiinien rakenteiden vertailu tärkeää uusien proteiinien toiminta, mutaatioiden tutkiminen, lääketeollisuus laskennallisten vertailualgoritmien kehittäminen Laboratoriokokeet verifiointiin Vertailu on samankaltaisuuksien etsimistä Koska sekvenssi-/proteiiniaineistot ovat monimutkaisia, ei SQL:n yhtäläisyyshaut toimi, vaan tarvitaan erikoisia työkaluja.

Taustaa: nykyiset ratkaisut DNA-sekvenssit Dynaaminen ohjelmointi O(mn) Tietokannoissa BLAST-algoritmi Proteiinit esim. alfa-hiilien linjaus hierarkkinen menetelmä: VAST Nykyiset vertailualgoritmit eivät käytä hakemistorakenteita. hakualgoritmien skaalautuvuutta isoille aineistoille voitaisiin tehostaa hakemistoja käyttämällä hakemistorakenteita (MAP, PSI)

DNA sekvenssi DNA (deoksiribonucleid acid) on kaksijuosteinen nukleotidiketju nukleotideja on neljää erilaista A adeniini T tymiini G guaniini C sytosiini Ketju voidaan esittää n-pituisena sanana sekvenssien vertailussa etsitään ensin optimaalinen rinnastus kahden sekvenssin välillä aukot (_), muutokset pisteytys Kuva1: pätkä kaksijuosteista DNA:ta [4]. Kuva2: sama (kuva1) pätkä DNA:ta kirjainesityksenä kuva3: optimaalinen rinnastus kahden DNA-sekvenssin välillä

DNA-sekvenssien frekvenssivektoriesitykset ja frekvenssietäisyydet DNA-sekvenssi, jonka aakkosto koostuu nukleotideista (A,C,G,T), voidaan esittää 4-ulotteisen frekvenssivektorin avulla. Koordinaatit kertovat aakkosien frekvenssin sekvenssissä f(s)=[f(A),f(C),f(G),f(T)] Esimerkiksi DNA sekvenssi s = ATTGCCAAT, voidaan esittää frekvenssivektorina f(s) = [3, 2, 1, 3]. Jos s ja t ovat kaksi vertailtavaa sekvenssiä niiden editointietäisyys (ED) on tarvittavien poistojen, lisäysten ja muutosten määrä sekvenssiin s, jotta siitä saataisiin sekvenssi t. Nopeampaa on kuitenkin laskea frekvenssietäisyys (FD) frekvenssivektorien s ja t välille: tarvittavat lisäykset ja poistot frekvenssivektorin f(s) frekvensseihin, että siitä saataisiin f(t). Voidaan osoittaa, että FD<=ED

DNA-sekvenssien frekvenssivektoriesitykset ja frekvenssietäisyydet Esimerkki Olkoon DNA-sekvenssit s = AATCCCAA ja t = TGCCAA, sekä niitä vastaavat frekvenssivektorit f(s) = [4, 3, 0,1] ja f(t) = [2, 2, 1, 1]. Editointietäisyys on ED(s, t) = 3, koska t:stä on ”poistettu” kaksi A:ta sekvenssin edestä ja yksi C on muutettu G:ksi. Nyt frekvenssietäisyyden laskevan algoritmin mukaan frekvenssivektorien välinen positiivinen etäisyys (frekvenssien lisäykset) on kolme ja negatiivinen etäisyys (frekvenssien poistot) on yksi, mistä seuraa, että frekvenssietäisyys FD(f(s), f(t)) = 3. Nyt editointietäisyys on yhtä suuri kuin frekvenssietäisyys.

MRS(Multi Resolution String) -hakemistorakenne sarakkeet DNA-sekvenssejä, kromosomit rivit eri resoluutioita, osasekvenssien pituus (esim. sivun koko). T on F-hakemisto, jossa d:lle peräkkäiselle osasekvenssin frekvenssivektorille MBR:t (Bj). F-hakemistoon talletetaan tietueet (B.L, B.H , o), missä B.L on MBR:n pienin ja B.H on suurin koordinaatti, o on ensimmäisen MBR:n osasekvenssin sivun osoite tietokannassa.

MAP-menetelmä lokaalien samankaltaisuuksien löytämiseen Kyselysekvenssi q jaetaan osasekvensseihin q1,..,qm frekvenssivektorit f(qi) lasketaan Muodotetaan jokaista (q, tietokantasekvenssi s) paria kohti match-taulu M -taulut muodostetaan FIND_MATCHES-algoritmilla Kukin taulun solu Mij vastaa kyselyn osasekvenssiä qi (frekvenssivektori f(qi)) ja hakemiston minimisuorakulmio Bj (d:n peräkkäisen osasekvenssin sk frekvenssivektorin f(sk) MBR) etäisyyksien laskennassa huomioidaan aukot ja muutokset (sakot) kuva 5: match-taulu [10]

MAP-menetelmä lokaalien samankaltaisuuksien löytämiseen Lasketaan etäisyys FS(f(qi) ,Bj) ja merkitään match-taulun solu true:ksi, jos etäisyys on sallitun rajan alapuolella MAP- algoritmin avulla match-taulu luetaan läpi ja tietokannasta haetaan ne osasekvenssit, joilla match-taulussa arvo on true ja rinnastetaan kyselyosasekvenssin kanssa esimerkiksi BLAST-rinnastusalgoritmia käyttäen. kuva 5: MAP-algoritmi käy läpi match-taulun osissa [10]

Proteiinien rakenteiden vertailua halutaan saada selvyys proteiinin toiminnasta toiminnan perusteella voidaan myös päätellä jotain eliön evoluutiosta Perusongelma on löytää optimaaliset parit kahden proteiinin hiiliatomien välillä nykyiset proteiinien rakenteenvertailu -algoritmit ovat heuristisia ja toimivat keskusmuistissa esimerkki: VAST, hyödyntää sekundäärirakenteita, SSE-kolmikot

Proteiinin rakenne Primäärirakenne Sekundäärirakenne Tertiäärirakenne aminohappoketju (20 erilaista aminohappoa) aminohappoketjujen sekvenssien rinnastus ei varmuutta proteiinien samasta toiminnasta, koska muutaman aminohapon muutos voi johtaa erilaiseen kolmiulotteiseen rakenteeseen ja toiminntaan Sekundäärirakenne koostuu peruselementeistä (sekundäärirakenteista) alfa-heliksi (aminohappoketjun muodostama korkkiruuvimainen rakennte) beta-levy (koostuu rinnakkaisista aminohappoketjuista beta-säikeistä) Tertiäärirakenne kolmiulotteinen laskostunut rakenne, joka määrää myös proteiinin toiminnan.

Proteiinin esittäminen Sekundäärirakennekolmikkojen avulla Kuva 6: Kuva Human Glutathione S-Transferase P1-1 -proteiinin rakenteesta [11]. Kuva 8: SSE-kolmikko suora-approksimaatioina [5] SSE- kolmikon vektoriesitys on 9-ulotteinen ominaisuusvektori: [minij ,minik,minjk,maxij ,maxik,maxjk,µij ,µik,µjk]. i,j,k ovat pituusjärjestyksessä (pienin ensin) Kuva 7: SSE-kolmikko

PSI-menetelmä PSI(Protein Structure Index)-hakumenetelmä [Çam03], koostuu neljästä vaiheesta: Kyselyproteiinin SSE-kolmikoiden kanssa samankaltaiset tietokannan proteiinien SSE-kolmikot etsitään käyttämällä hyväksi R*puu-hakemistorakennetta. Kolmikkoparigraafi TPG (Triplet-Pair-Graph) muodostetaan. Kaksijakoinen verkko (bipartite graph) muodostetaan TPG:stä. Verkosta etsitään proteiini, jolla on laajin vastaavuus kyselyproteiinin SSE-kolmikoiden kanssa. Tietokannan kandidaattiproteiineille lasketaan p-arvo ja suurilla p-arvoilla varustetut proteiinit hylätään. Rakenteeltaan samankaltaiset proteiinit löydetään kyselyproteiinin ja kandidaattiproteiinin hiiliketjujen rinnastuksella VAST-algoritmia käyttäen.

R*-puu proteiinien hakemistona R-puu on tasapainotettu puu kuten B+-puu Lehdillä ovat (tietokannan kaikkien proteiinien) tietueet (ov, ak, m, PDBid), joissa on SSE-kolmikkojen ominaisuusvektorit ov, sekundäärirakenteiden aloituskohdat ak, pituudet m, ja osoite tietokannan proteiiniin PDBid, jolle SSE kuuluu. Hakemistosolmun tietueita indeksoidaan suorakulmioiden (MBR) avulla (9-ulotteinen vektori) kolme ensimmäistä koordinaattia määrittelee alarajan SSE-kolmikon minimietäisyyksille ja kolme seuraavaa maksimietäisyyksille ja kolme viimeistä ovat theta-kulmat. Esimerkki: Ajatellaan, että hakemistossa on kolme lehtisolmua, joissa on kolme kuvitteellista ominaisuusvektoria ov (katso esimerkki 3): [1,2,3,5,9,8,45,45,90], [1,1,2,5,9,10,44,46,90], [1,3,3,6,8,8,45,44,91]. Näiden vanhemman, eli ylemmän hakemistosolmun, MBR voisi olla [1,1,2,6,9,10,45,45,91].

Haku R*-puusta (Range query) Kyselykolmikon ominaisuusvektori: [1,1,2,2,3,3,44,46,90] marginaalit MBR:lle (delta) min ja max pituuksille 0,2*[2-1,3-1,3-2] = [0.2,0.4,0.2] kulmille 10 astetta algoritmin syötteet; juuri ja kyselykolmikon vektori selataan puuta ehdoin [minqiqj-delta(ij), maxqiqj+delta(ij)] menee osittain päällekkäin hakemiston MBR:n [minpipj, maxpipj] kanssa ja kulmat poikkeavat sallitun 10 asteen verran => tarkista lapsisolmut lehdillä tarkistetaan onko sekundäärirakenteiden pituudet (m) riittävän samat (kaksinkertainen pituusero sallitaan) => proteiini (PDBid) on kandidaatti

Tuloksia MRS-hakemiston ja sen hakualgoritmin MAP-käyttö vs. BLAST-rinnastusalgoritmi 97 kertaa nopeammaksi [10] Tarkkuus lähes sama. PSI-hakumenetelmä (käyttäen R*-puuta 1-askeleessa) vs. VAST-karsinta 3-3.5 kertaa nopeampi karsinta 98%:sti samankaltaisiksi tunnetun proteiinin rakenteiden rinnastukseen käytetyn VAST-algoritmin vastaavien tuloksien kanssa.

Lähteet [1] Faktoja ihmisen genomista, http://www.pbs.org/wgbh/nova/genome/facts.html [2] Faktoja GenBank-tietokannasta: http://www.ncbi.nlm.nih.gov/Genbank/index.html [3] Kurssi 52949 Molekyyligenetiikka, syksy 2005, biotieteiden laitos, luento 1: Tapio Heino. [4] DNA-juoste: http://www.familytreedna.com/images/dna_diagram.gif [5] Çamoglu, O., Kahveci, T. ja Singh, A. K., Towards index-based similarity search for protein structure databases. CSB ’03: Proceedings of the IEEE Computer Society Conference on Bioinformatics, Washington, DC, USA, 2003, IEEE Computer Society, sivut 148–159. [6] Beckmann, N., Kriegel, H.-P., Schneider, R. ja Seeger, B., The r*-tree:an efficient and robust access method for points and rectangles. SIGMOD’90: Proceedings of the 1990 ACM SIGMOD international conferenceon Management of data, New York, NY, USA, 1990, ACM Press, sivut 322–331. [7] Jagadish, H. V. ja Olken, F., Database management for life sciences research. SIGMOD Rec., 33,2(2004), sivut 15–20. [8] Krane, D. E. ja Raymer, M. L., Fundamental concepts of bioinformatics. Pearson Education, 2003. [9] Kahveci, T. ja Singh, A. K., Efficient index structures for string databases. VLDB ’01: Proceedings of the 27th International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc., 2001, sivut 351–360. [10] Kahveci, T. ja Singh, A. K., Map: searching large genome databases. Pacific Symposium on Biocomputing 8, University of California, Santa Barbara, CA 93106, USA., 2003, sivut 303–314. [11] Oakley, A. ja Parker, M., Human glutathione s-transferase p1-1, complex with ter117, PDB-tietokanta, 9 1998. URL http://pdbbeta.rcsb.org/pdb/explore.do?structureId=10GS. Kuva haettu PDBtietokannasta 28.10.2005. [12] Singh, A. K., Scalable index structures for biological data. Teoksessa Data Mining in Bioinformatics, Wang, J., T.-L., Zaki, M. J., Toivonen, H. ja Shasha, D., toimittajat, Springer, 2005, sivut 275–296.