Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista,

Slides:



Advertisements
Samankaltaiset esitykset
TARJOAMINEN 1CD •1♦ avaus yleensä 4+ korttia •ainoastaan jakaumalla 4432 avataan 3:n kortin ruudulla •pistevoima 12 – 21(22) •kaikilla 13 pisteen käsillä.
Advertisements

Johdatus tutkimusmetodologiaan
Tietoturvallisuuden huonetaulu
Estimointi Laajennettu Kalman-suodin
Ohjelman perusrakenteet
ATTRIBUUTTITARKASTUS
Kappaleiden tilavuus 8m 5m 7cm 5 cm 14cm 6cm 4cm 4cm 3cm 10cm.
Tietokannan suunnittelu
Projektin tulokset Oulussa
2.8.3 Abstraktit tietotyypit
EXtensible Markup Language
2.2. komplementtisääntö ja yhteenlaskusääntö
Elämyshankekyselyn tulokset © Sovita Toteutus: Opiferum1.
Laskuharjoitus 9 AS Automaation signaalinkäsittelymenetelmät Sumea säätö Geneettiset algoritmit.
TAUOLLA TYÖKAVEREIDEN KANSSA
Elinkeinopoliittinen mittaristo 2014 Pelkosenniemi 1.
Elinkeinopoliittinen mittaristo 2014 Kittilä 1. ELINKEINOPOLITIIKAN TILA 2.
Elinkeinopoliittinen mittaristo 2014 Kemi 1. ELINKEINOPOLITIIKAN TILA 2.
*) Työttömät ilman lomautettuja Lähde: Työ- ja elinkeinoministeriön työttömyystilastot Työttömät* työnhakijat 1994–2014, syyskuu Yleisimmät.
KERTAUSTA PERUSASTEEN MATEMATIIKASTA Piia junes
Säännöt 30 kuvaa 45 sekuntia / kuva 10 sekuntia kirjoitusaikaa Vastaus suomeksi, ruotsiksi, englanniksi, tieteellisellä nimellä tai sen 3+3 lyhenteellä.
Säännöt 30 kuvaa 45 sekuntia / kuva 10 sekuntia kirjoitusaikaa Vastaus suomeksi, ruotsiksi, englanniksi, tieteellisellä nimellä tai sen 3+3 lyhenteellä.
TMA.003 / L3 ( )1 3. Funktioista 3.1. Kuvaus ja funktio Olkoon A ja B ei-tyhjiä joukkoja. Tulojoukon A  B = {(x,y) | x  A, y  B} osajoukko on.
Elinkeinopoliittinen mittaristo 2014
© Jukka Harju, Jukka Juslin Java-ohjelmointi Opas ammattimaiseen osaamiseen Luku 9 Poikkeuskäsittely.
S Sosiaalitekniikka 1999 S Sosiaalitekniikka.
Harrastajatutkinto Säännöt Pisteytys 30 kuvaa 45 sekuntia / kuva
Ohjelman perusrakenteet
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 7. Monirinnastus Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia.
Tiedonhakumenetelmät Helena Ahonen-Myka Kevät 2004, osa 9 Merkkijonohahmon etsintä selaamalla.
Näkökulmia tilastojen tulkitsemiseen Käytä oikeita käsitteitä.
UMF I Luento 1. Aika Luennot, Klo 14–16 to 4.9 – ke 10.9 ke 24.9 – ke 1.10 ke – pe Demot, Klo 10–12/12–14/14–16 Pe 12.9, Ti 16.9, Pe 19.9.
Pk-yritysbarometri, syksy 2014 Alueraportti, Lappi 1.
Työttömät* työnhakijat ELY-keskuksittain *) Työttömät ilman lomautettuja Lähde: Työ- ja elinkeinoministeriön työttömyystilastot Työttömät* työnhakijat,
Tietovuokaaviot (ei osa UML-kieltä)
Erilaiset liitokset FROM-osassa voidaan määritellä relaatio myös erilaisia liitosoperaatioita käyttäen Vasen, oikea ja täysi puoliliitos eli ulkoliitos.
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 6. Kahden jonon rinnastus Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia.
Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 Sekvenssointi eli Genomien kokoaminen Kohdejonon pituus tavallisesti Kbp (pituus tiedetään.
Visual Basic -ohjelmointi
TUOTTAVAA YRITYSTEN PALAUTTEENHALLINTAA Suomen Yrittäjät Yrittäjyysalan tutkintotoimikunta Yrittäjäkoulutuksen vaikuttavuus.
Säännöt 30 kuvaa 45 sekuntia / kuva 15 sekuntia kirjoitusaikaa Vastaus suomeksi, ruotsiksi, englanniksi, tieteellisellä nimellä tai sen 3+3 lyhenteellä.
T. Pasanen / Johdatus bioinformatiikkaan
TIETOA JA TAITOJA TIEDONHANKINTAAN: Marttaliitto ry:n ja Uudenmaan Marttojen toimiston henkilökunnalle.
Introduction to bioinformatics T.K. Attwood & D.J. Parry-Smith Addison Wesley Longman Limited 1999.
Miksi tämä on vaikeaa? Ilman minkäänlaisia rajoitteita ongelmat ei ole vaikeita ratkaista. Siihen löytyy jopa valmis ”kaava”. Valitettavasti jokaisessa.
Syntaksin harjoituskurssi CYK140
Analyysi II Katsaus.
Pk-yritysbarometri, syksy 2014 Alueraportti, Pääkaupunkiseutu 1.
Uusien esiintymien etsintä. malliin toinen ohjausmuuttuja z(t): löydetyt resurssit.
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
JIK KY:N TALOUS Tilinpäätökset Talousarvio 2013 Info-tilaisuus Etelä-Pohjanmaan Opisto Talousjohtaja Arto Saarela 1.
Tilinpäätös 2004.
1. Missä vietät joulun useimmiten?. 2. Missä viettäisit joulun mieluiten?
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 9 - Jaakko Niemi Optimointiopin seminaari - Syksy 2005 / 1 Virittäminen (Tuning) s
Visual Basic -ohjelmointi
Karhulan uimahalli Aukioloajat
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 2 - Jirka Poropudas Optimointiopin seminaari - Kevät 2005 / 1 Bayes-verkoista s
Tilastollisesti merkitsevä nousu Tilastollisesti merkitsevä lasku Edelliseen aineistoon KMT 2005 verrattuna* KMT Kevät06 puolivuosiaineisto KMT SYKSY05/KEVÄT06.
Visual Basic -ohjelmointi
Funktio.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 25 - Mark Mehtonen Optimointiopin seminaari - Syksy 2005 / 1 The Chain Rule for Influence.
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
1 Sensor Tasking and Control Jari Hassinen Riikka Asikainen
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Pekka Mild Optimointiopin seminaari - Syksy 2005 / 1 Monitavoitteiset vaikutuskaaviot; Ratkaisu.
T. Pasanen / Johdatus bioinformatiikkaan 1 4. DNA tietokannat.
Juha Knuuttila bioinformatiikka
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
Toistorakenne Toistorakennetta käytetään ohjelmissa sellaisissa tilanteissa, joissa jotain tiettyä ohjelmassa tapahtuvaa toimenpidekokonaisuutta halutaan.
Bayes-päättelyn kertausta
Ohjelman perusrakenteet
Esityksen transkriptio:

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 1 8. Haku sekundääritietokannoista Samankaltaisten jonojen etsintä tehokasta primääritietokannoista, mutta tulkinta on usein vaikeaa: –(1998 GenBank) miljoonia sekvenssejä ja organismia  tulokset monimutkaisia ja redundantteja –modulaariset toistavat jonot, monidomeiniset jonot (koko jono, yksi/usea domeeni)  vääriä täsmäyksiä

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 2 Jatkuu... –tuloksissa lyhennetyt dokumentit  väärä toiminnallisuuden päättely –tietomäärän kasvu  lisääntyvä “kohina”  orthologian havaitseminen vaikeaa Orthologia perustana geenien fylogenetiikassa; tällä hetkellä tutkimus siirtymässä osittain homologian etsinnästä orthologian etsintään

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 3 Monirinnastus Monirinnastuksesta tietoa säilyneistä alueista jotka heijastavat rakenteellisia eli toiminnallisia ominaisuuksia, jotka sisältyvät kaikkiin rinnastuksen jonoihin

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 4 Rinnastuksesta saatavan tiedon esittäminen Erilaisia tietokantoja Erilaisia tapoja etsiä Erilaisten tulostusmuotojen tulkinta Tulosten biologisen tärkeyden arviointi

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 5 Säännölliset ilmaukset –Parhaimmillaan kun proteiiniperhe voidaan kuvata yhdellä hyvin säilyneellä motiivilla (10-20 tähdettä); rakenteelle tärkeä tai kriittinen toiminnallinen rooli –Sekvenssidata hävitetään ja vain kaikkein säilynein eli tärkein tähdetieto säilytetään –Tuloksena vain yksi motiivi, joka tallennetaan säännöllisenä ilmauksena

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 6 Säännölliset ilmaukset... Täsmäyksen täytyy olla identtinen suhteessa ilmaukseen; –vähennetään vääriä täsmäyksiä; biologisesti oikeita täsmäyksiä hukataan Mikä on rinnastuksen tärkein motiivi? –Pitäisi perustua perheen biologisiin seikkoihin, mutta ei aina tiedetä –Perustuu aina vain tämänhetkiseen tietoon; päivityksen tarve

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 7 Sääntö (Rule) (short regular expression) 3-4 tähdettä, kertovat jonkin tietyn osan rakenteen (usein kiinnityspaikka) Eivät ole hyviä ennustamaan, koska todennäköisyys satunnaisen jonon täsmäykselle on suuri

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 8 PROSITE Tietokanta sisältää säännöllisiä ilmauksia ja sääntöjä Diagnosointiongelmien tätä lähestymistapaa on laajennettu profiileiksi (tarkastellaan myöhemmin)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 9 Sumeat säännölliset ilmaukset Tähteiden kesken olemassa sääntöjä joiden mukaan niitä voi vaihdella rakenteessa ilman että rakenne muuttuu oleellisesti

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 10 Sumeat säänn. ilmaukset... eMOTIF systeemi perustuu BLOCKS ja PRINTS kantoihin Tunnistaa kaukaisempia sukulaisia mutta samalla satunnaisten täsmäyksien määrä kasvaa!

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 11 Ilmauksen pituus/sallivuus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 12 Sormenjäljet Kaikkista motiiveista muodostetaan frekvenssimatriiseja Pistesysteemi painoton, koska ei käytetä korvausmatriiseja arvojen laskennassa Ei suosittu perusmuodossa koska sukulaisten löytäminen vaikeaa Perustana PRINTS kannalle

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 13

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 14 Sormenjäljet... Parannus Iteroidaan eli tehdään haku kantaan ja liitetään tarpeeksi läheisistä jonoista saatava tieto matriisiin Sopivalla raja-arvolla matriisi pysyy harvana ja vain tärkeiden alkioiden arvot suurenevat eli sen erottelukyky paranee Tulokset heikonpia käytännössä jos käytetään PAM matriiseja

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 15

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 16

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 17

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 18 Lohkot (BLOCKS) Esitään säilyneiden tähdekolmikkojen avulla motiiveja eli lohkoja ja lasketaan pisteet BLOSUM 62 perusteella (esim Al-x-x-x-Val-x-x-Cys) Toisessa vaiheessa haetaan parhaimmat pisteet saaneista lohkoista oikeassa järjestyksessä olevat lohkot (ei saa olla päälekkäisiä)

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 19 Tulokset ryhmitelty läheisyyden perusteella Ryhmän sisällä alle 80% samanlaiset jonot on eroteltu tyhjällä rivilla Arvon 100 merkitsee erittäin etäistä sukulaista Miten verrata jonoja, joista toinen täsmää vain yhteen motiiviin, mutta saa korkeat pisteet, ja toinen moniin/ kaikkiin motiiveihin, muttei saa yhtä hyviä pisteita?

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 20 Profiilit Tarkastellaan koko rinnastusta ja koodataan seuraavien seikkojen logiikka kustannusmatriiseihin: –Mitkä tähteet ovat sallittuja missäkin positiossa –Mitkä positiot ovat hyvin säilyneitä ja mitkä eivät –Missä positiossa/alueissa voi olla lisäyksiä

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 21 Profiilit... Kustannusmatriisien arvoja määritellää erilaisten tasojen perusteella: –Mutaatiot evoluutiossa –INDEL operaation painotus sekundäärirakenteen perusteella –Rakennetutkimus –Rinnastusjonojen data –jne

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 22 /M: [SY = char2; parameters] Rinnastuksessa kirjain char2 ja parametrilistassa arvot kaikkien aminohappojen täsmäykselle /I: [SY = char1; parameters] Lisäys ja siihen liittyviä arvoja kuten alku ja loppuarvoja, kolon jatkokustannus jne. MI/MD lisäyksen/tuhoamisen alkukustannus I/D lisäyksen/tuhoamisen jatkokustannus

Syksy 2001Johdatus bioinformatiikkaan / T. Pasanen 23 Kätketty Markovin malli Lineaarinen todennäköisyys malli: jokaiselle positiolle määrätään täsmäys-, lisäys- ja tuhoamiskustannus