S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Dynaamiset Bayesverkot Osa 1 – Johdanto ja rakenne Janne Ojanen Aatu Kaapro K.P. Murphy (2002) Dynamic Bayesian Networks: Representation, Inference and Learning
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Sisältö Johdanto Tila-avaruusmallinnus Dynaamisen Bayesverkon määrittely Esimerkki 1: hidden Markov model Esimerkki 2: Kalman-suodinmalli Yhteenveto
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Johdanto Sekventiaalinen data (aikasarjat, sekvenssit) on yleinen ilmiö useissa tutkimuskohteissa. Saadaan havaintoja y 1:t = (y 1,…,y t ). Halutaan esim. ennustus tulevasta havainnosta y t+1. Erilaisia ”perinteisiä” lähestymistapoja aikasarjamallinnukseen: –Lineaarimallit (ARIMA, ARMAX, yms.) –Epälineaariset mallit (neuroverkot, päätöspuut) Tila-avaruusmallinnus: –Oletetaan kätketty todellinen tila, joka tuottaa havainnot. –Systeemin tila muuttuu ajan mukana
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Tila-avaruusmallit Tila-avaruusmallin (state-space model) osat: –Lähtötila P(X 1 ) –Tilasiirtymämalli P(X t | X t-1 ) –Havaintomalli P(Y t | X t ) Tila-avaruusmalli kuvaa miten systeemin tila X t generoi havainnon Y t ja systeemin seuraavan tilan X t+1. Päättelyn tavoitteena on kääntää tämä kuvaus, eli päätellä jotakin tiloista (X 1,…,X t ) havaintojen (Y 1,…,Y t ) perusteella.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Tila-avaruusmallinnuksesta Vaikka mallissa on oletettu 1. asteen Markov- riippuvuus, eli P(X t | X 1:t ) = P(X t | X t-1 ), voidaan korkeampiakin riippuvuuksia sisällyttää malliin. Malliin sisällytetään usein myös säätömuuttuja U t. Tunnetuimmat esimerkit tila-avaruusmalleista ovat hidden Markov model (HMM) ja Kalman- suodinmalli (KSM). Dynaaminen Bayesverkko (DBV) on yleisempi tila- avaruusmalli, jonka erikoistapauksia HMM ja KSM ovat.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Dynaaminen Bayesverkko – johdanto Dynaaminen Bayesverkko on tavallisen Bayesverkon yleistys, joka kykenee kuvaamaan dynaamista systeemiä. Asiaa käsitelty aiemmin kurssilla esitelmässä 6 aikaleimattujen mallien yhteydessä. Huom! ”Dynaaminen” = ”Systeemin tila muuttuu ajan kuluessa”. DBV oletetaan käytännössä aika-invariantiksi, eli mallin rakenne ja siihen liittyvät jakaumat EIVÄT muutu ajan kuluessa. Aika-invarianttius ei ole välttämätön oletus, vaan se tehdään päättelyn ja oppimisen yksinkertaistamiseksi.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Dynaaminen Bayesverkko - muuttujat Kätketty tila koostuu satunnaismuuttujista X t i, i {1,…,N h } Vastaavasti havainnoille: Y t j, j {1,…,N o } Diskreettiaikainen systeemi, t on siis kokonaisluku Ryhmitellään muuttujat Z t = (X t, Y t ), yhteensä N = N h + N o kpl kussakin ajanhetkessä t. Satunnaismuuttujat voivat olla diskreettejä tai jatkuvia. Verkon ominaisuudet määräytyvät satunnaismuuttujien määrän, ulottuvuuden ja niihin liittyvien jakaumien perusteella.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Dynaaminen Bayesverkko – määritelmä Dynaaminen Bayesverkko on pari (B 1, B → ), jossa –B 1 on Bayesverkko, joka määrittää priorin P(Z 1 ) –B → on kaksisiivuinen aikaleimattu Bayesverkko, joka määrittää todennäköisyyden P(Z t | Z t-1 ) suunnattuna syklittömänä graafina Malliin saadaan T aikasiivua toistamalla B → :ta Yksinkertainen esimerkki: X t-1 Y t-1 YtYt XtXt (b) B → X1X1 Y1Y1 (a) B 1
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Dynaaminen Bayesverkko – rakenne Kuten tavallisissa Bayesverkoissa, siirtymä- ja havaintotodennäköisyydet saadaan kaavalla P(Z t | Z t-1 ) = ∏ N i=1 P(Z t i |Pa(Z t i )) –Z t i on i:s solmu (joko tila- tai havaintomuuttuja) ajanhetkellä t –Pa(Z t i ) ovat Z t i :n vanhemmat graafissa T-siivuisen N-muuttujaisen verkon yhteisjakauma saadaan kertomalla malliin liittyvät ehdolliset todennäköisyydet: P(Z 1:T ) = ∏ N i=1 P B1 (Z 1 i |Pa(Z 1 i )) ∏ T t=2 ∏ N i=1 P B→ (Z t i |Pa(Z t i )) Rakenteellisesti tässä ei ole mitään eroa tavallisiin Bayesverkkoihin! LähtötilaAikakehitys
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Dynaaminen Bayesverkko – tuttu esimerkki Edellisen kalvon dynaaminen verkko avattuna T=4 aikasiivuun. Tässä tapauksessa Z t 1 = X t, Z t 2 = Y t, Pa(X t ) = X t-1 ja Pa(Y t ) = X t Yhteisjakauma P(X 1:T, Y 1:T ) = P(X 1 )P(Y 1 |X 1 ) ∏ T t=2 P(X t |X t-1 )P(Y t |X t ) X2X2 Y2Y2 Y3Y3 X3X3 X1X1 Y1Y1 X4X4 Y4Y4
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Esimerkki 1 DBV, jossa –Yksi diskreetti tilamuuttuja X t {1,…,M} –Yksi diskreetti havaintomuuttuja Y t {1,…,K} Priori on multinomijakauma: P(X 1 = i) = i ( i =1) Tilasiirtymät stokastisen matriisin avulla: P(X t = j | X t-1 = i) = A(i,j) –Jokainen A:n rivi on ehdollinen multinomijakauma. Diskreetit havainnot myös ehdollisina multinomijakaumina: P(Y t = j | X t = i) = B(i,j)
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Esimerkki 1: HMM Kyseessä on hidden Markov model. Esim. 4 tilaa: matriisin A määräämät tilasiirtymät esitetään usein graafisesti kuten oikealla. Älä sotke graafisen mallin esitysasuun! Kussakin ajanhetkessä ”emittoidaan” havainto matriisin B mukaisesti A =
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Esimerkki 1 esitettynä dynaamisena Bayesverkkona Edellisen kalvon HMM dynaamisena Bayesverkkona, kun T=3. Katkoviivat kertovat eksplisiittisesti eri muuttujiin liittyvistä jakaumista X1X1 Y1Y1 Y2Y2 X2X2 X3X3 Y3Y3 B A
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Esimerkki 2 DBV, jossa –Yksi vektoriarvoinen jatkuva tilamuuttuja, X t R N –Yksi vektoriarvoinen jatkuva havaintomuuttuja, Y t R M Ehdolliset jakaumat ovat nyt normaalijakaumia: –P(X t =x t |X t-1 =x t-1 ) = N(x t ; Ax t-1, Q) –P(Y t =y|X t =x) = N(y t ; Bx, R) –A ja Q N N-matriiseja, B M N-matriisi ja R M N- matriisi.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Esimerkki 2: Kalman-suodinmalli Kyseessä on Kalman-suodinmalli (a.k.a. tila- avaruusmalli, lineaarinen dynaaminen systeemi, jne.) Toisin sanoen: –X t = AX t-1 + V t, jossa V t ~ N(0,Q) normaalijakautunut kohinatermi. Kovarianssimatriisi Q on prosessikohina. –Y t = BX t + W t, jossa W t ~ N(0,R) normaalijakautunut kohinatermi. Kovarianssimatriisi R on mittauskohina. Tämän mallin graafirakenne on täysin sama kuin HMM-esimerkissä; ainoastaan jakaumat ovat vaihtuneet.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Miksi dynaamiset Bayesverkot? Vaikka rakenne onkin samanlainen kuin tavallisessa Bayesverkossa, mahdollistavat dynaamisille Bayesverkoille kehitetyt laskennalliset menetelmät pitkienkin toistomallien järkevän käsittelyn. Dynaaminen Bayesverkko ei sisällä lähtökohtaisesti samoja rajoitteita kuin KSM tai HMM. Yleisluontoinen esitys mahdollistaa erilaisten mallirakenteiden käsittelyn samalla kielellä ja samoin menetelmin. –Esim. eri tilanteisiin soveltuvia HMM-rakenteita on kymmeniä. DBV-kuvauksen kautta kaikki voidaan ratkaista samoin periaattein.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Yhteenveto Tila-avaruusmallit soveltuvat dynaamisten systeemien kuvaukseen. Dynaaminen Bayesverkko on tavallisen Bayesverkon yleistys, joka kykenee mallintamaan dynaamista systeemiä. Dynaaminen Bayesverkko voidaan ajatella myös melko yleisenä tila-avaruusmallin kuvauskielenä, joka mahdollistaa useiden mallivariaatioiden käsittelyn samoin menetelmin ja algoritmein.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 29 – Janne Ojanen Optimointiopin seminaari - Syksy Kotitehtävä a) Miten kalvojen HMM-mallia pitää muuttaa, jos halutaan havainnot Y t normaalijakautuneiksi? b) Entä miten mallin rakennetta pitää muokata, jos havaintojen jakaumaksi halutaan useamman normaalijakauman painotettu sekamalli (mixture of Gaussians): P(Y t |X t = i) = m P(M t =m|X t = i) N(y t ; m,C m )