Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 1 Etäisyysmitat ja Batch learning.

Samankaltaiset esitykset


Esitys aiheesta: "S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 1 Etäisyysmitat ja Batch learning."— Esityksen transkriptio:

1 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 1 Etäisyysmitat ja Batch learning

2 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 2 Sisältö Jakaumien etäisyyksien mittaaminen –Euklidinen ja Kullback-Leibler mitat Batch learning –mallien yksinkertaistaminen –mallin koko ja sen optimointi –käytännön huomioita

3 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 3 Etäisyysmitat (1/5) Todellinen tai kohde jakauma x – esim. virheetön arpa x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) Likimääräiset tai arvio jakaumat y ja z –esim. kokeista:y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) Kumpi jakaumista y, z lähempänä jakaumaa x ?

4 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 4 Etäisyysmitat (2/5) Merkitään a i :llä i:ttä ulostuloa Neliöllinen sakko määritellään tällöin y:lle Keskimääräinen sakko on tällöin

5 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 5 Etäisyysmitat (3/5) Määritellään jakaumien x ja y neliöllinen etäisyys (Euklidinen etäisyys) seuraavasti x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) dist Q (x,y) = 0.0133 dist Q (x,y) = 0.0167

6 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 6 Etäisyysmitat (4/5) Vastaavasti määritellään logaritminen pisteytyssääntö Mistä etäisyydeksi (Kullback-Leibler divergenssi) vastaavasti

7 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 7 Etäisyysmitat (5/5) Euklidinen etäisyys Symmetrinen x,y Kullback-Leibler divergenssi Epäsymmetrinen x,y Molemmat aitoja mittoja:

8 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 8 Batch learning - intro (1/3) Esimerkki: viisikirjaimiset sanat kirjaimista ’a’ ja ’b’ aabaa, abbaa, bbbaa… -frekvenssi analyysi aaaaababaabbbaababbbabbb aa0,0170,0210,019 0,0450,0680,0450,068 ab0,0330,040,0370,0380,0110,0160,010,015 ba0,0110,0140,01 0,0310,0460,0310,045 bb0,050,060,0560,0570,0160,0230,0150,023 T5T5 T3T3 T1T1 T2T2 T4T4

9 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 9 Batch learning – intro (2/3) aaaaababaabbbaababbbabbb aa0,0170,0210,019 0,0450,0680,0450,0680,302 ab0,0330,040,0370,0380,0110,0160,010,0150,2 ba0,0110,0140,01 0,0310,0460,0310,0450,198 bb0,050,060,0560,0570,0160,0230,0150,0230,3 0,1110,1350,1220,1240,1030,1530,1010,1511 aaaaababaabbbaababbbabbb aa0,0160,0230,0180,0210,0440,0670,050,061 ab0,030,0440,0330,0410,0110,0150,0120,014 ba0,010,0160,0120,0140,0290,0450,0330,041 bb0,0440,0670,0590,0610,0160,0230,0170,021 = P = P* dist Q (P,P*)=0,000337 T1T1 T2T2 T3T3 T4T4 T5T5 T5T5 T3T3 T1T1 T2T2 T4T4

10 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 10 Batch learning – intro (3/3) Kumpi parempi? Yksinkertaisuus vs. Tarkkuus Miten verrataan? T5T5 T3T3 T1T1 T2T2 T4T4 T1T1 T2T2 T3T3 T4T4 T5T5 vs. M max M simp

11 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 11 Mallin koko Määritellään jokaiselle muuttujalle A, jonka vanhemmat ovat pa(A), taulukon P(A|pa(A)) koko Sp(A):na. Tällöin mallin M koko määritellään T1T1 T2T2 T3T3 T4T4 T5T5 T5T5 T3T3 T1T1 T2T2 T4T4 M simp M max Size(M simp )=2+4+4+4+4=18 Size(M max )=2+4+8+16+32=62

12 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 12 Mallin optimointi (1/2) Määritetään hyväksymismitta (acceptance measure) 1.Valitaan käytettävä etäisyysmitta, hyväksyttävän etäisyyden yläraja ja vakio k. 2.Minimoidaan Acc

13 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 13 Mallin optimointi (2/2) M max P(Word|M max )=P(Word) dist Q = 0 Acc = Size(M max )=62 k = 10 000 ja max(dist)=0,0005 M min T1T1 T2T2 T3T3 T4T4 T5T5 Size(M min )=2+4+4+2+8=20 Acc(P,M min )=20,14 Size(M simp )= 18 Acc(P,M simp )=21,37 Optimi malli: T5T5 T3T3 T1T1 T2T2 T4T4 T1T1 T2T2 T3T3 T4T4 T5T5

14 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 14 Batch learning käytännössä (1/4) Jos muutujia paljon, ei ole mahdollista aloittaa M max :sta Aloitetaan hallittavasta mallista ja muutetaan vaiheittain lisämäällä, poistamalla ja uudelleen suuntaamalla linkkejä –huomioidaan kausaalisuus –asiantuntijalausunnot Riski- tekijä Hoito Tauti Oire

15 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 15 Batch learning käytännössä (2/4) Suuri datavarasto vaikea laskea Eukliidinen etäisyys käytetään logaritmista pisteytystä S M (c)=-log 2 P M (c) S M (C) - S C (C) = n dist K (P M,P C ) jos tapaukset riippumattomia  S M (C)=-log 2 P M (C),P M (C)=P(C|M)

16 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 16 Batch learning käytännössä (3/4) tietokannan jakauma ei välttämättä ole ’todellinen’ jakauma, vaan useinmiten otos siitä Merkitän tätä tietokantaa C:llä –maksimoidaan

17 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 17 Batch learning käytännössä (4/4) Muita yleisiä ongelmia –Arvoja puuttuu –Useita tietokantoja lomittaisista sarjoista muuttujia, joilla eri määrät tapauksia –C voi olla erittäin suuri

18 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 18 Yhteenveto Jakaumien vertailu etäisyysmitoilla Batch learning –Muodostetaan yksinkertaisempi malli (Bayesverkko) tutkittavasta systeemistä, siten että informaatiota menetetään mahdollisimman vähän

19 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 19 Kotitehtävä a)Määritä seuraavien mallien (Bayesverkkojen) koot, kun B i :t ovat kaksi tilaisia ja T i :t kolmi tilaisia muuttujia b)Heitettäessä noppaa 100 kertaa saatiin seuraavat frekvenssit (15, 16, 22, 14, 21, 14). Laske saadun jakauman Eukliidinen etäisyys virheettömän nopan todellisesta jakaumasta. Vertaa saamaasi arvoa BL osiossa esitetyn yksinkertaisimman mallin (M simp ) etäisyyteen 0,000337. B1B1 B5B5 B4B4 B3B3 B2B2 B1B1 T1T1 T3T3 T2T2 B2B2 M1:M1:M2:M2:


Lataa ppt "S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 1 Etäisyysmitat ja Batch learning."

Samankaltaiset esitykset


Iklan oleh Google