Ristiinvalidointi ja bootstrap-menetelmä

Slides:



Advertisements
Samankaltaiset esitykset
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.
Advertisements

Estimointi Laajennettu Kalman-suodin
Osaamisen ja sivistyksen parhaaksi Oppijan verkkopalveluiden hyväksymistestauksen raportointiohje Testitapauksen raportointi Havainnon raportointi.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 3 - Riikka-Leena Leskelä Optimointiopin seminaari - Syksy 2005 / 1 2. Mallien rakentaminen.
Mat Optimointiopin seminaari, Syksy 2010
T Personal SE assignment Project progress tracking and control.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 20 – Karin Ahlbäck Optimointiopin seminaari - Syksy Esitelmä.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 15 – Mikko Harju Optimointiopin seminaari - Kevät 2010 Kotitehtävä 15.
13. Hyvä ohjelmointitapa (osa 1)
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 16 - Jarto Niemi Optimointiopin seminaari - Kevät 2007 Kaaos differentiaaliyhtälöissä,
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Kaisa Parkkila Systeemitieteiden kandidaattiseminaari – Kevät ”Rakenneyhtälömallinnus sekä.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 3 - Outi Somervuori Optimointiopin seminaari - Kevät 2010 The trouble with choice: Studing.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi Optimointiopin seminaari - Syksy 2005 / 1 Ratkaisu kotitehtävään 28 Tuukka.
Tommi Kauppinen ja Tuukka Sarvi
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmöijän nimi Systeemitieteiden kandidaattiseminaari – Syksy/Kevät 200X Dynaamiset kausaaliset.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 27 – Tommi Kauppinen Optimointiopin seminaari - Syksy 2005 / 1 Oppiminen Bayes-verkoissa.
Tilastollisia menetelmiä
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Kotitehtävä 14 – Tom Lindström Optimointiopin seminaari - Syksy 2005 Kotitehtävän 14 ratkaisu Tom.
Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 11 - Teemu Mutanen Optimointiopin seminaari - Syksy 2005 / 1 Lisätiedon arvo.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 11 - Teemu Mutanen Optimointiopin seminaari - Syksy 2005 / 1 Kotitehtävä 11 - ratkaisu.
Todennäköisyyslaskenta
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Mark Mehtonen Optimointiopin seminaari - Kevät 2005 / 1 Tarjontaketjun hallinta ja sähköinen kaupankäynti.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 18 – Otto Sormunen Optimointiopin seminaari - Syksy 2010 Tukivektorikoneet.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 9 – Henri Hytönen Optimointiopin seminaari - Kevät 2007 Kaoottiset attraktorit
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 15 – Mikko Harju Optimointiopin seminaari - Kevät 2010 Korreloitu tasapaino ja sosiaaliset.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2009 Projektien suunnittelu ja skedulointi.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 19 - Heikki Henttu Optimointiopin seminaari - Syksy 2005 / 1 Ratkaisu kotitehtävään 19.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 9 - Jaakko Niemi Optimointiopin seminaari - Syksy 2005 / 1 Virittäminen (Tuning) s
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Riina Vesanen Systeemitieteiden kandidaattiseminaari – Syksy 2009 Palveluiden myyntikäyrien analysointi.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 4 – Jussi Kangaspunta Optimointiopin seminaari - Kevät 2007 Kaksiulotteiset kuvaukset 2/2.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Mallinnusmenetelmät 5 – Emilia Partanen Optimointiopin seminaari - Syksy 2005 Mallinnusmenetelmät.
S ysteemianalyysin Laboratorio Aalto-yliopiston Teknillinen korkeakoulu Esitelmä 10 – Epäoikeudenmukaisuuden karttaminen Tuomas Nummelin Optimointiopin.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 18 – Juho Kokkala Optimointiopin seminaari - Kevät 2007 Stabiilit monistot ja kriisit Mat
Kotitehtävän 21 ratkaisu Ensimmäisen havaintoaineiston luokittelu – Ryhmäkeskiarvot hakeutuvat niin, että ryhmään kuuluvat pisteet ovat mahdollisimman.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 17 – Tuomas Nummelin Optimointiopin seminaari - Syksy 2010 Tukivektorikoneet.
Menetelmä Markowitzin mallin parametrien estimointiin (aihe-esittely)
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 2 - Jirka Poropudas Optimointiopin seminaari - Kevät 2005 / 1 Bayes-verkoista s
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 15 – Anna Matala Optimointiopin seminaari - Syksy 2008 Kotitehtävän ratkaisu Anna Matala.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmöijän nimi Systeemitieteiden kandidaattiseminaari – Syksy/Kevät 200X Informaation leviäminen.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Esitelmä 2.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 11 – Tuomas Nummelin Optimointiopin seminaari - Syksy 2010 Lokaalit uskottavuusmenetelmät.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Kotitehtävä – Jouni Pousi Optimointiopin seminaari - Syksy 2008 Kotitehtävän ratkaisu Jouni Pousi.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 5 - Henri Tokola Optimointiopin seminaari - Syksy 2009 Työpajan skedulointi rajoiteohjelmoinnilla.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Kotitehtävä 19 – Ville Koponen Optimointiopin seminaari - Syksy 2009 Kotitehtävä 19 (Kirja12.7)
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 25 - Mark Mehtonen Optimointiopin seminaari - Syksy 2005 / 1 The Chain Rule for Influence.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Ohjaamaton oppiminen– Heikki Vesterinen Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 1 - Jirka Poropudas Optimointiopin seminaari - Syksy 2000 / 1 Kotitehtävän 2 ratkaisu Jirka.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmöijän nimi Systeemitieteiden kandidaattiseminaari – Syksy/Kevät 200X Virheraportoijien jakaumat.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 23 – Juho Kokkala Optimointiopin seminaari - Syksy 2005 / 1 IEJ-puut, yhteisjakaumat, A-kyllästetyt.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 9 - Jaakko Niemi Optimointiopin seminaari - Syksy 2005 / 1 Kotitehtävä 9 Ratkaisu.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Kotitehtävä 24 – Teppo Voutilainen Optimointiopin seminaari - Syksy 2005 Kotitehtävän 24 ratkaisu.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 21 – Osmo Salomaa Optimointiopin seminaari - Syksy 2005 / 1 Kotitehtävän 21 ratkaisu Osmo.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Turkka Anttonen Systeemitieteiden kandidaattiseminaari – Syksy 2009 Epälineaariset pienimmän neliösumman.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 13 – Tommi Nykopp Optimointiopin seminaari - Syksy 2005 / 1 Päätösteoreettinen vianhaku.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 8 – Ilmari Kuikka Optimointiopin seminaari - Kevät 2010 Kotitehtävä 8 Ratkaisu.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 8 – Reda Guerfi Optimointiopin seminaari - Syksy 2009 Taloudellisen tuotantoerän skedulointi.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 5 – Matti Sarjala Optimointiopin seminaari - Kevät 2008 Kotitehtävien ratkaisut
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 22 – Jussi Kangaspunta Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2000 / 1 Potentiaalien kertaus ja.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 11 – Tuomas Nummelin Optimointiopin seminaari - Syksy 2010 Tukivektorikoneet.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Pekka Mild Optimointiopin seminaari - Syksy 2005 / 1 Monitavoitteiset vaikutuskaaviot; Ratkaisu.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Fraktaalit – Ville Brummer Optimointiopin seminaari - Kevät 2007 Fraktaalit - Kotitehtävän vastaus.
UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Esitelmä 3.
Kritiikin alkulähteillä
Ristiinvalidointi ja bootstrap-menetelmä kotitehtävän 14 ratkaisu
Simulointimenetelmät
Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Esityksen transkriptio:

Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010

Ristiinvalidointi Estimoi suoraan odotusarvoista ennustevirhettä Valitaan mallirakenne jolle estimoitu ennustevirhe pienin Ristiinvalidointi yksinkertaista, laajasti käytössä Ei estimoi hyvin yleistysvirhettä Lisää tästä kappaleessa 7.12, ei kuulu esitykseen

K-kertainen ristiinvalidointi 1 2 3 4 K . . . opetus opetus opetus validointi opetus opetusainesto Jaetaan N havainnon opetusaineisto K yhtä suureen osaan Sovitetaan malli käyttäen osia 1, ..., k-1, k+1, ..., K Estimoidaan odotusarvoinen ennustevirhe käyttäen osaa k Toistetaan kaikilla

Odotusarvoisen ennustevirheen estimoiminen ristiinvalidoinnilla Indeksointifunktio Kertoo mihin osaan havainto i kuuluu malli joka sovitettu opetusaineistolla, josta osa k poistettu mallin parametrivektori Odotusarvoisen ennustevirheen ristiinvalidointiestimaatti

Ristiinvalidoinnin kertaluvun valitseminen ”Leave One Out” (LOO) – ristiinvalidointi: K=N Estimoi harhattomasti odotusarvoista ennustevirhettä Opetusjoukot samankaltaisia ð varianssi korkea Tyypillisesti K=5 tai K=10 Odotusarvoisen ennustevirheen estimaatti voi olla harhainen Opetusjoukot erilaisia ð varianssi pienempi Mitä korkeampi K, sitä enemmän aikaa käytetään laskentaan

Ristiinvalidointi ja mallin oppiminen 1/2 Kuvassa opetetun mallin odotusarvoinen ennustevirhe Opetusaineiston koko N = 200 Jos ristiinvalidoinnissa K=5, opetukseen käytetään 160 havaintoa Lähes yhtä hyvä estimaatti kuin käytettäessä N kpl havaintoja

Ristiinvalidointi ja mallin oppiminen 2/2 Nyt koko opetusaineiston koko N = 50 Jos ristiinvalidoinnissa K=5, opetukseen käytetään 40 havaintoa Odotusarvoisen ennustevirheen estimaatti ylöspäin harhainen

Ristiinvalidointivirhe lineaarisessa regressiossa Kirjan kappaleen 7.3.1 esimerkki Luokittelu tehty lineaarisella regressiolla jossa p parasta selittäjää Ristiinvalidoinnissa K= 10 Valitaan p = 9 , koska p = 10 ei eroa tilastollisesti merkitsevästi ristiinvalidointivirhe ja sen luottamusväli ennustevirhe

LOO-ristiinvalidoinnin approksimointi Approksimoidaan LOO-ristiinvalidointia, kun Lineaarinen malli: Neliöllinen virhefunktio: Monille lineaarisille sovitusmenetelmille on :n i:s diagonaalielementti

Yleistetyn ristiinvalidointi Yleistetty ristiinvalidointiestimaatti on trace(S) on efektiivinen parametrien lukumäär Etuna laskennallinen helppous trace(S) on joskus helpompi laskea kuin alkiot Ristiinvalidointi ei aina anna riittävän sileitä malleja Yleistetty ristiinvalidointi auttaa Yhtymäkohtia Akaiken informaatiokriteerin kanssa

Ristiinvalidoinnin soveltaminen Ristiinvalidointia helppo soveltaa väärin Tarkastellaan luokittelutilannetta, jossa Kaksi luokkaa, p selittäjää, N havaintoa luokista Mahdollinen lähestymistapa: Valitaan selittäjät, jotka korreloivat eniten selitettävien luokkamuuttujien kanssa Muodostetaan luokittelija 1. vaiheessa valittujien muuttujien perusteella Käytetään ristiinvalidointia luokittelijan parametrien valitsemiseen ja odotusarvoisen ennustevirheen estimoimiseen VÄÄRIN VÄÄRIN

Ristiinvalidoinnin väärinkäyttö Nyt luokittelussa kaksi luokkaa, N = 50, p=5000 normaalijakautunutta selittäjää Selittäjät riippumattomia luokkamuuttujista ð Valitaan 1. vaiheessa 100 eniten luokkamuuttujien kanssa korreloitunutta selittäjää Muodostetaan lähimmän naapurin luokittelija Estimoidaan odotusarvoinen ennustevirhe ristiinvalidoinnilla, K=5 Toistettiin 50 kertaa, keskimäärin CV = 0.03 ?

Ristiinvalidoinnissa tehty virhe Vaiheessa 1 valittu 100 luokkamuuttujien kanssa eniten korreloivaa selittäjää Havaintojen jättäminen pois selittäjien valinnan jälkeen ei vastaa riippumattoman validointiaineiston käyttämistä!

Ristiinvalidoinnin oikea käyttö Jaetaan aineisto K yhtä suureen osaan sattumanvaraisesti Jokaiselle osalle k = 1, 2, ... , K Valitaan selittäjät, jotka korreloivat eniten luokkamuuttujien kanssa käyttäen aineistoa josta poistettu osa k Käyttäen näitä selittäjiä, muodosta luokittelija käyttäen opetusaineistoa josta poistettu osa k Käytä luokittelijaa ennustamaan opetusaineiston osan k luokkamuuttujien arvot Odotusarvoisen ennustevirheen estimaatti vaiheen 2 c) tulosten perusteella

Ristiinvalidoinnin soveltaminen päätöspuuhun N = 20 havaintoa 2 luokasta, p = 500 selittäjää Luokkamuuttujat riippumattomia selittäjistä ð Luokitellaan yhden selittäjän päätöspuulla Jaetaan aineisto kahteen luokkaan yhden selittäjän arvon perusteella Parametrina haaran sijainti luokka A luokka B selittäjän arvo haara havainto luokasta A

Tutkittava väite ristiinvalidoinnista ”Koko aineistoon sovitettaessa löydetään varmasti hyvin toimiva luokittelija. Jos käytetään 5-kertaista ristiinvalidointia, tämä sama luokittelija toimii hyvin myös mille tahansa 4/5 ja 1/5 aineistosta. Tämän takia ristiinvalidoinnin avulla estimoitu odotusarvoinen ennustevirhe on liian pieni.” VÄÄRIN VÄÄRIN

Väitteen tutkiminen simulaatiolla Err = 0.5 ! Käytetty 5-kertaista ristiinvalidointia, N = 20 Vasemmalla opetusvirhe eri selittäjille, opetusaineistona 16 havaintoa Oikealla y-akselilla luokitteluvirhe, validointiaineistona 4 havaintoa

Väitteessä tehty päättelyvirhe Malli muodostettava kokonaan uudelleen jokaiselle ositukselle Vasen kuva: 20 havainnolla luokittelija olisi täydellinen, 16 havainnolla tehdään kaksi virhettä Oikea kuva: Väärin luokiteltujen pisteiden osuus, luokittelija muodostettu 50 kertaa

Bootstrap-menetelmät Tavoitteena estimoida yleistysvirhe Käytännössä estimoi hyvin vain odotusarvoisen ennustevirheen Opetusjoukko jossa Poimitaan takaisinpanolla N näytteen opetusjoukkoja alkuperäisestä datasta B kertaa: Sovitetaan malli jokaiseen bootstrap-opetusjoukkoon Lasketaan jokaisen mallin avulla estimaatti

Bootstrap: periaatepiirros Bootstrap – replikaatiot Bootstrap – opetusjoukot Alkuperäinen opetusjoukko

Bootsrap: toinen periaatepiirros Useimmissa versioissa Paroni von Münchausen vetää itsensä suosta palmikostaan, ei saappaannyöreistään

Bootstrap-estimaatti Sovitettujen mallien perusteella voidaan laskea esim. bootsrap-estimaatin varianssi Voidaan pitää varianssin Monte-Carlo estimaattina kun näytteistetään opetusaineiston empiirisestä jakaumasta

Bootstrap-estimaatti odotusarvoiselle ennustevirheelle Sovitetaan bootsrap-aineistoon, validoidaan alkuperäisellä Huono estimaatti: bootstrap-aineistossa ja validointiaineistossa paljon samoja havaintoja Tuloksena saatu estimaatti liian pieni

Bootstrap & lähimmän naapurin luokittelija Kaksi luokkaa, molemmissa luokissa yhtä monta havaintoa Selittäjät ja luokkamuuttujat riippumattomia ð Err = 0.5 Havainto i ei vaikuta ellei mukana bootstrap-aineistossa b Saadaan Liian pieni estimaatti odotusarvoiselle ennustevirheelle!

LOO Bootstrap-estimaattoria Estimaattia voidaan parantaa matkimalla LOO-ristiinvalidointia Merkitään niiden bootstrap-aineistojen indeksien joukkoa jossa havainto i ei mukana Bootstrap-näytteessä keskimäärin havaintoa Käyttäytyy kuten ristiinvalidointi jossa K=2 Samat ongelmat liittyen opetusjoukon kokoon (kalvot 6 ja 7)

”.632”-estimaattori ”.632”-estimaattori korjaa odotusarvoisen ennustevirheen - estimaattoria kohti opetusvirhettä Johtaminen monimutkaista Toimii huonosti jos luokittelija ylisovittuu opetusaineistoon eli

”.632+” – estimaattorin johtaminen Halutaan korjata ylisovittumisesta aiheutuvia ongelmia Määritellään informaatioton virhesuure Virheiden osuus jos selittävät muuttujat ja selitettävät luokkamuuttujat riippumattomia Estimaattori

”.632+”-estimaattori Määritellään suhteellinen ylisovittuminen 0 jos ei lainkaan ylisovittumista ( ) 1 jos Määritellään .632+ - estimaattori Kompromissi: lopputulos jotain opetusvirheen ja LOO bootstrap-estimaatin väliltä Johto monimutkainen, ei käsitelty kirjassa

Bootsrap- ja ristiinvalidointi- estimaattoreiden vertailu Kirjan esimerkeissä ristiinvalidoinnin ja bootstrap-menetelmien käyttö johti samankaltaisiin tuloksiin Etuna helppo toteutus Haittana laskennallinen vaativuus Akaiken informaatiokriteerillä samankaltaisia tuloksia Parempi arvio yleistysvirheestä kuin Akaiken informaatiokriteerillä tai Bayesiläisellä informaatiokriteerillä

Kiitos! Kysymyksiä?

Kotitehtävä: Kirjan tehtävä 7.10 Kaksi luokkaa, N havaintoa, p bin. selittäjää jotka riippumattomia luokkamuuttujista Luokittelijana jokin p selittäjästä Jos p riittävän suuri, löydetään selittäjä joka luokittelee koko aineiston täydellisesti Tällöin myös ristiinvalidoinnin validointiaineisto luokitellaan täydellisesti Seuraako tästä, että ristiinvalidoinnilla laskettu ennustevirhe on 0, eikä ristiinvalidointia voida käyttää? Saa simuloida jos haluaa, voi myös päätellä ja perustella Osittain valmis MATLAB-koodi es14.m