Ristiinvalidointi ja bootstrap-menetelmä kotitehtävän 14 ratkaisu 2.11.2010
Kotitehtävä: Kirjan tehtävä 7.10 Kaksi luokkaa, N havaintoa, p bin. selittäjää jotka riippumattomia luokkamuuttujista Luokittelijana jokin p selittäjästä Jos p riittävän suuri, löydetään selittäjä joka luokittelee koko aineiston täydellisesti Tällöin myös ristiinvalidoinnin validointiaineisto luokitellaan täydellisesti Seuraako tästä, että ristiinvalidoinnilla laskettu ennustevirhe on 0, eikä ristiinvalidointia voida käyttää? Saa simuloida jos haluaa, voi myös päätellä ja perustella Osittain valmis MATLAB-koodi es14.m
Esimerkin kuvaus Aineisto koostuu p selittäjästä Kaksi luokkaa Selittäjät Bernoulli(0.5) - jakautuneita binäärimuuttujia Jokaisesta selittäjästä N havaintoa k-kertainen ristiinvalidointi Validointiin M havaintoa Opetukseen N-M havaintoa
MATLAB-koodin täydennys % valitaan paras selittäjä % **************** idx_min=find(err_p==min(err_p)); idx_x_best=idx_min(randi(length(idx_min))); Paras selittäjä ei ole aina yksikäsitteinen, joten voidaan valita esim. satunnaisesti
Laatikkokuvio ristiinvalidointivirheestä
Selitys paras selittäjä Paras selittäjä valitaan 1 2 ... i p -1 p . Paras selittäjä valitaan opetusaineiston perusteella Opetus, N-M havaintoa Validointiaineisto on kuitenkin täysin riippumaton opetus- aineistosta Joten paras selittäjä ennustaa odotusarvoisesti validointiaineistoa ristiinvalidointi- virheellä 0.5! Validointi, M havaintoa