Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 1 Tiedon louhinta osa II Miten optimoinnin.

Samankaltaiset esitykset


Esitys aiheesta: "S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 1 Tiedon louhinta osa II Miten optimoinnin."— Esityksen transkriptio:

1 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 1 Tiedon louhinta osa II Miten optimoinnin ja tiedon louhinnan perinteiset työkalut yhdessä voivat parantaa tiedon louhinnan tuloksia?

2 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 2 Tiedon louhintamallien optimointi Monet tiedon louhinnan menetelmät voidaan muotoilla optimointiongelmana tai voivat sisältää sellaisen. Sovitetaan malli M dataan D. Tarkoituksena on löytää malli M ja parametrit Θ=(θ 1,…,θ d ) siten, että mallin sopivuutta dataan kuvaava funktio S: S = (θ 1,…,θ d |D,M) optimoituu. Ratkaisu suljetussa muodossa tai iteratiivisesti. - Iteratiivinen menetelmä: alkuarvaus, iterointi ja eri alkuarvauksilla toistaminen. - Iteraatioaskeleella muuttujan seuraava arvo saadaan joko yhtälöstä nykyisen arvon perusteella tai kombinatoorisilla menetelmillä.

3 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 3 Parhaan mallin tai rakenteen (pattern) valinta Optimoinnin avulla valitaan paras vaihtoehto perinteisillä tiedon louhintamenetelmillä saadusta ratkaisujoukosta. Parhaan päätöspuun valinta Asiakasprofiilien luominen - Muotoillaan optimointiongelmana, tavoitteena löytää havaitusta joukosta tietty määrä sääntöjä niin, että haluttu ominaisuus, esim. tuotto, maksimoituu. Tätä aluetta tutkittu vähän

4 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 4 Luokittelu (Classification) Luokittelukriteerien rakentaminen optimoinnin keinoin. eCRM:ssä luonnollisia luokitteluongelmia: - Onko web-sivulla vieraileva ostaja vai ei-ostaja - Vieraileeko kerran vai useammin jne. Lineaarinen-, epälineaarinen ja kokonaislukuoptimointi - Perustuu pistejoukkojen separointiin

5 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 5 Luokittelu – lineaarinen optimointi 1/2 Kaksi pistejoukkoa A ja B vektoriavaruudessa R n, etsitään separoiva hypertaso wx+γ=0. - Hypertaso separoi joukot, jos Aw>eγ ja Bw<eγ, e yksikkövektori Joukot separoituvat tai ei-separoituvat Ei-separoituvat joukot - Separoidaan joukot paloittain lineaarisella funktiolla (discriminant function): generoidaan kaksi samansuuntaista hypertasoa ratkaisemalla epälineaarinen optimointitehtävä (1). Toistetaan (1) niille A:n ja B:n osajoukoille, jotka ovat generoiduilla hypertasoilla tai niiden välissä.

6 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 6 Luokittelu – lineaarinen optimointi 2/2 - Etsitään hypertaso, joka minimoi niiden pisteiden summan, jotka eivät ole luokiteltuja (non-classified points) eli eivät toteuta separoituvuusehtoa. · Esim. ominaisuuksien valintaongelma: Ideana pienentää ominaisuuksia kuvaavaa vektoriavaruutta R n ja ominaisuudet separoivaa hypertasoa niin pienidimensioiseksi kuin mahdollista säilyttäen separoinnin mielekkyys.

7 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 7 Luokittelu – epälineaarinen optimointi 1/2 Ratkaisu perustuu kannatinvektoreihin (support vector), algoritmina SVM (Support Vector Machine) Näytekannan datapisteet kaksiarvoisia (tosi/epätosi,- 1/+1) (labeled training set), luokittelukriteeri {x i,y i }, i=1,…,M y i є{-1,1} Separoituvat joukot - Hypertaso, joka separoi positiiviset ja negatiiviset pisteet (-1/+1), d + ja d - lyhimmät etäisyydet positiivisista ja negatiivisista pisteistä separoivalle hypertasolle. Ideana löytää hypertaso, joka maksimoi kokonaisetäisyyden d + + d -, jota kutsutaan marginaaliksi.

8 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 8 Luokittelu – epälineaarinen optimointi 2/2 - Separoivan hypertason kanssa samansuuntaiset tasot H 1 ja H 2. Kun x i kuuluu tasolle H 1 tai H 2 sitä kutsutaan kannatinvektoriksi. - Tehtävä ratkeaa Lagrangen funktion, duaalisuuden ja KKT- ehtojen avulla. Päivitetään x. Ei-separoituvat joukot - Ratkeaa kuten separoituva, luokit- telemattomille pisteille sakkotermi, maksimoidaan marginaali vähennet- tynä ei-luokiteltujen pisteiden etäisyydellä separoivalta tasolta. H1H1 H2H2 Mittauspisteet S separoiva taso S Marginaali d-d- d+d+

9 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 9 Luokittelu – kokonaislukuoptimointi Erottelukriteerit Datan loogisella analyysillä (Logical Analysis of Data, LAD) - Luokittelukriteeri binaariselle ominaisuudelle (binary attribute) - Numeerisen datan binarisointi Binaariset muuttujat ja kohdemuuttuja sidotaan toisiinsa Boolen funktiolla. – Laajennusten (extension) etsintä Tiedon louhinnan (DM) ongelma: miten näytekannan (training set) pohjalta tehty malli toimii ennustettaville mittauskannoille (unseen data) –Laajennusten (extension) etsintä

10 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 10 Ryhmittely (Clustering) Eri ryhmien löytäminen, ei luokkiin erottaminen Bradley et al (1997): Konkaavi minimointiongelma k:n ryhmän löytämiseksi R n :stä. M alkiota A={A i }, i=1,…,m, k ryhmää C l, l=1,…,k. Ongelma löytää ryhmien paikat niin, että ryhmien keskustan C l ja pisteiden A i välimatkan summa minimoituu (l:n yli laskettuna) L 1 -normin mielessä. - Ratkaisussa ongelma vähenee bilineaariseksi tehtäväksi, joka ratkeaa.

11 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 11 Sääntöjen ja rajoitteiden löytäminen datasta 1/2 DM-tutkijat ovat muotoilleet useita ongelmia ja ehdottaneet tapoja näiden ratkaisemiseksi. Ongelma muotoa A 1, A 2,…,A n -> B 1, B 2,…, B n missä molemmat puolet ovat kaksiarvoisten ominaisuuksien konjunktioita Algoritmi: Riippuvuussääntöjen etsintä kahden kynnysarvon yläpuolelta –luotettavuus (confidence) –vahvuus (support)

12 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 12 Sääntöjen ja rajoitteiden löytäminen datasta 2/2 –Ilman minimivahvuusrajoitetta tuloksena valtava määrä sääntöjä ja etsintä valtava prosessi –Rajoituksen myötä pystytään käyttämään sivistyneempiä ratkaisutapoja ja ratkaisua ei tarvitse etsiä koko avaruudesta R n. Optimoijien haasteena kehittää menetelmiä, jotka ratkaisevat säännöt nopeammin ja tehokkaammin. Esim. koneiden oppiminen

13 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 13 Johtopäätökset 1/2 Yritykset käsittäneet, että vahvan siteen luominen ja ylläpitäminen asiakkaaseen tärkeää eCRM:n kasvava merkitys firmojen siirtyessä käyttämään Internetiä Tulevaisuuden tutkimusalue on DM ja optimoinnin yhteistyö Luonnollisia mahdollisuuksia yhteistyölle –Optimoinnin avulla systemaattisempia tapoja prosessoida dataa etukäteen (click-stream -data) –Luokitteluongelmien ratkaisu: SVM ja LAD

14 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 14 Johtopäätökset 2/2 –eCRM:ssä profiilien rakentaminen -> optimointiongelma –Optimointi aktiivisen oppimisen ja erityispiirteiden valinnan apuna –Optimointi DM-prosessin jälkeen: parhaan vaihtoehdon valinta ratkaisujoukosta –Uusien DM-algoritmien kehittäminen –Rajoitteiden löytäminen optimointitehtävään DM- keinoin Yhteistyö edelleen suhteellisen tutkimaton alue

15 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 15

16 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 16

17 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 17 Kotitehtävä Kirjoita essee (max 1 sivu), jossa a)kerrot heuristisia etsintämenetelmiä käyttävästä Tabu-menetelmästä (toimintaperiaate, käyttökohteet). Vertaa tätä menetelmää laskusuuntiin perustuvaan hakuun (gradientti). b)kuvaat koneiden oppimista (kts. sääntöjen ja rajoitteiden löytäminen datasta).

18 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 18 Kotitehtävä –Ratkaisu. Kirjoitettu vertaillen tabu- ja gradienttimenetelmiä Tabu-menetelmä Algoritmi Muistaa jo läpikäydyt pisteet -> haku parantuu Lähistön valinnan rajoittaminen –Tabu tietylle pisteiden osajoukolle Gradienttimenetelmä Parhaan pisteen valinta nykyisen pisteen ympäristöstä Suppenee lokaaliin optimiin ¨Tekniikoita päästä pois lokaalista optimista ja jatkaa hakua

19 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 19 Kotitehtävä –Ratkaisu Tabu-menetelmä, jatko Käytetty neuraaliverkkojen painokertoimien laskemiseen –ennakoivien mallien rakentaminen eCRM sovelluksissa –ostokäyttäytymisen ennakointi Grad.menetelmä, jatko Samojen pisteiden tuleminen optimiksi -> haku kiertää ympyrää Extra: –x k+1 =x k -λ k f’(x k ) –siksak-ilmiö –herkkyys muuttujanvaihdoksille –luotettava –vähän laskemista –Newton-tyyppiset menetelmät

20 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 20 Kotitehtävä -Ratkaisu Koneiden oppiminen –Boolen logiikan mukaisen ilmaisun minimointi, tarkoituksena löytää minimisäännöt binaarisesta datasta –Esim. A, B bin. ominaisuuksia, C riippuva bin. ominaisuus. A=1, B=0 ja A=1, B=1, C=1. Saadaan AB’+AB->C, joka yksinkertaistuu muotoon A->C


Lataa ppt "S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 1 Tiedon louhinta osa II Miten optimoinnin."

Samankaltaiset esitykset


Iklan oleh Google