Tilastollinen koneoppiminen -lyhyt oppimäärä-
Koneoppiminen ja laskennallinen päättely
Mihin koneoppiminen pystyy? Esimerkki: reinforcement learning
Miten tämä oikeasti tehdään? Robottia ohjaavat algoritmit saavat syötteitä sensoreilta Syötedata kuvataan todennäköisyysmalleilla Mallien avulla päätellään optimaalinen toimintastrategia kussakin tilanteessa Mallien pitää hallita satunnaiskohinaa ja kyetä sopeutumaan uusiin tilanteisiin Laskennallinen päättely pitää toteuttaa nopeasti eli algoritmien on oltava tehokkaita
Yksinkertainen kontrollitilanne
Miten löytää hyvin pieni neula erittäin suuresta heinäsuovasta?
Miten rakentaa kone joka osaa ryhmitellä samankaltaiset objektit samaan kasaan tietämättä miltä niiden pitäisi näyttää ja montako kasoja on?
Miten? Tilastollisessa koneoppimisessa ongelma tunnetaan nimellä klusterointi (eng. clustering or unsupervised classification). Siinä pyritään löytämään n objektin havaintoaineistosta osajoukkoja joiden sisällä on säännönmukaisuutta satunnaisvaihtelussa, siten että osajoukot eroavat toisistaan jollakin systemaattisella tavalla. Todennäköisyyksiin nojaava klusterointi rakentaa kullekin osajoukolle oman mallin jonka mukaan sen havainnot vaihtelevat. Kustakin tarkastellusta objektista havaitaan erilaisia piirteitä (eng. features) joita voi olla suuruusluokkaa esim 102- 108 Mallin lisäksi tarvitaan algoritmi joka etsii havaintoihin sopivia ratkaisuja klusterointiavaruudesta.
Onko klusterointi sitten vaikeaa ja paljonko ratkaisuja on?
Klusterointiavaruudessa optimoitavan funktion pinta on tyypillisesti hankala
Älykäs satunnaisoptimointi (BAPS) on yksi tehokkaimmista algoritmeista geneettiselle datalle
Konenäkö+luokittelu = automaattinen syövän analysointi
Objektien dynaaminen seuranta
Spatiaalisten prosessien dynaaminen mallinnus ja ennustaminen
Lisätietoja sovellusesimerkeistä Deisenroth et al. (2014) Gaussian processes for data-efficient learning in robotics and control. IEEE T Pattern Analysis Machine Intelligence. Linder et al. (2012) Identification of tumor epithelium and stroma in tissue microarrays using texture analysis. Diagnostic Pathology. Chewapreecha et al. (2014). Dense genomic sampling identifies highways of pneumococcal recombination. Nature Genetics. Yang et al. (2014) Optimization equivalence of divergences improves neighbor embedding. ICML. Costello et al. (2014) A community effort to assess and improve drug sensitivity prediction algorithms. Nature Biotechnology. http://aistats.org/aistats2014/ Zammit-Mangion et al. (2012) Point process modelling of the Afghan War Diary. PNAS.