Oppimisalgoritmit ja tekoäly

Oppimisalgoritmit ja tekoäly
MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly Lauri Nieminen The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved.

Outline Vahvistusoppiminen Suuren joukon oppiminen Q-algoritmi
Yhden pelaajan MDP:ssä Kahden pelaajan nollasumma-pelissä Suuren joukon oppiminen Lisääntymisdynamiikka Agenttipohjainen mallintaminen

Ongelma: Pelaamme Markov päätösketju peliä, jonka rakennetta emme tiedä Tiedämme kuitenkin tilan missä olemme, toiminnot mitä voimme tehdä, ja tiloista kokemamme hyödyn Miten näillä tiedoilla voimme oppia ympäristöstämme tarpeeksi, jotta voimme päästä optimaaliseen toimintamalliin?

Q-[oppiminen] apuun! Algoritmin kehitti Wattson, v.1998
Perustuu Bellmannin yhtälöön Googlen Deep Learning-algoritmit käyttävät muunnelmaa Q-oppimisesta neuroverkkojen kanssa V Naturessa artikkeli, jossa kone opetettiin samalla algoritmilla pelaamaan 25 eri Atari peliä (yli)inhimillisellä tasolla

Vahvistusoppiminen, Q-Algoritmi
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Perusmalliin kuuluvat: Tilajoukko 𝑆 Toimintajoukko 𝐴 Palkkioiden joukko 𝑟∈ℝ Menettelytapa 𝜋:𝐴→ℝ Parametrit Oppimisnopeus 𝛼∈[0,1] Diskonttaus kerroin β∈[0,1] Tila pikselit Toiminnat näppäimet Palkkio pisteet

Q-Algoritmi, menettelytapa
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Menettelytapa 𝜋 kuvaa miten agentti valitsee toimintonsa Esimerkiksi: valitse toiminto, jolla on suurin Q-arvo Voi sisältää satunnaisuutta, joka pakottaa agentin tutkimaan ympäristöään Optimaalista menettelytapaa merkitään 𝜋 ∗ :llä

Q-algoritmi, pseudokoodi
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Agentti: Alustaa 𝑄 ja 𝑉 arvot, havaitsee tilansa 𝑠 0 Valitsee toiminnon 𝑎 𝑡 , menettelytapansa 𝜋( 𝑠 𝑡 , 𝑄 𝑡 ) mukaan Havaitsee uuden tilansa 𝑠 𝑡+1 , sekä kokemansa hyödyn 𝑟 𝑡 Päivittää mallinsa 𝑄 𝑡 ja 𝑉 𝑡+1 arvoja Palaa kohtaan 2.

Q-Algoritmi, MDP-peli MDP peli:
Agentti voi liikkua ylös, alas, vasemmalle tai oikealle Liikkuminen maksaa hyötyä Vihreässä ruudussa agentti saa +1 hyödyn Punaisessa ruudussa agentti saa -1 hyödyn Peli päättyy vihreässä ja punaisessa ruudussa Agentti aloittaa ruudusta ala-vasemmalla

Q-algoritmi, konvergoituminen
Q-algoritmi konvergoituu MDP-pelissä optimitoiminta malliin, kunhan se saa käydä kaikki tila-toiminta parit läpi ääretön kertaa Yleisesti, Q-algoritmi on hyvä oppimaan, mutta ei anna takeita nopeudesta MDP:n tapauksessa itse iteraation laskuprosessit ovat nopeita

Q-Algoritmi, informaalisti
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Hetkellä 𝑡 agentti havaitsee tilansa 𝑠 𝑡 ∈𝑆, sekä mahdollisten toimintojensa joukon 𝐴( 𝑠 𝑡 ) Agentti pyrkii maksimoimaan saamansa hyödyn Agentti käy läpi tila-toiminta pareja, päivittää tietojaan pelistä ja optimaalisesta toiminnasta Agentti ei tarvitse etukäteen tietoa pelin rakenteesta, siirtymätodennäköisyyksistä, tai palkkioista, oppiakseen optimaalisen menettelytavan

Nollasummapelit, Minimax-Q
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑖 min 𝑜 𝑄 𝑖,𝑡 𝑠 𝑡 , 𝑖 (𝑠) ,𝑜 Q-Algoritmia muokkaamalla, sitä voi soveltaa nollasummapeleihin Nyt tulee lisäksi tietää vastustajan toiminnat Pelin tilan hyödyksi lasketaan sen maxmin-arvo, joka on nollasummapelin Nashin tasapaino Algoritmin konvergoituminen on huomattavasti hitaampaa 𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 [𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 max 𝑎 𝑄 𝑡 𝑠 𝑡+1 ,𝑎 ]

Lisääntymisdynamiikka
Tarjoaa mallin suuren populaation oppimisen mallintamiselle Mallintaa populaatioiden suoriutumista toisiaan vastaan Käyttää tilastollisia arvoja populaation mallinnukseen Mallintaa populaatiossa tapahtuvaa jatkuvaa vuorovaikutusta Vetää inspiraationsa biologiasta, evoluutio mallista

Lisääntymisdynamiikka populaation mallintamisessa (Replicator dynamic)
Mallinnetaan populaation muutosta lisääntymisen kautta Joukko pelaa jatkuvasti pareittain symmetristä peliä Agentin saamaa hyötyä 𝑢 𝑡 𝑎 kutsutaan agentin ‘kunnoksi’ Parempi kunto Paremmat lisääntymismahdollisuudet 𝑆𝑦𝑚𝑚𝑒𝑡𝑟𝑖𝑛𝑒𝑛 𝑝𝑒𝑙𝑖: Haukka&Kyyhky- peli H D -2,-2 6,0 0,6 3,3 Pointtina johtaa miten populaation muutokset mallin mukaan tapahtuvat

Lisääntymisdynamiikka populaation mallintamisessa
Merkitään tomintaa 𝑎 pelaavien; Lukumäärä: 𝜑 𝑡 (𝑎) Suhteellista osuutta populaatiosta: 𝜃 𝑡 (𝑎)= 𝜑 𝑡 (𝑎) 𝑎′∈𝐴 𝜑 𝑡 ( 𝑎 ′ ) Hyödyn odotusarvoa: 𝑢 𝑡 𝑎 = 𝑎′∈𝐴 𝜃 𝑡 𝑎 ′ 𝑢(𝑎, 𝑎 ′ )

Lisääntymisdynamiikka populaation mallintamisessa
Populaation hyödyn keskiarvo: 𝑢 𝑡 ∗ = 𝑎∈𝐴 𝜃 𝑡 𝑎 𝑢 𝑡 (𝑎) Mallinnetaan a:ta pelaavien agenttien lisääntymistä seuraavasti: 𝜑 𝑡 𝑎 = 𝜑 𝑡 (𝑎) 𝑢 𝑡 (𝑎) Jolloin suhteellinen muutos on: 𝜃 𝑡 (𝑎)= 𝜃 𝑡 𝑎 [𝑢 𝑎 − 𝑢 𝑡 ∗ ] Jos pärjäät keskivertoa paremmin, lisäännyt

Lisääntymisdynamiikan, tasapainotilat
Vakaatila: Populaatiotila 𝜃, jossa 𝜃 𝑎 =0, kaikilla 𝑎∈𝐴 Stabiilivakaatila: Tila 𝜃 0 , joka on 𝜖>0 päässä stabiilistatilasta 𝜃, pysyy 𝜃:n läheisyydessä Asymptoottisesti vakaatila: Tilalle 𝜃 0 , joka on 𝜖>0 päässä stabiilistatilasta, pätee lim 𝑡→∞ 𝜃 0 =𝜃 Jos (s,s) on symmetrinen Nashin tasapaino, on se pelin vakaatila Jos 𝜃 on stabiilivakaatila, on sitä vastaava strategia (s,s) pelin Nashin tasapaino Jos 𝜃 on asymptoottisesti vakaatila, on sitä vastaava strategia (s,s) pelin tärisevänkäden Nashin tasapaino Stabiilius, koska muuten yhden tyypin populaatiot ovat vakaita, koska uusia strategioita ei ilmaannu lisääntymisen mukana.

Agentti-pohjainen populaation mallinnus
Jokaista agenttia käsitellään erikseen Agenteille pätee anonyymius Agentille toiminnan valinnan peruste ei saa olla toisen agentin nimi tms. ja lokaalius Agentit tietävät vain oman historiansa, eivät vaikkapa globaaleja keskiarvoja, kuten edellisessä

Agentti-pohjainen populaation mallinnus
Suurin kumulatiivinen hyöty - Päätöksenteko sääntö: Pidä kirjaa toimintojen tuomista kumulatiivisista hyödyistä, toiminnon edelliseltä m-kierrokselta Valitse toiminto, jolle edellinen arvo on suurin Jos kaikki agentit käyttävät suurimman kumulatiivisen hyödyn sääntöä, johtaa se lopulta sosiaalisen konventioon

Lisääntymisdynamiikka
Tarjoaa mallin suuren populaation oppimisen mallintamiselle Käyttää tilastollisia arvoja populaation mallinnukseen Mallintaa populaation jatkuvaa vuorovaikutusta Vetää inspiraationsa biologiasta, evoluutio mallista Voidaan tulkita kahden pelaajan pelinä, jossa pelaajat käyttävät sekastrategioita

Kotitehtävä Keksi kolme oppimiskohdetta Q-algoritmille
Mitkä ovat mahdollisia agentin tiloja? Mitkä ovat mahdollisia agentin toimintoja? Mitä käytät hyötysignaalina? Pointtina käyttää mielikuvitusta :) Mitä absurdimpia ideoita sen parempi! A.I. joka heittää fukseja lumipalloilla? Pullanleipominen pullat leivonta Vieraitten reaktio Saksa lauseet sanat hymy

Oppimisalgoritmit ja tekoäly

Samankaltaiset esitykset

Esitys aiheesta: "Oppimisalgoritmit ja tekoäly"— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute

Kirjaudu sisään

Kirjaudu sisään sosiaaliverkostojen kautta:

Oppimisalgoritmit ja tekoäly

Samankaltaiset esitykset

Esitys aiheesta: "Oppimisalgoritmit ja tekoäly"— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute