Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Oppimisalgoritmit ja tekoäly

Samankaltaiset esitykset


Esitys aiheesta: "Oppimisalgoritmit ja tekoäly"— Esityksen transkriptio:

1 Oppimisalgoritmit ja tekoäly
MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly Lauri Nieminen The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved.

2 Outline Vahvistusoppiminen Suuren joukon oppiminen Q-algoritmi
Yhden pelaajan MDP:ssä Kahden pelaajan nollasumma-pelissä Suuren joukon oppiminen Lisääntymisdynamiikka Agenttipohjainen mallintaminen

3 Ongelma: Pelaamme Markov päätösketju peliä, jonka rakennetta emme tiedä Tiedämme kuitenkin tilan missä olemme, toiminnot mitä voimme tehdä, ja tiloista kokemamme hyödyn Miten näillä tiedoilla voimme oppia ympäristöstämme tarpeeksi, jotta voimme päästä optimaaliseen toimintamalliin?

4 Q-[oppiminen] apuun! Algoritmin kehitti Wattson, v.1998
Perustuu Bellmannin yhtälöön Googlen Deep Learning-algoritmit käyttävät muunnelmaa Q-oppimisesta neuroverkkojen kanssa V Naturessa artikkeli, jossa kone opetettiin samalla algoritmilla pelaamaan 25 eri Atari peliä (yli)inhimillisellä tasolla

5 Q-[oppiminen] apuun! Algoritmin kehitti Wattson, v.1998
Perustuu Bellmannin yhtälöön Googlen Deep Learning-algoritmit käyttävät muunnelmaa Q-oppimisesta neuroverkkojen kanssa V Naturessa artikkeli, jossa kone opetettiin samalla algoritmilla pelaamaan 25 eri Atari peliä (yli)inhimillisellä tasolla

6

7 Vahvistusoppiminen, Q-Algoritmi
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Perusmalliin kuuluvat: Tilajoukko 𝑆 Toimintajoukko 𝐴 Palkkioiden joukko 𝑟∈ℝ Menettelytapa 𝜋:𝐴→ℝ Parametrit Oppimisnopeus 𝛼∈[0,1] Diskonttaus kerroin β∈[0,1] Tila pikselit Toiminnat näppäimet Palkkio pisteet

8 Q-Algoritmi, menettelytapa
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Menettelytapa 𝜋 kuvaa miten agentti valitsee toimintonsa Esimerkiksi: valitse toiminto, jolla on suurin Q-arvo Voi sisältää satunnaisuutta, joka pakottaa agentin tutkimaan ympäristöään Optimaalista menettelytapaa merkitään 𝜋 ∗ :llä

9 Q-algoritmi, pseudokoodi
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Agentti: Alustaa 𝑄 ja 𝑉 arvot, havaitsee tilansa 𝑠 0 Valitsee toiminnon 𝑎 𝑡 , menettelytapansa 𝜋( 𝑠 𝑡 , 𝑄 𝑡 ) mukaan Havaitsee uuden tilansa 𝑠 𝑡+1 , sekä kokemansa hyödyn 𝑟 𝑡 Päivittää mallinsa 𝑄 𝑡 ja 𝑉 𝑡+1 arvoja Palaa kohtaan 2.

10 Q-Algoritmi, MDP-peli MDP peli:
Agentti voi liikkua ylös, alas, vasemmalle tai oikealle Liikkuminen maksaa hyötyä Vihreässä ruudussa agentti saa +1 hyödyn Punaisessa ruudussa agentti saa -1 hyödyn Peli päättyy vihreässä ja punaisessa ruudussa Agentti aloittaa ruudusta ala-vasemmalla

11 Q-Algoritmi, MDP-peli MDP peli:
Agentti voi liikkua ylös, alas, vasemmalle tai oikealle Liikkuminen maksaa hyötyä Vihreässä ruudussa agentti saa +1 hyödyn Punaisessa ruudussa agentti saa -1 hyödyn Peli päättyy vihreässä ja punaisessa ruudussa Agentti aloittaa ruudusta ala-vasemmalla

12 Q-algoritmi, konvergoituminen
Q-algoritmi konvergoituu MDP-pelissä optimitoiminta malliin, kunhan se saa käydä kaikki tila-toiminta parit läpi ääretön kertaa Yleisesti, Q-algoritmi on hyvä oppimaan, mutta ei anna takeita nopeudesta MDP:n tapauksessa itse iteraation laskuprosessit ovat nopeita

13 Q-Algoritmi, informaalisti
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑎 𝑄 𝑡 𝑠 𝑡 ,𝑎 Hetkellä 𝑡 agentti havaitsee tilansa 𝑠 𝑡 ∈𝑆, sekä mahdollisten toimintojensa joukon 𝐴( 𝑠 𝑡 ) Agentti pyrkii maksimoimaan saamansa hyödyn Agentti käy läpi tila-toiminta pareja, päivittää tietojaan pelistä ja optimaalisesta toiminnasta Agentti ei tarvitse etukäteen tietoa pelin rakenteesta, siirtymätodennäköisyyksistä, tai palkkioista, oppiakseen optimaalisen menettelytavan

14 Nollasummapelit, Minimax-Q
𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 𝑉 𝑡 𝑠 𝑡+1 𝑉 𝑡+1 𝑠 = max 𝑖 min 𝑜 𝑄 𝑖,𝑡 𝑠 𝑡 , 𝑖 (𝑠) ,𝑜 Q-Algoritmia muokkaamalla, sitä voi soveltaa nollasummapeleihin Nyt tulee lisäksi tietää vastustajan toiminnat Pelin tilan hyödyksi lasketaan sen maxmin-arvo, joka on nollasummapelin Nashin tasapaino Algoritmin konvergoituminen on huomattavasti hitaampaa 𝑄 𝑡+1 𝑠 𝑡 , 𝑎 𝑡 = 1− 𝛼 𝑡 𝑄 𝑡 𝑠 𝑡 , 𝑎 𝑡 + 𝛼 𝑡 [𝑟 𝑠 𝑡 , 𝑎 𝑡 +𝛽 max 𝑎 𝑄 𝑡 𝑠 𝑡+1 ,𝑎 ]

15 Lisääntymisdynamiikka
Tarjoaa mallin suuren populaation oppimisen mallintamiselle Mallintaa populaatioiden suoriutumista toisiaan vastaan Käyttää tilastollisia arvoja populaation mallinnukseen Mallintaa populaatiossa tapahtuvaa jatkuvaa vuorovaikutusta Vetää inspiraationsa biologiasta, evoluutio mallista

16 Lisääntymisdynamiikka populaation mallintamisessa (Replicator dynamic)
Mallinnetaan populaation muutosta lisääntymisen kautta Joukko pelaa jatkuvasti pareittain symmetristä peliä Agentin saamaa hyötyä 𝑢 𝑡 𝑎 kutsutaan agentin ‘kunnoksi’ Parempi kunto Paremmat lisääntymismahdollisuudet 𝑆𝑦𝑚𝑚𝑒𝑡𝑟𝑖𝑛𝑒𝑛 𝑝𝑒𝑙𝑖: Haukka&Kyyhky- peli H D -2,-2 6,0 0,6 3,3 Pointtina johtaa miten populaation muutokset mallin mukaan tapahtuvat

17 Lisääntymisdynamiikka populaation mallintamisessa
Merkitään tomintaa 𝑎 pelaavien; Lukumäärä: 𝜑 𝑡 (𝑎) Suhteellista osuutta populaatiosta: 𝜃 𝑡 (𝑎)= 𝜑 𝑡 (𝑎) 𝑎′∈𝐴 𝜑 𝑡 ( 𝑎 ′ ) Hyödyn odotusarvoa: 𝑢 𝑡 𝑎 = 𝑎′∈𝐴 𝜃 𝑡 𝑎 ′ 𝑢(𝑎, 𝑎 ′ )

18 Lisääntymisdynamiikka populaation mallintamisessa
Populaation hyödyn keskiarvo: 𝑢 𝑡 ∗ = 𝑎∈𝐴 𝜃 𝑡 𝑎 𝑢 𝑡 (𝑎) Mallinnetaan a:ta pelaavien agenttien lisääntymistä seuraavasti: 𝜑 𝑡 𝑎 = 𝜑 𝑡 (𝑎) 𝑢 𝑡 (𝑎) Jolloin suhteellinen muutos on: 𝜃 𝑡 (𝑎)= 𝜃 𝑡 𝑎 [𝑢 𝑎 − 𝑢 𝑡 ∗ ] Jos pärjäät keskivertoa paremmin, lisäännyt

19 Lisääntymisdynamiikan, tasapainotilat
Vakaatila: Populaatiotila 𝜃, jossa 𝜃 𝑎 =0, kaikilla 𝑎∈𝐴 Stabiilivakaatila: Tila 𝜃 0 , joka on 𝜖>0 päässä stabiilistatilasta 𝜃, pysyy 𝜃:n läheisyydessä Asymptoottisesti vakaatila: Tilalle 𝜃 0 , joka on 𝜖>0 päässä stabiilistatilasta, pätee lim 𝑡→∞ 𝜃 0 =𝜃 Jos (s,s) on symmetrinen Nashin tasapaino, on se pelin vakaatila Jos 𝜃 on stabiilivakaatila, on sitä vastaava strategia (s,s) pelin Nashin tasapaino Jos 𝜃 on asymptoottisesti vakaatila, on sitä vastaava strategia (s,s) pelin tärisevänkäden Nashin tasapaino Stabiilius, koska muuten yhden tyypin populaatiot ovat vakaita, koska uusia strategioita ei ilmaannu lisääntymisen mukana.

20 Agentti-pohjainen populaation mallinnus
Jokaista agenttia käsitellään erikseen Agenteille pätee anonyymius Agentille toiminnan valinnan peruste ei saa olla toisen agentin nimi tms. ja lokaalius Agentit tietävät vain oman historiansa, eivät vaikkapa globaaleja keskiarvoja, kuten edellisessä

21 Agentti-pohjainen populaation mallinnus
Suurin kumulatiivinen hyöty - Päätöksenteko sääntö: Pidä kirjaa toimintojen tuomista kumulatiivisista hyödyistä, toiminnon edelliseltä m-kierrokselta Valitse toiminto, jolle edellinen arvo on suurin Jos kaikki agentit käyttävät suurimman kumulatiivisen hyödyn sääntöä, johtaa se lopulta sosiaalisen konventioon

22 Lisääntymisdynamiikka
Tarjoaa mallin suuren populaation oppimisen mallintamiselle Käyttää tilastollisia arvoja populaation mallinnukseen Mallintaa populaation jatkuvaa vuorovaikutusta Vetää inspiraationsa biologiasta, evoluutio mallista Voidaan tulkita kahden pelaajan pelinä, jossa pelaajat käyttävät sekastrategioita

23 Kotitehtävä Keksi kolme oppimiskohdetta Q-algoritmille
Mitkä ovat mahdollisia agentin tiloja? Mitkä ovat mahdollisia agentin toimintoja? Mitä käytät hyötysignaalina? Pointtina käyttää mielikuvitusta :) Mitä absurdimpia ideoita sen parempi! A.I. joka heittää fukseja lumipalloilla? Pullanleipominen pullat leivonta Vieraitten reaktio Saksa lauseet sanat hymy


Lataa ppt "Oppimisalgoritmit ja tekoäly"

Samankaltaiset esitykset


Iklan oleh Google