Normaalimuotoisten pelien ratkaisukonseptit Ella Warras The document can be stored and made available to the public on the open internet pages.

Normaalimuotoisten pelien ratkaisukonseptit 28.9.2016 Ella Warras The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Ratkaisukonseptit Nashin tasapaino – entä muut vaihtoehdot? –Maxmin- ja minmax-strategiat –Minimax-katumus (minimax regret) –Dominoitujen strategioiden eliminointi –Rationalisoituvuus –Korreloitu tasapaino –Tärisevän käden tasapaino –Epsilon-Nash –tasapaino  Nashin tasapainon laskennallinen ratkaiseminen kahden pelaajan peleissä

Maxmin-strategia Pelaajan i maxmin-strategia on sellainen joka maksimoi i:n pienimmän mahdollisen tuloksen tilanteessa jossa kaikki muut pelaajat pelaavat i:n kannalta huonoimmat mahdolliset strategiansa Toisin sanoen i varautuu huonoimpaan mahdolliseen tilanteeseen (“pessimistin sääntö”) Pelaajan i maxmin-arvo:

Maxmin-strategia — esimerkki Kahvilanpitäjä Hanna Erkku aikoo tilata yhden tuotteen myyntiin tulevaa kesää varten. Vaihtoehtoina ovat jäätelö, pulla ja kuuma kaakao. Riippuen tulevan kesän säästä näiden tuotteiden oletetut kysynnät vaihtelevat kuitenkin paljon. Lämpö- tila JäätelöPullaKaakao Kylmä250350500 Keski450500200 Kuuma800500100 Oheisesta taulukosta nähdään kesän mahdolliset lämpötilat (oletetaan yhtä todennäköisiksi) sekä kunkin vaihtoehdon oletettu tuotto. H. Erkku on pessimisti ja seuraa maxmin- strategiaa. Minkä tuotteen hän ottaa myyntiin?

Maxmin-strategia — esimerkki Vastaus: H. Erkku ottaa pullan myyntiin, koska sen huonoin mahdollinen tuotto 350 on suurempi kuin jäätelön (250) tai kaakaon (100). Lämpö- tila JäätelöPullaKaakao Kylmä250350500 Keski450500200 Kuuma800500100

Minmax-strategia Pelaajan i minmax-strategia on sellainen joka minimoi vastustajan (tai vastustajien) –i parhaimman mahdollisen tuloksen Rankaisee vastustajaa, ei välitä omasta tuloksesta Jos pelaajia on enemmän kuin 2, ja i haluaa pelata minmax-strategiaa j:tä vastaan, kaikkien muiden pelaajien täytyy yhdessä pelata tätä strategiaa j:tä vastaan (ei riitä että i tekee niin) Pelaajan –i minmax-arvo:

Esimerkki LeftRight Top3, 12, -20 Middle5, 0-10, 1 Bottom-100, 24, 4 Nashin tasapaino: (B, R) = (4, 4) Maxmin-strategia: (T, L) = (3, 1) Minmax-strategia: (T, R) = (2, -20) tai (M, R) = (-10, 1)

Minmax-teoreema (von Neumann, 1928) Kahden pelaajan nollasummapelissä mikä tahansa Nashin tasapaino on kummallekin pelaajalle yhtä kuin sekä minmax- että maxmin-arvo. B kruunaB klaava A kruuna+1, -1-1, +1 A klaava-1, +1+1, -1

Minmax-teoreema — esimerkki B kruunaB klaava A kruuna+1, -1-1, +1 A klaava-1, +1+1, -1 Matching Pennies A ja B ottavat kumpikin kolikon, ja kääntävät esiin kruunan tai klaavan Sama => A saa B:n kolikon Eri => B saa A:n kolikon Nashin tasapaino: sekastrategia, kummatkin valitsevat kruunan todennäköisyydellä ½ –Myös kummankin pelaajan maxmin- ja minmax-strategia Nollasummapelin arvo (value of a zero-sum game): pelaajan 1 maxmin-arvo = 0

Satulapiste (kahden pelaajan nollasummapeli) Nashin tasapainopiste on kummallekin pelaajalle maxmin- ja minmax-piste (minmax- teoreema) –Matching Pennies-esimerkissä kummatkin saavat tasapainopisteessä tuloksen 0 Tämän voi nähdä graafisesti satulan muodossa Satulapisteessä mikä tahansa pelaajan tekemä siirtyminen huonontaa omaa tulosta ja parantaa toisen tulosta

Minimax-katumus (minimax regret) Tilanteessa jossa pelaaja –i oletetaan täysin ennalta-arvaamattomaksi, pelaajalle i voi olla järkevää minimoida suurin mahdollinen menetyksensä (verrattuna parhaaseen tapaukseen) Minimax-katumuksen mukaiset toiminnot määritellään: i:n katumus valittuaan vaihtoehdon a i jos pelaaja –i on pelannut a -i i:n katumus valittuaan vaihtoehdon a i jos pelaaja –i on pelannut i:n kannalta pahimman mahdollisen a -i i minimoi maksimaalisen katumuksen

Minimax-katumus — esimerkki Palataan kahvilaesimerkkiin: oletetut voitot kullekin tuotteelle Lämpö- tila JäätelöPullaKaakao Kylmä250350500 Keski450500200 Kuuma800500100 Lämpö-tilaJäätelöPullaKaakao Kylmä (500-250=) 250 (500-350=) 150 (500-500=) 0 Keski (500-450=) 50 (500-500=) 0 (500-200=) 300 Kuuma (800-800=) 0 (800-500=) 300 (800-100=) 700 Maksimikatumus kullekin valinnalle minimax-katumuksen mukainen valinta on jäätelö

Dominoitujen strategioiden eliminointi Kolme eri dominanssityyppiä 1.Vahvasti dominoiva strategia –Strategia s i dominoi vahvasti strategiaa s i ’ jos kaikille vastustajan siirroille s -i pätee että u i (s i, s -i ) > u i (s i ’, s -i ) 2.Heikosti dominoiva strategia –Strategia s i dominoi heikosti strategiaa s i ’ jos kaikille vastustajan siirroille s -i pätee että u i (s i, s -i ) ≥ u i (s i ’, s -i ) ja ainakin yhdelle s -i pätee että u i (s i, s -i ) > u i (s i ’, s -i ) 3.Hyvin heikosti dominoiva strategia –Strategia s i dominoi hyvin heikosti strategiaa s i ’ jos kaikille vastustajan siirroille s -i pätee että u i (s i, s -i ) ≥ u i (s i ’, s -i ) Jos jokin strategia s i ’ dominoi (vahvasti, heikosti tai hyvin heikosti) strategiaa s i, tällöin s i on (vahvasti, heikosti tai hyvin heikosti) dominoitu.

Dominoitujen strategioiden eliminointi — esimerkki (muokattu aiemmasta esimerkkitaulukosta) Kun etsimme Nashin tasapainoa, huomaamme että Bottom antaa aina huonomman tuloksen kuin Top, riippumatta vastustajan valinnasta Bottom on (vahvasti) dominoitu strategia, eli pelaaja 1 ei tule koskaan valitsemaan sitä Voimme poistaa sen taulukosta, mikä tekee pelistä helpomman ratkaista LeftRight Top3, 12, -20 Middle5, 0-10, 1 Bottom-100, 21, 4 LeftRight Top3, 12, -20 Middle5, 0-10, 1

Rationalisoituvuus (Rationalizability) Strategia on rationalisoituva (rationalizable) jos rationaalinen pelaaja pystyy perustellusti pelaamaan sen yhtä tai useampaa rationaalista pelaajaa vastaan –Toisin sanoen, strategia on rationalisoituva jos strategia on paras vastaus sellaisiin strategioihin joita pelaaja uskoo vastustajan voivan pelata –Pelaaja ei voi uskoa vastustajasta mitä tahansa, vaan täytyy ottaa huomioon vastustajan rationaalisuus (joka vuorostaan ottaa huomioon ensimmäisen pelaajan rationaalisuuden, jne. johtaen ikuiseen ketjuun) Nashin tasapainostrategiat ovat aina rationalisoituvia Kahden pelaajan peleissä asia on yksinkertainen: rationalisoituvat strategiat ovat niitä jotka selviävät kaikista dominoitujen strategioiden eliminointikierroksista

Korreloitu tasapaino Pelaajat tekevät valintansa jonkin ulkopuolisen sattumanvaraisen tapahtuman perusteella –Voi olla kolmas, puolueeton osapuoli tai esimerkiksi luonnonilmiö –Tapahtuma kertoo heille mitä valita, he saavat itse päättää mutta jos ei ole insentiiviä poiketa suosituksesta, kyseessä on korreloitu tasapaino Esimerkki: Sukupuolten taisto –Pelaajat heittävät kolikkoa: Kruuna => molemmat valitsevat jalkapallon Klaava => molemmat valitsevat elokuvan –He saavat kuitenkin päättää itse, mutta kummallakaan ei ole syytä poiketa tästä tasapainosta Jalka- pallo Elokuva Jalka- pallo 1, 20, 0 Elokuva 0, 02, 1

Tärisevän käden tasapaino (trembling hand perfect equilibrium) Tärisevän käden tasapaino on tila jossa strategia ottaa huomioon vastustajan (pienellä todennäköisyydellä) tekemät epäjohdonmukaiset valinnat Esimerkki: –Nashin tasapainot: (A, A) ja (B, B) –Tärisevän käden tasapaino: ainoastaan (A, A) AB A1, 10, 0 B

Epsilon-Nash -tasapaino Epsilon-Nash –tasapaino on tilanne jossa Nashin tasapaino on lähes saavutettu, eli on olemassa marginaalisesti parempi vaihtoehto mutta nykytilannetta pidetään riittävän hyvänä –Nashin tasapainon saavuttaminen vaatisi suuren vaivan, esim. aikaavievän laskutoimituksen, tai sitten nykytilannetta pidetään turvallisempana vaihtoehtona (status quo-harha)

Nashin tasapainon ratkaiseminen laskennallisesti

Nashin tasapaino: kahden pelaajan nollasummapeli Voidaan ilmaista lineearisena ohjelmointiongelmana (linear program, LP) Etsitään pelaajan 1 tulos kun pelaaja 2 pelaa (puhdasta tai seka-)minmax- strategiaa häntä vastaan: Vastaavasti etsitään pelaajan 1 maxmin-tulos, ja saadaan Nashin tasapaino Minimoidaan pelaajan 1 tulos Niin että se kuitenkin on paras mahdollinen valinta pelaajalle 1 ottaen huomioon pelaajan 2 pelaaman strategian (s 2 k on todennäköisyys että p2 tekee siirron a 2 k (osa sekastrategiaa), eli niiden summa on 1 ja ne ovat ei-negatiivisia)

Nashin tasapaino: kahden pelaajan nollasummapeli Esimerkki: Sukupuolten taisto, sekastrategiaratkaisun löytäminen (puhtaat strategiat (J, J) ja (E, E)) –Vaimo (pelaaja 1) valitsee jalkapallon tn:llä p –Mies (pelaaja 2) valitsee jalkapallon tn:llä q –Molemmat vaihtoehdot yhtäläisiä Vaimo valitsee jalkapallon, hyöty: 1q + 0(1-q) = q Vaimo valitsee elokuvan, hyöty: 0q + 2(1-q) = 2-2q Mies valitsee jalkapallon, hyöty: 2p + 0(1-p) = 2p Mies valitsee elokuvan, hyöty: 0p + 1(1-p) = 1-p –q = 2-2q ja 2p = 1-pq = 2/3 ja p = 1/3 –Sekastrategiaratkaisu: vaimo valitsee jalkapallon tn:llä 1/3 ja mies tn:llä 2/3 Jalka- pallo Elo- kuva Jalka- pallo 1, 20, 0 Elo- kuva 0, 02, 1

Nashin tasapaino: kahden pelaajan ei-nollasummapelin ratkaisun kompleksisuus Voiko tämä ongelma olla NP-täydellinen? –NP-täydellinen = ratkeaa epädeterministisessä polynomialisessa ajassa, eli algoritmin worst-case –kesto on eksponentiaalinen –NP-täydellisillä ongelmilla ei kuitenkaan aina ole ratkaisua, toisin kuin tässä tapauksessa, joten tarvitaan toinen kompleksisuusluokka: PPAD (polynomial parity argument, directed version) –Ongelmana löytää ratkaisu jonka tiedetään olevan aina olemassa –Kuten NP:n tapauksessa, ei voida tietää onko P = PPAD (eli onko kaikille PPAD- ongelmille olemassa polynomialisessa ajassa toimiva ratkaisualgoritmi), mutta yleisesti uskotaan että näin ei ole Ongelma on PPAD-täydellinen, eli worst-case –kesto on eksponentiaalinen

Terminologia satulapiste = graafinen esitys minmax- ja maxmin-pisteiden yhtymästä eli Nashin tasapainosta katumus (regret) = erotus parhaan mahdollisen ja oman toteutuneen tuloksen välillä nollasummapelin arvo = pelaajan 1 maxmin-arvo (vahvasti, heikosti tai hyvin heikosti) dominoiva strategia = strategia jonka tulos on parempi tai yhtä suuri kuin jonkin toisen (dominoidun) strategian tulos kaikille mahdollisille vastustajan strategioille rationalisoituva strategia = strategia jota rationaalinen pelaaja pystyy perustellusti pelaamaan toista rationaalista pelaajaa vastaan NP = nondeterministic polynomial time (algoritmin kompleksisuusluokka) PPAD = polynomial parity argument, directed version (algoritmin kompleksisuusluokka)

Kotitehtävät 1.Ratkaise oheinen peli dominoitujen strategioiden iteratiivisella eliminoinnilla. Näytä välivaiheet. 1.Ratkaise oheisen pelin a)Nashin tasapainot, b)tärisevän käden tasapaino (trembling hand perfect equilibrium). Perustele vastauksesi. Left Cente r Right Top-5, -12, 23, 3 Middl e 1, -31, 21, 1 Bottom 0, 100, 00, -10 ABC A0, 0 B 1, 12, 0 C0, 00, 22, 2

Normaalimuotoisten pelien ratkaisukonseptit Ella Warras The document can be stored and made available to the public on the open internet pages.

Samankaltaiset esitykset

Esitys aiheesta: "Normaalimuotoisten pelien ratkaisukonseptit Ella Warras The document can be stored and made available to the public on the open internet pages."— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute

Kirjaudu sisään

Kirjaudu sisään sosiaaliverkostojen kautta:

Normaalimuotoisten pelien ratkaisukonseptit Ella Warras The document can be stored and made available to the public on the open internet pages.

Samankaltaiset esitykset

Esitys aiheesta: "Normaalimuotoisten pelien ratkaisukonseptit Ella Warras The document can be stored and made available to the public on the open internet pages."— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute