A mesterséges intelligencia újabb győzelme az ember felett

Kategória: Cikkek, írások Megjelent: 2019. november 02. szombat

A mesterséges intelligencia (MI) fejlesztésében utazó DeepMind arról híres, hogy az algoritmusai sorra hódítják el az elsőséget az emberi játékosoktól egyre többféle és egyre összetettebb játékokban. A sakk és a go után ezúttal a a StarCraft nevű valós idejű stratégiai videójátékban léptek nagyot előre – írja az MIT Technology Review.

Az Alphabet alá tartozó – azaz a Google testvércégének számító – DeepMind már idén januárban bejelentette, hogy a kifejezetten a StarCrafthoz II-höz fejlesztett AlphaStar megvert két profi emberi játékost. Ez azért nagy dolog, mert ez a játék nagyon komplex, a játékosoknak minden egyes lépésnél 1026 lehetőség közül kell választaniuk, ráadásul tökéletlen információ alapján, azaz anélkül, hogy teljes képet lehetne kapni a feltételekről, így nincsenek pontos győzelmi stratégiák sem. Már ez is új szintet jelentett a gépi tanulás fejlődésében, de az AlphaStar új verziója már szinte minden emberi versenyzőnél jobb: elérte az úgynevezett nagymesteri szintet, és az aktív játékosok 99,8 százalékát maga mögé utasította a játék hivatalos online ligájában.
A StarCraftban a játékosok három faj közül választhatnak, majd párhuzamosan kell nyersanyagokat gyűjteni, építkezni és fejleszteni, illetve harcolni. Minden fajnak eltérő erősségei és korlátai vannak, így más-más stratégia épülhet rájuk, és a játékosok jellemzően egy-egy fajjal fejlesztik tökélyre a játékukat.
Nem úgy az AlphaStar, amely mindhárom fajjal felturbózta a tudását. Ehhez a megerősítéses tanulás módszerét használták a fejlesztők, aminek az a lényege, hogy az algoritmus próba-szerencse alapon kísérletezik a különböző lehetőségekkel, és a saját hibáiból tanul. Ennél a módszernél az algoritmus általában a saját másolata ellen játszik, hogy felgyorsítsa a tanulási folyamatot.
Míg azonban ilyenkor a magával versengő algoritmus mindkét verziója a saját nyerési esélyeit próbálja maximalizálni, a kutatók rájöttek, hogy egy ilyen nyílt végű játéknál ez nem feltétlenül a leghatékonyabb megoldás, mert az MI könnyen beleragad egy-egy konkrét stratégiába. Az AlphaStar esetében ezért az emberi StartCraft-játékosoktól ellesett példát követték, és amolyan baráti gyakorlást próbáltak modellezni: az egyik algoritmust úgy állították be, hogy ne a saját győzelmére koncentráljon, hanem az ellenfele hibáira világítson rá, hogy segítse a fejlődését.
Ez a módszer sokkal inkább általánosítható algoritmust eredményezett, és az eredményeiket a Nature szaklapban bemutató kutatók reményei szerint ezzel ez a megoldás való világbeli problémák megoldásához is könnyebben hozzáigazítható – hiszen az egész videójétákosdinak végső soron ilyen módszerek és algoritmusok kidolgozása a célja.
Az MI-fejlesztők az elmúlt években egyre gyakrabban nyúlnak a játékokhoz az algoritmusaik tökéletesítéséhez, így egyúttal a gép is egyre többféle játékban hódítja el az elsőséget az embertől:
A 2016-os első nagy győzelem után a DeepMind által fejlesztett AlphaGo 2017-ben a világ legjobb emberi gójátékosát is leiskolázta, ezzel olyan szintre jutott, hogy azzal a lendülettel vissza is vonultatták, mert kifogyott a kihívásokból. Közben a program új változata, az AlphaGo Zero – ahogy a neve is jelzi – ugyanezt nulláról érte el, szintén megerősítéses tanulással, pusztán a játékszabályok ismeretéből kiindulva: három nap alatt eljutott odáig, hogy lealázta a hagyományos AlphaGót, 40 nap alatt pedig már 3 ezer évnyi gótudást halmozott fel csak azzal, hogy folyamatosan játszott saját maga ellen. Ugyanezt játszotta el sakkban az AlphaZero, ennek a beüzemelése után mindössze négy órára volt szüksége ahhoz, hogy minden idők legnagyobb sakkmesterévé tanulja magát.
Persze nemcsak a DeepMindnál folynak ilyen fejlesztések. Újabb mérföldkövet ért el egy Libratus nevű MI, amikor pókerben is legyőzte az embert. A sakknál a gó azért volt nehezebb, mert sokkal intutívabb, a póker pedig azért újabb fontos lépcső, mert sok benne a tökéletlen információ: nem tudni, az ellenfélnek milyen kártyái vannak, így soha nem lehetnek teljesen képben, a többiek játékát is figyelni kell, és folyamatosan alkalmazkodni hozzá, miközben olyan kifejezetten emberi tényezőket is számításban kell vennie, mint a blöffölés.
Közben a Maluuba MI-je Pac-Manben, az OpenAI-é pedig a Dota 2 nevű online játék egy-egy elleni változatában mosta le az emberi ellenfelét, és a többszereplős verzióban is egyre jobb.
(index.hu)