Umělá inteligence | Pac-Man

MuZero od Alphabetu se naučil hrát Pac-Mana, aniž by věděl jak

Britská laboratoř pro výzkum umělé inteligence DeepMind (Alphabet) se krátce před Vánocemi pochlubila dalším kouskem. Vyrobila program, který se sám naučil hrát Pac-Man a další stařičké šlágry od Atari.

DeepMind se v minulosti proslavil A.I. agenty AlphaGo a AlphaGo Zero, které se naučily hrát asijskou hru go a porazily v ní špičkové světové hráče. Zatímco AlphaGo potřeboval ke studiu hry člověkem připravená data (záznamy her) a přednastavené komplexní znalosti, jak se vlastně go hraje, AlphaGo Zero si už vystačil jen se základními pravidly a veškerou herní strategii se naučil sám.

29925a06-022c-414a-98fa-6e29cbb26696
AlphaGo porazil člověka ve hře go, ale při učení potřeboval od člověka velkou pomoc. AlphaGo Zero si už vystačil jen se základními pravidly a AlphaZero přidal šachy a šógi.

AlphaGo Zero byl tedy ochutnávkou toho, jak bude A.I. vypadat v příštích letech a desetiletích. Bude mnohem samostatnější.

Oba programy ale měly jeden háček. Naučily se hru, která je sice složitá, ale na západ od Tokia zajímá jen naprosté nadšence. Běžný smrtelník bude spíše kroutit hlavou, proč je proboha okolo jakýchsi kamínků na herní desce takové haló. Co naplat, go prostě nejsou Sázky a dostihy, hře rozumí málokdo, a tak se podstata vědeckého úspěchu jen velmi těžce prodává širším masám.

MuZero se naučil hrát Pac-Mana

A proto experti z DeepMindu začali vyvíjet další program, s jehož závěry se pochlubili v časopisu Nature a u sebe na blogu. Jmenuje se MuZero a vedle go a šachu zvládá také stařičké osmibitové hry od Atari včetně legendárního Pac-Mana.

Pac-Mana už snad znají všichni, a komu hra přece jen doposud unikala, si ji může zahrát přímo ve vyhledávači Google. Stačí do něj zadat slovíčko pacman.

d83e8db5-71a5-499e-8c12-0a1c2f6c54cf
Klasický Pac-Man

MuZero nepotřebuje znát pravidla. Naučí se je

Mnohem zajímavější je ale něco jiného. MuZero už k učení a následnému hraní nepotřebuje znát ani základní pravidla hry. Stačí mu jen znalost, že je na ploše nějaká figurka, se kterou lze posouvat sem a tam, no a všechny herní scénáře a jejich následky si pak už program vyzkouší sám během učení, kdy dostává miliardy obrazových framů s herní situací.

MuZero zároveň formou logických stromů dokáže předpovídat, co se ve hře stane v budoucnosti, protože hru nehodnotí jen podle aktuálního stavu (podoby pixelů), ale díky svému znalostnímu modelu – zkušenosti – může odhadnout, jakým směrem se bude hra ubírat a zareagovat na to.

2369e8dc-4835-403e-8404-41ead5d0b00a
MuZero se naučil hry od Atari, i když neznal jejich pravidla

Jedná se tedy o základní prvky abstrakce, což je naprosto klíčový pilíř pro další rozvoj A.I. Zatímco pro nás lidi je tato schopnost naprosto všední, pro vědce z oboru umělé inteligence se jedná o obrovský problém.

Člověk ovládá abstraktní myšlení. A.I. to musí zvládnout také

Programy se musejí naučit na základě zkušenosti odhadnout, jak dopadne děj nějaké situace. Autoři z DeepMindu tuto schopnost připodobňují třeba k tomu, když spatříme černý mrak na obloze. Jelikož na základě vlastní zkušenosti umíme odhadnout, že z něj asi bude pršet, vezmeme si deštník. Stejně předvídavé budou muset být v budoucnosti třeba programy, které řídí autonomní vůz.

Nebudou se moci rozhodovat jen na základě surových dat z lidarů, radarů, kamer a dalších čidel, ale budou muset předvídat, co se na základě současného stavu na vozovce a v jejím bezprostředním okolí stane třeba za pět sekund.

obrázek 007.pngobrázek 003.pngobrázek 005.png
Waymo samo vozí lidi v Pheonixu. Potřebovalo k tomu ale najezdit miliony kilometrů, což je o několik řádů více než v běžné autoškole.

Člověk je v tom velmi dobrý, protože umí přenášet zkušenost z jedné situace na druhou. A právě to je ta abstrakce. Současné A.I. technologie autopilotů si naopak musejí namodelovat všechny možné dopravní situace – musejí je zažít v reálném učení na vozovce, nebo v simulátoru. Právě proto najezdily automobily Wayma miliony kilometrů, i když člověku z masa a kostí by k získání řidičského oprávnění stačil pouhý zlomek této vzdálenosti.

Stručně řečeno, nepotřebujeme 1 000 000× spatřit všechny konstrukční typy semaforů a ze všech úhlů, abychom pochopili, že se jedná o jedno a totéž zařízení a k čemu slouží.

Díky schopnosti abstrakce a přenášení zkušenosti totiž nemusíme ve svém mozku namodelovat všechny absolutní situace na vozovce. Stačí nám jen ty základní. Ty ostatní si prostě racionálně domyslíme, protože jsme je zažili v jiných životních situacích.

Váš názor Další článek: NASA na ISS testuje nové vesty pro astronauty – měly by je chránit před kosmickým zářením

Témata článku: , , , , , , , , , , , , ,