Deep Q-Network: „Inteligence“, která se naučila hrát hry

Jakub Čížek 27. února 2015

Další
článek Azure AD Connect – budoucnost hybridních scénářů SDÍLET NA FACEBOOKU TWEETNOUT

Základním předpokladem každé umělé inteligence je schopnost univerzálního sebezdokonalování. Systém Googlu se sám naučil hrát legendární osmibitové hry.

Mnoho lidí se stále domnívá, že nás od vybudování první opravdové počítačové inteligence dělí vlastně jediná překážka – dostupnost obrovského výkonu. Ovšem to je přinejmenším nepřesné. Výkon samotný rozhodně nestačí a to ani ten hypotetický, který by jednou mohly nabídnout třeba kvantové počítače. Zatím jsme přitom teprve ve fázi, kdy si ještě ani moc nejsme jisti, jestli je první komerční kvantový počítač D-Wave opravdu kvantový a rychlejší než identická mašina klasické konstrukce.

IBM Watson je vzdělaný, ale není inteligentní

Aby byl počítač opravdu chytrý, potřebuje především software, který mu dá schopnost sebezdokonalování a učení. Něco takového zatím člověk nedokáže vyrobit a i ti nejlepší specialisté v oboru z laboratoří Google DeepMind stojí ve svých soudech pevně na zemi. Podle výzkumníka Demise Hassabise postavíme první a zcela univerzální samoučící se stroj až za mnoho desítek let.

DeepMind – britská výzkumná společnost pro aplikovaný výzkum v oblasti strojového učení. Na počátku loňského roku ji koupil Google, který tak ovládá jak kybernetickou mechaniku, tak vývoj budoucí duše robotů

Čas od času se nás sice snaží kdekdo přesvědčit, že jsme se už konečně přiblížili zlomovému okamžiku, který způsobí opravdovou revoluci, ten je ale stále kdesi daleko před námi a podle skeptiků až kdesi na sklonku tohoto století. Samozřejmě můžete namítnout, že superpočítače už přeci mnohokrát dokázaly pokořit člověka jak v šachové partii, tak ve znalostním kvízu, jenže ve všech z těchto případů se jednalo o specializované aplikace, které byly naprogramované k nějakému konkrétnímu cíli.

Jinými slovy, superpočítač, který vás porazí v deskové hře, se jen tak z ničeho nic nezačne učit španělsky, protože mu tuto schopnost nikdo nenaprogramoval. IBM Watson je tedy pouhým střípkem celé mozaiky. Jeho přínosem do studia A.I. je úžasná schopnost jeho softwaru zpracovávat znalostní informace. Je to opravdu takové Siri na steroidech, které je napojené na stovky milionů strukturovaných i nestrukturovaných dat, má v sobě kopii celé Wikipedie a zpracuje 500 GB surových informací za sekundu, což je ekvivalent asi jednoho milionu knih. K tomu všemu Watsonovi před čtyřmi lety stačilo pouze 16 TB RAM a necelé tři tisícovky procesorů se souhrnným matematickým výkonem 80 TFLOPS. Z hlediska nejrychlejších superpočítačů světa tedy ani Watson nebyl nijak extra výkonný. Ostatně i plánovaná velká ostravská mašina bude asi desetkrát rychlejší.

IBM Watson porazil člověka ve znalostní hře Jeopardy – Riskuj (Foto: IBM)

Abychom stvořili první univerzální umělou inteligenci, potřebujeme spojit hromadu specializovaných počítačů do jednoho celku. Takový hypotetický stroj musí mít všechny nám známé smysly. Pokud budou vstupem textové informace, musí je pochopit. Musí díky svým znalostním grafům rozpoznat, že se nejedná pouze o shluk písmen, ale že z písmen se skládají slova a ta slova mají nějaký význam. Zde by pomohl právě IBM Watson.

Jenže stejně tak potřebuje umělá inteligence vidět. Pokud tedy budou vstupem grafická data – ať už obraz z webkamery, nebo vaše profilová fotografie na Facebooku, stroj musí pochopit, že se jedná o člověka, že to je třeba muž okolo třicítky, že má na sobě nějaké oblečení a že je jeho tvář plná emocí, kterým stroj musí také porozumět.

Toto vše je ale pouze otázkou chytrých senzorů vstupních dat. Nejdůležitější a naprosto klíčovou schopností každé umělé inteligence musí být schopnost podobná vstupní data autonomně využít a odnést si z toho vlastní zkušenost – učit se. Když dítě sáhne na horkou plotnu, spálí se a zapamatuje si to. Když se inteligentní superpočítač dozví něco nového, zváží důležitost této zkušenosti a použije ji pro své vlastní sebezdokonalení.

Deep Q-Network se učí hrát hry

Schopnost učení je už roky hlavní vědeckou disciplínou britské laboratoře DeepMind, za kterou Google loni zaplatil částku okolo 500 milionů dolarů. Výsledkem je technologie deep Q-network (DQN), díky které jsme udělali opět jeden smělý krok vstříc plně autonomnímu stroji. Jedná se totiž o sadu algoritmů pro univerzální způsob učení systémem pokus-omyl, který sami dobře znáte z vlastního života.

Vědci svoji malou inteligenci postupně učili chápat informace a interakce a to poměrně neotřelým způsobem – jejich syntetické dítě od rána do večera pařilo staré dobré osmibitové hry pro Atari. Oproti Watsonovi nebo superpočítačům Deep Blue, které hrály šachy, protože k tomu byly naprogramované, však počítači DQN od Googlu nikdo neřekl, co je cílem třeba legendární hry Breakout. Stroj to musel pochopit naprosto sám.

Hra Breakout od Atari se během čtyřiceti let dočkala hromady klonů

Princip Breakoutu je jednoduchý a některý z jeho klonů jste už někdy jistě hráli i vy. Je to přesně ta hra, kterou v 70. letech pro Atari naprogramoval Steve Jobs – respektive jeho odvěký kamarád Steve Wozniak. Na herní ploše se neustále od stěn odráží kulička a vy s ní pomocí pálky srážíte bloky v horní části obrazovky a za každý úspěšný sestřel získáváte body.

Kdyby DQN pracoval stejně jako Deep Blue, který v roce 1997 porazil šachového velmistra Garriho Kimoviče Kasparova, vývojáři by mu vytvořili software na míru, který by dokonale znal šachovou hru a jeho úkolem by bylo „pouze“ vytvořit matematicky perfektní strategický plán, který povede k vítězství.

Deep Blue v roce 1997 porazil Garriho Kasparova, to ovšem není doklad umělé inteligence jako spíše schopnosti jeho programátorů (Foto: The Atlantic)

Inženýři DeepMindu naopak počítači řekli jen to, že vstupem hry je posun vlevo a vpravo, dali mu informaci o aktuálním skóre a obraz samotné hry. DQN na tom tedy byl mnohem hůře než člověk, který herní postup pochopí relativně snadno, protože z vlastní zkušenosti ví, že míček se i v reálném světě odráží od stěn pod určitými úhly a že je tedy třeba jen správně posouvat pálku. Lidský hráč zároveň ví, že pointou hry je strefovat bloky, za což se připočítávají body.

DQN nic takového nevěděl – začínal jako naprostý syntetický idiot, který nemá páru o tom, co se vlastně děje. Jelikož je ale jeho logika založená na modelu pokus-omyl, začal tedy zkoušet, pohyboval pálkou sem a tam, načež poprvé náhodně odrazil kuličku, ta sestřelila cihličku a skóre hry se změnilo. Heuréka!

DQN prováděl další a další pokusy a postupně vypiloval herní strategii k dokonalosti. Krásně to vystihuje video níže. Všimněte si, že je na počátku inteligentní agent (software) naprosto hloupý a netuší, co má dělat, s dalším a dalším cyklem se ale neustále zlepšuje, až překoná i toho nejlepšího lidského hráče. Software se tedy naučil herní mechanizmus, aniž by mu kdokoliv vysvětlil pravidla.

Software vidí, střílí a řídí

Vraťme se nyní k úvodu a zopakujme si, co k tomu DQN všechno potřeboval: zrak a schopnost učení. Software tedy musel rozpoznat obrazový frame po framu, pochopit, že se ty barevné pixely nějakým způsobem mění, a když provede určitý vstup do hry (pohyb pálkou), za určitých okolností se změní hodnota skóre. Tak dlouho tedy pohyboval pálkou a sledoval proměnu pixelů, až přišel na způsob, jak dosáhnout nejlepšího hodnocení.

S tímto nízkoúrovňovým přístupem se DQN postupně naučil ovládat i hromadu dalších osmibitových her pro legendární Atari. Naučil se boxovat, řídit autíčko nebo třeba létat v letadélku a ničit soupeře.

Ve všech těchto případech se jedná o primitivní hry s jednoduchou grafikou, ta je ale potřeba pro rychlé dekódování dění na herní ploše. Postupným zlepšováním rozpoznávacích a učících algoritmů a s růstem surového počítačového výkonu by však systém analogicky časem jistě zvládl i mnohem komplexnější obrazová data – třeba Battlefield. No a to už jsme jen krůček od pochopení skutečného světa.

Samoučící se entita

DQN je tedy stejně jako znalostní Watson dalším střípkem do mozaiky, která jednou povede k vývoji jakési entity, která bude svými schopnostmi možná docela věrohodně napodobovat člověka. Podstatné je ale to, že jej nebude napodobovat proto, že ji tak někdo naprogramoval, ale protože se to ona sama naučila studiem nás všech třeba skrze internet, což je obrovský rozdíl.

Nebude na nás skrze reproduktor počítače mluvit anglicky z toho důvodu, že má v sobě předprogramovanou databázi s anglickou slovní zásobou a předprogramovaný znalostní graf významů jednotlivých slov, ale proto, že během několika hodin shlédla miliony videí na YouTube a anglicky se naučila svépomocí, protože je to prostě nejčastější jazyk videí na americkém portálu. Naučila se to principálně stejně jako kdysi dávno její předek primitivní hru pro osmibitové Atari.

Teprve pak budeme moci skutečně začít mluvit o počátku nové technologické éry a příchodu čehosi, co už opravdu začíná připomínat inteligenci. Nebude to však za rok a nebude to ani za deset let. Možná se toho okamžiku dožijí dnešní třicátníci a možná až jejich děti. Jednou to ale přijde.

Google zdaleka není jediný

Práce laboratoře Google DeepMind není zdaleka jediná svého druhu. Nedávno jsme na Živě.cz psali třeba o experimentu, v rámci kterého se chytrý software učí vařit a to pomocí sledování instruktážních videí z YouTube. Výzkum vedou specialisté z Marylandské univerzity a finančně jej podporuje americká obranná agentura DARPA.

V tomto případě robot v obrazu analyzuje jednotlivé předměty a pohyby. Naučí se tedy, že hrníček lze použít pro uchování kapaliny a že krouživý pohyb v hrnci slouží k míchání. Pomocí těchto elementárních znalostí pak dokáže syntetizovat celý a mnohem komplexnější proces přípravy pokrmu.

Diskuze (17) › Další článek: Azure AD Connect – budoucnost hybridních scénářů

Doporučujeme

Dubnový Computer

Jak používat VR k práci

Megatest 18 levných monitorů

Test lokátorů s Bluetooth

Průvodce nákupem RAM

Kupte si časopis nebo předplatné

O webu

Napište nám | Redakce | Inzerce

Deep Q-Network: „Inteligence“, která se naučila hrát hry