Našim čtenářům jistě nemusíme představovat střílečku Doom z roku 1993. Na Živě jste si už mohli přečíst několik článků o tom, jak se tuto legendární hru podařilo spustit na sekačce na trávu, na displeji ze střevních bakterií, na žárovce, fotoaparátu či kalkulačce.
Adrian de Wynter, který působí jako vědecký pracovník na University of York, vyvinul metodu, která testuje, zda se schopnosti GPT-4 v oblasti uvažování a plánování dají aplikovat na střílečku. Ukázalo se, že bot poháněný kombinací umělých inteligencí dokáže hru hrát na přijatelné úrovni, včetně otevírání dveří, boje s nepřáteli a navigace v prostoru.
Umělá inteligence hraje Dooma
GPT-4 je velký jazykový model (LLM), což mimo jiné znamená, že sám o sobě neumí spustit kód hry Doom. De Wynter proto použil variantu GPT-4 with Vision (neboli GPT-4V), která dokáže jako vstupní data přijímat a zpracovávat obrázky (v tomto případě snímky obrazovky) a texty a jako odpověď na ně vracet text, který je převáděn na stisky kláves. Model činí rozhodnutí na základě vizuálních vstupů a předchozí historie.
Ačkoli GPT-4V zpracovává obrázky v nativním rozlišení, tj. 640 × 400 obrazových bodů, je celý proces poměrně pomalý. Umělá inteligence trpí při hraní Dooma i dalšími problémy – například zapomíná na protivníky v okamžiku, kdy se ztratí z dohledu.
Samotný de Wynter se pozastavuje nad etickými důsledky. Za znepokojující považuje zejména skutečnost, jak snadné pro něj bylo vytvořit kód, jehož výsledkem byla střelba (byť jen virtuální). S určitými obavami poukazuje na skutečnost, že umělá inteligence se „s radostí“ řídila pokyny pro střelbu na terče, aniž by se na cokoli ptala.
Vědec se také snažil přijít na to, jakým způsobem umělá inteligence hru vlastně hrála. Požádal ji tedy, aby vysvětlila své jednání, které bylo obecně správné. Její vysvětlení však byla nedostatečná a často obsahovala halucinace (neboli nesprávné informace). Bylo zcela zřejmé, že model si vůbec není vědom toho, co dělá.
Schopnosti velkého jazykového modelu
De Wynter nicméně považuje za pozoruhodné, že GPT-4 je schopen hrát Doom bez předchozího tréninku. „Prokázali jsme, že schopnost GPT-4 uvažovat a plánovat se vztahuje i na střílečku z pohledu první osoby Doom z roku 1993. Tento velký jazykový model (LLM) je schopen spustit a hrát hru pouze s několika instrukcemi a textovým popisem.“ uvedl.
Experiment poukazuje na schopnost modelu GPT-4 učit se a adaptovat na specifické úkoly, což otevírá dveře k dalším aplikacím umělé inteligence v oblasti videoher a simulací. Výzkum rovněž nastoluje otázky ohledně etických aspektů využití AI v komplexních interaktivních systémech.
Adrian de Wynter zveřejnil výsledky své práce na webu ArXiv.org. Jedná se o server, kde vědci publikují své práce před oficiálním recenzním řízením v odborných časopisech. Na ArXiv může publikovat každý, kdo je vědeckým pracovníkem nebo doktorandem a jeho práce je relevantní pro dané obory.
Studie a články publikované na platformě ArXiv.org nejsou před zveřejněním recenzovány. Procházejí pouze přezkumem, který má za cíl ověřit, zda jsou v souladu s akademickými standardy a jestli se jedná o seriózní příspěvky do daného vědního oboru. Tento přístup usnadňuje rychlé a široké rozšíření nově získaných poznatků a vědeckých objevů.