Ještě před uvedením GPT-5 jsme informovali o novince Google, modelu Genie 3 (Generative Interactive Environments), který na základě textového příkazu negeneruje jen obrázek či video, ale kompletní interaktivní 3D svět – prostor, ve kterém se můžete volně hýbat a interagovat s ním. Zatímco GPT-5 aktuálně přitahuje hlavní mediální pozornost, Genie 3 může mít na budoucnost AI výraznější vliv.
Genie aktuálně generuje obraz v rozlišení 720p s 24 snímky za sekundu a umožňuje interakci v délce několika minut, což je výrazný posun oproti předchozí verzi. Model má prostorovou paměť – objekty ve vygenerovaném světě zůstávají na svém místě, i když se na ně zrovna nedíváte. Například můžete obejít dům a za ním najdete strom, jehož špičku jste dříve viděli v dálce. Když se vrátíte, všechno bude tak, jako když jste odcházeli.
Do světa můžete přidávat i události, například nechat projet muže na vodním skútru, nebo něco namalovat zeď.
Co je však nejdůležitější, systém negeneruje jen pohyblivé interaktivní video. Vytváří plnohodnotný virtuální svět s vlastními fyzikálními pravidly. Model byl trénován na videích z reálného světa, aby pochopil, jak se věci ve světě hýbou, chovají a navzájem na sebe působí.
Genie 3 je zatím jen výzkumný projekt a není dostupný pro veřejnost. Google jej zpřístupnil jen úzké skupině vědců a umělců.
Oficiální demo od Google DeepMind ukazuje, co Genie 3 dokáže:
O krok blíže k AGI
Generování virtuálních světů je považováno za jeden z důležitých kroků na cestě k všeobecné umělé inteligence (AGI). Jazykové modely se učí vzorce z obrovského množství textu, ale má se za to, že pro dosažení AGI to ani s tím nejvýkonnějším modelem nemusí stačit. Je předpoklad, že plnohodnotná AGI bude muset chápat svět, předvídat, co se stane po provedení určité akce a plánovat dopředu na základě těchto poznatků.
To by mohla dokázat tak, že si vytvoří vnitřní model reality právě tak, jak se o to snaží modely jako Genie – neučí se jen slova, ale zkouší pochopit základy fyziky, stálost objektů a logiku příčiny a následku. Je to přístup, který se více podobá tomu, jak se učí zvířata a lidé: pozorováním a interakcí s prostředím.
Tento pohled sdílí i tým Google DeepMind: „Modely, které simulují svět, jsou klíčovým krokem na cestě k AGI, protože umožňují trénovat agenty umělé inteligence v neomezeném učebním plánu bohatých simulačních prostředí.“
Schopnost vytvořit si vlastní tréninkové hřiště, kde se AI může učit metodou pokus-omyl bez rizik reálného světa, je podle nich mnohem efektivnější než jen pasivní zpracování informací.
Co je AGI
Umělá všeobecná inteligence (AGI) je hypotetická forma umělé inteligence, která by měla intelektuální schopnosti po všech stránkách srovnatelné s člověkem. Na rozdíl od dnešní „úzké“ AI, která je specializovaná na jeden úkol (např. překlad textu nebo hraní šachu), AGI by dokázala chápat, učit se a aplikovat své znalosti k řešení širokého spektra problémů, podobně jako člověk. AGI je dnes považována za svatý grál výzkumu AI.
Osobní Matrix?
Přístup, který naznačuje Genie 3, v praxi otevírá ohromné spektrum možností. Už zanedlouho by to mohlo přinést revoluci pro herní průmysl. Představte si, že si hru nejen zahrajete, ale vytvoříte si ji podle vlastního zadání.
- Napíšete pouze: „Chci detektivku ve stylu noir v deštivém New Yorku 40. let.“ Počítač vám vygeneruje svět, ve kterém můžete okamžitě začít řešit detektivní případy.
- Chcete se projet na koni? Napíšete textový prompt a najednou sedíte na koni a jezdíte po dostihové trati.
- Nebo napište, že chcete letět vrtulníkem nad džunglí, a najednou sedíte v kokpitu a létáte nad bujnou vegetací.
I tohle však může být jen začátek. Popustíme-li uzdu představivosti, v technologiích jako Genie 3 můžeme vidět základ pro jakýsi osobní Matrix každého uživatele. Tyto modely by mohly vytvářet zážitky blízké a nakonec až nerozeznatelné od reality. Pro ty blízké budou stačit VR brýle, pro ty pokročilejší už by to patrně chtělo přímé napojení na nervovou soustavu – něco jako pokročilý Muskův Neuralink.
Genie nemodeluje pouze konkrétní scénu, ale celý virtuální svět s objekty, fyzikou a vzájemnými interakcemi. Představte si, že v těchto světech kromě vás budou také počítačové postavy řízené jazykovými modely, s povahou a vlastnostmi, jaké si nastavíte.
Chcete být král? Vytvoříte si palác a služebnictvo. Je to málo? Co takhle vygenerovat vlastní planetu i s bytostmi podle svých představ?
No a když už jsme u Matrixu, stále populárnější je takzvaná teorie simulace. Říká, že pokud lidstvo jednou dokáže vytvořit virtuální světy k nerozeznání od reality, je velmi pravděpodobné, že i nějaká jiná entita před námi to už udělala. V takovém případě by i naše vlastní realita byla pravděpodobně jen simulací. Jinými slovy, každý náš pokrok v tvorbě simulovaných světů je zároveň argumentem ve prospěch této teorie. Inu, Googlu se to právě – ve velmi zjednodušené podobě – podařilo.
Praktické využití už dnes
Vraťme se ale nohama pevně na zem. Genie 3 je nejen vizí toho, co by jednou mohlo být. Nabízí také využití v průmyslu a vědě. Pokud dnes například chcete trénovat autonomní auto nebo robota, potřebujete pracně testovat v reálném světě, nebo sestavit tým inženýrů, kteří postaví komplexní simulátor.
S technologií jako Genie 3 si budete moci snadno vygenerovat tisíce různých virtuálních prostředí a okrajových scénářů (např. jízda ve sněhové bouři v neznámém městě nebo let dronu hustým lesem či městskou zástavbou) a trénovat AI v nich – rychle, levně a bezpečně. Toto je obzvláště důležité pro trénování ve vzácných, specifických podmínkách, které se v reálném světě obtížně replikují.
Uplynulé dny ukázaly dva hlavní směry, kterými se AI ubírá. Na jedné straně máme stále výkonnější jazykové modely, které posouvají hranice již zažitých schopností. Na druhé straně jsou zde modely jako Genie 3, které se snaží o zcela novou, fundamentálnější schopnost – pochopit a simulovat svět. A přestože dnes titulky patří chatbotům, právě tato druhá cesta může v konečném důsledku změnit náš svět ještě mnohem víc.