Anthropic se před týdnem pochlubil novou verzí AI Claude a technologií pro vývojáře Computer use, která dokáže ovládat počítač. Během několika následujících hodin se objevil celý zástup komunitních aplikací, které ji zpřístupní (relativně) normálnímu smrtelníkovi.
Na podobných schopnostech, jenž by dokázaly osvobodit umělou inteligenci z relativně uzavřené ulity běžných chatbotů, samozřejmě pracují i další hráči na scéně. Podle The Information není výjimkou ani Google, který nové technologii neformálně říká Project Jarvis.
Stejně jako v komiksové sérii od Marvelu by to měl být AI agent, který bude moci konečně vykonávat i nějaké praktické akce na webu – třeba vám objedná pizzu. Podle The Information Jarvis staví na nové a zatím neveřejné verzi velkého jazykového modelu Gemini, který se učil ovládat webový prohlížeč Chrome.
Podobné pokusy tu už byly, tentokrát je to ale jiné
Podobné pokusy automatizace tu sice byly už dříve, zpravidla se ale jednalo jen o pevné napojení na konkrétního poskytovatele služby. Takový přístup ale nemůže fungovat v globálním měřítku, uživateli z Prahy je totiž prakticky k ničemu, že si může objednat dovážku večere skrze službu, která funguje kdesi v Kalifornii, ale nikde jinde.

Zatím to nefunguje, ale mohlo by. Jednou...
Pokud by však chatbot dokázal podobné operace provádět stejně univerzálně jako člověk, který prostě do vyhledávače vyťuká „rozvoz pizzy,“ a pomocí analýzy obrazu bude sledovat, co se děje, Jarvis by mohl v principu fungovat nejen v Mountain View, ale i v Ústí nad Labem.
Další krůček na cestě k AGI
Schopnost aktivně řešit úkoly na webu a počítači mnozí považují za další velký krok na cestě k AGI – univerzální umělé inteligenci, která by konečně mohla sloužit mnohem širšímu spektru uživatelů než současní chatboti.
Ti jsou totiž skvělými pomocníky programátorů, kreativců, analytiků, marketérů a dalších kancelářských profesí, pak je tu nicméně ještě pár miliard ostatních, kteří nic z toho nepotřebují a ocenili by spíše tu pizzu za dveřmi.

AI agenti nesmějí za žádných okolností chybovat. Těžko ale říci, jestli je to při současné technologii velkých jazykových modelů vůbec možné. Schopnost „vymýšlet si“ je totiž základem jejich kreativity
Zároveň však platí, že taková technologie musí fungovat na 99,99998 %. Současní chatboti stále chybují a vymýšlejí si, protože jednoduše neví, že něco neví. Leckoho by pak možná nemile překvapilo, kdyby jim Jarvis namísto pizzy objednal nový kombajn.