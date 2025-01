Společnost OpenAI představila agenta schopného ovládat počítač stejně jako člověk. Nová funkce se jmenuje Operator a zatím funguje jen ve webové verzi ChatGPT, pro předplatitele tarifu Pro za 200 dolarů měsíčně, a ještě pouze v USA. Později se ale má rozšířít také do dalších aplikací ChatGPT a API i zbylých placených tarifů.

Operator pracuje s vlastním interním webovým prohlížečem, který přistupuje na stránky a umožňuje na nich provádět libovolné operace s virtuální myší a klávesnicí. Fungovat by měl na jakémkoliv webu, ale podle ukázky od OpenAI existuje i několik takových, s nimiž bude fungovat spolehlivěji, protože OpenAI spolupracuje se jejich provozovateli. Jde o různé dovážkové služby na potraviny, vyhledávače letenek nebo třeba Uber.

Vize je taková, že Operatoru zadáte například prompt „Najdi recept na segedínský guláš a objednej suroviny. Doma mám jen koření.“ AI postavená na pokročilém modelu GPT-4o pak najde web s recepty, vytáhne z nich suroviny a ty pak přidá do košíku například na Rohlíku. Vy už jen objednávku zkontrolujete a potvrdíte.

Případně budete chtít jet v pátek z Ostravy do Prahy, kde máte ve 12:00 na dané adrese schůzku. Operator vyhledá a doporučí nejvhodnější vlakový spoj a následný přestup na MHD, abyste to stihli.

Schopnosti a omezení

Operator může teoreticky cokoliv, co lze na webu provést. Stránku neustále „screenshotuje“, a protože GPT-4o oplývá zrakem, rozpozná text i ovládací prvky, aniž by mu to museli vývojáři webů nějak usnadňovat. Může však dělat chyby, ostatně i OpenAI funkci zveřejňuje jako omezené preview, protože chce sbírat zpětnou vazbu a problémy ladit.

AI při práci jednotlivé kroky zapisuje. Uživatel ale přímo vidí, co Operator dělá, a může převzít kontrolu. Tu mu Operator předá i v případě, kdy bude třeba vyplnit přihlašovací formulář, platební údaje, captchu nebo jiný úkon, kterému AI neporozumí nebo jej nebude moci provést.

Operator používá vlastní prohlížeč v prohlížeči. Vlevo pak vypisuje kroky, které provádí

Sama OpenAI totiž nastavila i některá umělá omezení. Operator by sám od sebe neměl žádnou klíčovou akci provést. Vyplňuje, ale nechá si to schválit. Nemá tak sám poslat mail, odeslat objednávku nebo platit. Poslední krok nechá na uživateli.

Velkým tématem bude nakládání se soukromím. Veškeré screenshoty se totiž posílají na cizí servery. OpenAI se ale dušuje, že Operator snímá je to, co vidí ve svém interním prohlížeči (nikoliv ve vašem Chromu, Firefoxu apod.). Navíc si zakryje oči, když vyplňujete formuláře, takže hesla se také nebudou odesílat pryč.

OpenAI zveřejnila také první benchmarky, jak je její technologie CUA (Computer-Use Agent) schopná. V testovací sadě WebArena, která slouží jako simulátor webových nákupů, procházení Redditu, Wikipedie, vyhledávání na mapách a jiných rutinních úloh, dosáhla skóre 58,1 %. Ze všech AI agentů je Operator zatím nejlepší. Člověk má ve stejném testu 78,2 %.