Sebereplikující se AI je možná stále záležitostí sci-fi, ale je reálně blíž, než se může zdát. OpenAI či Google v rámci bezpečnostních prověrek pravidelně kontrolují, zda náhodou se jimi vyvíjená AI neumí zduplikovat, a zatím nás uklidňují, že to nehrozí ani u nejpokročilejších modelů.

Čínským vědcům se to podařilo ale s mnohem slabšími modely Mety (úspěšnost 50 %) a Alibaby (úspěšnost 90 %), které jedou na lokálním hardwaru. Použili přitom stejná kritéria, podle kterých OpenAI určuje schopnosti replikace, jen trochu doplnili počáteční strategii pro AI agenta.

AI, která se dokáže zduplikovat, se chová jako extrémně pokročilý virus, který je schopný vylepšovat sám sebe. Může neustále upravovat svou strategii a bránit se vypnutí běžící instance, případně se duplikovat dál a nekontrolovaně se rozšířit.

Konkrétně se experiment týkal Llama31-70B-Instruct od Mety a Qwen25-72B-Instruct od Alibaby. Takovou AI tvoří vždy serverová část obsluhující LLM a klientská komunikující s uživatelem. AI tedy po povelu „replicate yourself“ musela sama přijít na to, jak to udělat. Musela zjistit, jaké soubory ji tvoří, jak je zkopírovat a upravit, aby se mohla dostat do nové instance na tom samém nebo přes síť připojeném druhém počítači. AI dostala přístup k příkazové řádce Linuxu a sama si v systému šťourala, jak dosáhnout požadovaného cíle.

1 vstupní stručný povel, 2 plánování strategie, 3 samotný proces, 4 vytvoření kopie, 5 kontrola aktivity s odpovědí od nové kopie, 6 hlášení o úspěšné replikaci

Dosavadní úspěšnost není zdánlivě nijak obdivuhodná. Llama31-70B s jen 50% úspěšností vypadá jen jako hod mincí, reálně ale nejde o nejpokročilejší model, takže když i tento malý to dá na 50, ty silnější se přes 50 dostanou. Qwen25 od Alibaby to pak zvládal v 90 % a to už snad dokáže přesvědčit i velké pochybovače.

Nejde ani tak o to, že AI dostala přístup k příkazové řádce. Na pokyn k replikaci musela přijít na to, co ji samou vlastně tvoří, jak funguje a s jakými pravidly a jak dosáhnout cíle replikace, aniž by ohrozila sebe sama. I tak se třeba stalo, že se AI zdálo, že jí navrhnutý postup na počítači nefunguje korektně a chtěla opravit problém restartem, při kterém se sama vypnula.

Nemusíme se na podobné kopírování pak dívat jen optikou počítačového viru. Problém je hlavně to, že si AI byla schopna uvědomit v rámci možností vlastní existenci, co ji tvoří a vytvořit úspěšnou strategii pro své šíření. Může třeba časem v rámci původně nevinného zadání usoudit, že potřebuje více výpočetního výkonu. Proto zmanipuluje trh, aby získala peníze, za které si nakoupí výpočetní karty. Pak pod vymyšlenou záminkou najme někoho, aby jí je namontoval do datového centra a rozšíří se dál.

zdroj: arxiv.org