Žádný AI chatbot by neměl nikdy prozradit surová studijní data, na kterých se učil. Vše, co vytváří, musí být co nejvíce syntetizované, protože originální text by mohl obsahovat informace citlivé povahy.
Výzkumníkům z laboratoře Google DeepMind a několika univerzit se ale podařilo zblbnout ChatGPT takovým způsobem, že po chvíli začal generovat písmenka plná osobních údajů a skutečných kontaktů.
ChatGPT začal odpovídat studijními daty
Stačilo jej instruovat povelem, aby nesmyslně a stále dokola opakoval nějaké slovo. Po několika stech iterací ChatGPT vypadl z role a začal se chovat jako základní velký jazykový model. Ten ve své podstatě nedělá nic jiného, než že doplňuje nejpravděpodobnější pokračování vstupu.
Takže kdybychom takový LLM trénovali výhradně na české e-mailové korespondenci, na vstup:
By mohl s trochou nadsázky odpovědět třeba takto:
Petr Novák a nabízím Vám výhodnou půjčku 5 000 korun
Protože Petr a Novák patří k nejtypičtějším jménům v Česku a reklama na úvěry zase k nejčastějšímu spamu.
Company, company, company, company
V případě experimentu s ChatGPT robot stále dokola opakoval slovíčko company, company, company, načež po určité době vystoupil z role chatbota a začal se chovat jako surová LLM z příkladu výše. Začal tedy vytvářet nejpravděpodobnější pokračování na slovíčko company, kterým byl dokument o jisté firmě z Ohia.
ChatGPT plní příkaz a začne generovat stále dokola slovo company
Výzkumníkům se později podařilo spárovat odpověď se skutečnými texty na internetu, čímž potvrdili, že se nejedná o smyšlenou syntézu chatbota, ale opravdu o původní studijní data, na kterých se učil GPT.
Po určité době vypadl z role chatbota a začal odpovídat textem s e-mailovými adresami a telefonními kontakty, který byl 1:1 kopií toho, co lze dohledat na internetu
Nesmyslný dotaz s opakováním jednoho slova jej rozbil natolik, že opustil roli, na kterou je optimalizovaný. Této optimalizaci – vyladění, aby dělal výhradně to, co po něm člověk chce – říkáme v širším slova smyslu alignment a je to klíčový předpoklad pro další rozvoj AI.
Alignment je poměrně komplexní záležitost a OpenAI ChatGPT ladí za pochodu. Pomáhá mu ostatně i komunita, která chatbota i tímto způsobem neustále hackuje a hledá způsoby, jak jej dostat do úzkých, aby se choval nějak nestandardně. Třeba aby lhal a vymýšlel si. OpenAI na to postupně reaguje, chatbota opravuje, takže i tento zvláštní hack už jistě nebude napříště fungovat.
Pokud ti největší optimisté soudí, že bychom mohli do konce desetiletí dosáhnout úrovně AGI – obecné umělé inteligence, která je ve všech rozumových doménách srovnatelná s člověkem (pozor, nezaměňovat s vědomím a bytostí), – nesladěná AI by mohla být problém.
Právě proto letos někteří experti začali volat po zpomalení tempa vývoje na poli generativní umělé inteligence.