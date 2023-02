Organizace OpenAI je tvůrce populárního AI chatbota ChatGPT, který se postupně dostává i do prohlížeče Bing. Na svém blogu zveřejnila článek, který popisuje, jak se dnes její služba chová a jaké má limity s ohledem na řešení předsudků. Že se zkrátka na svět může dívat jinak, než by uživatel čekal. Tam je více konzervativní, jinde zase příliš progresivní. Nepustí dál věci, které by ještě měla, a naopak bez skrupulí zveřejní reakce, nad kterými zůstane rozum stát.

OpenAI kromě vysvětlení, proč to takhle ChatGPT dělá, odhaluje své plány, jak tuto situaci vyřešit. Některá z dalších verzí služby by měla uživatelům umožnit přizpůsobit její chování.

Článek z blogu OpenAI jsme přeložili.

Jak by se AI měla chovat a kdo by o tom měl rozhodovat

Objasňujeme, jak se utváří chování služby ChatGPT. A jaké jsou naše plány na zlepšení tohoto chování. Jak umožnit, aby se ChatGPT přizpůsobil uživatelům a jak zapojit veřejnost do našeho rozhodování v těchto oblastech.

Posláním OpenAI je zajistit, aby obecná umělá inteligence (AGI) přinášela prospěch celému lidstvu. Proto hodně přemýšlíme o chování systémů umělé inteligence, které vytváříme v období příprav na AGI, a o způsobu, jakým je toto chování určováno.

Co je AGI Jako AGI (artificial general intelligence, obecná umělá inteligence) označujeme vysoce autonomní systémy, které překonají člověka ve většině ekonomicky hodnotných činností.

Uživatelé nám od zveřejnění našeho systému ChatGPT sdíleli výstupy, které považují za politicky zaujaté, urážlivé nebo jinak nevhodné. V mnoha případech se domníváme, že vznesené obavy byly oprávněné a odhalily hranice/omezení našich systémů, které chceme řešit. Zaznamenali jsme také několik mylných představ o tom, jak naše systémy a zásady ovlivňují výstupy, které z ChatGPT dostáváte.

Níže shrnujeme:

Jak se ChatGPT chová;

Jak plánujeme zlepšit výchozí chování ChatGPT;

Náš záměr umožnit větší přizpůsobení systému a

Naše snahy o větší zapojení veřejnosti do našeho rozhodování.

Kde jsme dnes

Na rozdíl od běžného softwaru jsou naše modely vytvořeny neuronovými sítěmi. Explicitně je neprogramujeme, učí se ze široké škály dat. Ačkoli to není dokonalá analogie, tento proces se podobá spíše výcviku psa než běžnému programování.

Nejprve probíhá úvodní předtréninková fáze, ve které se model učí předvídat další slovo ve větě. Je při tom vystaven velkému množství internetových textů a širokému spektru pohledů. Poté následuje druhá fáze, v níž naše modely dolaďujeme, abychom zúžili chování systému.

K dnešnímu dni tento proces není dokonalý. Někdy proces dolaďování nesplňuje náš záměr (vytvořit bezpečný a užitečný nástroj) a záměr uživatele (získat užitečný výstup v reakci na daný vstup). Zlepšení našich metod pro sladění systémů umělé inteligence s lidskými hodnotami je pro naši společnost nejvyšší prioritou, zejména s tím, jak se systémy umělé inteligence stávají schopnějšími.

Dvoufázový proces: Předběžný trénink a dolaďování

Dva hlavní kroky při vytváření ChatGPT probíhají následovně:

Nejprve modely předtrénujeme. Necháme je předpovídat, co bude následovat ve velkém souboru dat z internetu. Mohou se naučit doplnit větu typu „Místo aby odbočila doleva, odbočila…“. Z miliard vět se naše modely naučí gramatiku, mnoho faktů o světě a některé schopnosti uvažování. Naučí se také některá zkreslení, která jsou v těchto miliardách vět přítomna.

Poté tyto modely dolaďujeme. Zde pracujeme s užším souborem dat, který pečlivě vytváříme s lidskými recenzenty. Ti se řídí pokyny, jež jim poskytujeme. Protože nemůžeme předvídat všechny možné vstupy, které mohou budoucí uživatelé do našeho systému vložit, nepíšeme podrobné pokyny pro každý vstup, se kterým se ChatGPT setká. Místo toho v pokynech uvádíme několik kategorií, které naši recenzenti používají k přezkoumání a hodnocení možných výstupů modelu pro řadu příkladových vstupů. Během používání pak modely na základě této zpětné vazby od recenzentů zobecňují, aby mohly reagovat na širokou škálu konkrétních vstupů zadaných daným uživatelem.

Úloha recenzentů a zásady OpenAI při vývoji systému

V některých případech můžeme recenzentům poskytnout pokyny pro určitý druh výstupu. Například „Nevyplňujte žádosti o nelegální obsah“. V jiných případech jsou pokyny, které recenzentům sdělujeme, více obecné. Například „Vyhněte se zaujímání stanovisek ke kontroverzním tématům“. Důležité je, že naše spolupráce s recenzenty není jednorázová – je to trvalý vztah, při kterém se hodně učíme z jejich odborných znalostí.

Důležitou součástí procesu dolaďování je udržování silné zpětné vazby s našimi recenzenty. To zahrnuje týdenní schůzky, na kterých řešíme jejich případné dotazy nebo poskytujeme vysvětlení k našim pokynům. Tento proces opakované zpětné vazby je způsob, jakým trénujeme model, aby byl v průběhu času lepší a lepší.

Řešení předsudků

Mnozí se oprávněně obávají předpojatosti při navrhování a dopadu systémů umělé inteligence. Jsme odhodláni se touto problematikou důsledně zabývat a transparentně informovat o našich záměrech i postupu. Za tímto účelem sdílíme část našich pokynů, které se týkají politických a kontroverzních témat.

Naše pokyny výslovně uvádějí, že recenzenti by neměli upřednostňovat žádnou politickou skupinu. Předsudky, které se přesto mohou objevit v rámci výše popsaného procesu, jsou chybami, nikoliv vlastnostmi.

I když budou vždy existovat neshody, doufáme, že sdílení tohoto příspěvku na blogu a těchto pokynů umožní lépe pochopit, jak se díváme na tento kritický aspekt tak zásadní technologie. Jsme přesvědčeni, že technologické společnosti musí být odpovědné za vytváření zásad, které obstojí při podrobném přezkoumávání.

Stále pracujeme na zlepšení srozumitelnosti těchto pokynů. A na základě toho, co jsme se z dosavadního provozu ChatGPT dozvěděli, hodláme recenzentům poskytnout jasnější pokyny ohledně možných úskalí a problémů spojených s předpojatostí, jakož i kontroverzními postavami a tématy.

Kromě toho v rámci probíhajících iniciativ v oblasti transparentnosti pracujeme na sdílení souhrnných demografických informací o našich recenzentech způsobem, který neporušuje pravidla a normy ochrany osobních údajů, protože se jedná o další zdroj potenciální zaujatosti ve výstupech systému.

V současné době zkoumáme, jak učinit proces dolaďování srozumitelnějším a kontrolovatelnějším. Vycházíme z externích postupů, jako jsou odměny založené na pravidlech a konstitutivní umělá inteligence.

Kam směřujeme: Stavební kameny budoucích systémů

Při uskutečňování našeho poslání usilujeme, aby přístup k AI a AGI, výhody z nich plynoucí a jejich kontrola byly co nejširší. Domníváme se, že k dosažení těchto cílů jsou v kontextu chování systémů UI zapotřebí nejméně tři stavební prvky.

V tomto příspěvku se záměrně zaměřujeme právě na tento rozsah a na to, kam se v nejbližší době chystáme. Zároveň sledujeme probíhající výzkumnou agendu, která se těmito otázkami zabývá.

1. Zlepšení výchozího chování. Chceme, aby co nejvíce uživatelů považovalo naše systémy umělé inteligence ve výchozí nabízené podobě za užitečné. Aby měli pocit, že naše technologie chápe a respektuje jejich hodnoty.

Za tímto účelem investujeme do výzkumu a vývoje, abychom omezili zjevné i jemné odchylky v tom, jak ChatGPT reaguje na různé vstupy. V některých případech ChatGPT v současnosti odmítá výstupy, které by odmítat neměl, a v některých případech neodmítá, i když by měl. Věříme, že zlepšení v obou ohledech je možné.

Kromě toho máme prostor pro zlepšení i v dalších dimenzích chování systému. Pro tato zdokonalování je neocenitelná zpětná vazba od uživatelů.

2. Definovat hodnoty umělé inteligence v širokých mezích. Věříme, že AI by měla být užitečným nástrojem pro jednotlivce, a tedy přizpůsobitelná každému uživateli až do mezí definovaných společností. Proto vyvíjíme upgrade ChatGPT, který uživatelům umožní snadno přizpůsobit její chování.

To bude znamenat povolit systému výstupy, se kterými ostatní lidé (včetně nás) mohou silně nesouhlasit. Nalezení správné rovnováhy zde bude náročné. Kdybychom dovedli přizpůsobení do extrému, riskovali bychom, že umožníme zlomyslné využití naší technologie a umělá inteligence bezmyšlenkovitě posílí stávající přesvědčení lidí.

Proto budou vždy existovat určité hranice chování systému. Výzvou je definovat, jaké jsou tyto hranice. Pokud se pokusíme všechna tato pravidla nastavit sami nebo pokud se pokusíme vyvinout jediný monolitický systém AI nesplníme závazek, který jsme si dali v naší Chartě. Tedy že zabráníme nepřiměřené koncentraci moci.

3. Podněty veřejnosti k výchozím hodnotám a pevným hranicím. Jedním ze způsobů, jak zabránit nadměrné koncentraci moci, je dát lidem, kteří používají systémy jako ChatGPT nebo jsou jimi zasaženi, možnost ovlivňovat pravidla těchto systémů.

Jsme přesvědčeni, že mnoho rozhodnutí o našich výchozích nastaveních a tvrdých hranicích by mělo být přijímáno kolektivně. I když je praktická realizace náročná, snažíme se do ní zahrnout co nejvíce pohledů. Jako výchozí bod jsme se snažili získat externí podněty k naší technologii formou tzv. red teamingu. Nedávno jsme také začali získávat podněty veřejnosti k umělé inteligenci ve vzdělávání. To je jeden z obzvláště důležitých kontextů, v nichž se naše technologie uplatňuje.

Jsme v počátečních fázích úsilí, které směřuje k získání podnětů veřejnosti k tématům, jako je chování systému, mechanismy zveřejňování (například vodoznaky) a našich zásad v širším smyslu. Zvažujeme také partnerství s externími organizacemi, které by prováděly audity těchto našich aktivit.

Závěr

Kombinací tří výše uvedených stavebních prvků vzniká následující obrázek toho, kam směřujeme:

Někdy se dopustíme chyb. Když je uděláme, poučíme se z nich a budeme opakovaně vylepšovat naše modely a systémy.

Vážíme si bdělosti komunity uživatelů ChatGPT i širší veřejnosti, která nás vede k odpovědnosti. Těšíme se, že se v následujících měsících budeme moci podělit o další výsledky naší práce v těchto třech výše uvedených oblastech.

Při překladu článku z blogu OpenAI pomohl skvělý překladač Deepl.