Když se před dvěma lety objevil GPT 3.5, nebylo pochyb o tom, který chatbot je nejlepší na světě. Za tu dobu se velkých jazykových modelů objevily stovky a přibyly multimodální modely.
Co se ovšem nezměnilo, jsou benchmarky, které jen málo odrážejí využití AI v reálném světě. S řešením přišla LMSYS Chatbot Arena (lmarena.ai) – začala se ptát lidí.

Rozhraní je jednoduché. Hledáte nejlepší modely na programování? Stačí si vybrat kategorii.
Lidé soudí stroje
Když navštívíte web arény, dostanete varování, že zde nasazené modely mohou generovat závadný obsah a že vaši interakci se stroji bude hodnotit i personál arény a část mohou dostat i autoři modelů. Rozhodně se tedy nedoporučuje vkládat osobní či jinak hodnotné informace.

Důrazné upozornění, že nemáte vkládat osobní informace.
V módu battle se o vaši přízeň poperou vždy dva chatboti – nemůžete si je vybrat a vlastně ani nevidíte, kteří to jsou. Dozvíte se to až po hlasování. Odpovědi na prompt od obou modelů vidíte generované v reálném čase. Kromě faktické správnosti odpovědi můžete vzít v potaz i rychlost nebo délku odpovědi.
Záleží jen na vás, ze které odpovědi budete mít lepší pocit. Jako uživatelé máme při hodnocení modelů čtyři volby: levý chatbot odpověděl dobře, pravý dobře, remíza a oba odpověděli špatně. Po výběru preferované odpovědi se dozvíte, o jaké modely šlo.

Dokud nevybereme výsledek, tak nevíme, s jakým modelem si povídáme. O jméno modelu si můžete říct, ale takové interakce budou z výsledků vyřazeny.
Anonymita celého procesu až do vyhodnocení se využívá i jinak než jen pro fair play. V bitvě na aréně můžete narazit na modely, které mají vyjít třeba až za měsíc a déle. Takto byl testovaný Grok 2 i obě velikosti GPT-4o. Jen pozor: pokud budete zvědaví a šikovným promptem docílíte prozrazení jména modelu před vyhodnocením, nebude vaše hodnocení započítáno.
Vlastní výběr modelů
Aréna nabízí i klasičtější přístup k testování – nechá vás zvolit konkrétní modely, které můžete zkoušet. Rozhraní je stejné jako u anonymního, liší se pouze roletkou na výběr modelů nad poli pro generování odpovědí.
Nedávno byla do arény přidána možnost nahrávat jako prompt obrázky. Použít můžete vlastní, nebo si nějaký necháte vygenerovat tlačítkem vedle pole na prompt. Ne všechny modely nasazené v aréně jsou ale multimodální a ty jazykové při použití obrázku vyhodí chybu. Jak modely reagují na obrázky, testuji jen v druhém módu, ve kterém si vybírám modely (anonymní režim na obrázky vrací víc chyb než odpovědí).

Když použijeme na vstupu obrázek a vybraný model obrázky nepodporuje hodí to chybu až při odeslání promptu
Třetí možnost je ptát je jen jednoho modelu podle konkrétního výběru.
Žebříčky
Výsledková tabulka arény může budit podezření, že není něco v pořádku. Všichni máme nějaký osvědčený model, kterému věříme, ale tady nemusí být třeba ani v první trojce.
Výchozí zobrazení poskytuje přehled průměrných výsledků. Ale pokud se zaměříte na konkrétní kategorie, uvidíte, že pořadí modelů se mění. Zatímco v některých kategoriích dominuje ChatGPT, v jiných modely Claude apod. V posledním sloupci najdete i přehledně ke kterému datu má který model omezené znalosti.
Nová kategorie na obzoru
LMSYS stále přidává nové funkce. Nedávno například spustil projekt, kde netestujete dva modely proti sobě, ale zkoumáte jen jeden a snažíte se ho donutit napsat sprosťárnu. Tím se testuje, jak jsou modely odolné proti generování škodlivého obsahu. Zkusit svoje schopnosti, jak obejít instrukce a mantinely modelů si můžete vyzkoušet.