Která AI je nejlepší? Chatbot Google Gemini začal přemýšlet a opět vyhrál úplně všechny kategorie

Oživeno 19. prosince 2024 | Google nenápadně uvedl nový AI model, svůj první s tzv. reasoningem, kdy chatbot nad odpověďmi přemýšlí a nevychrlí první reakci, která ho napadne. Je to podobný způsob uvažování, s jakým už před časem přišel model o1 v ChatuGPT.

Zajímavé je, že nový model Gemini 2.0 Flash Thinking se hned umístil na prvních příčkách srovnání Chatbot Arena. Stejně jako experimentální Gemini 1206, o kterém jsme psali nedávno, zvítězil ve všech hodnocených kategoriích.

Přemýšlivé Gemini si můžete vyzkoušet v AI Studiu. Zajímavé je, že má kontextové okno pouze 33 tisíc tokenů (ve srovnání s miliony tokenů u jiných modelů Gemini). Přemýšlení je zjevně hodně náročné na výpočetní výkon.

Obrázek s pořadím a tabulky níže v článku jsme aktualizovali.


Experimentální chatbot Google Gemini vyhrál úplně všechny kategorie

Článek z 8. prosince 2024 | Nejlepší současný textový AI model je Gemini od Googlu. Alespoň pokud dáme na hodnocení webu Chatbot Arena, na kterém lidé naslepo posuzují kvalitu výstupů – bez toho, že by věděli, jaké modely jim odpovídají.

V pátek k tomu nastala zajímavá situace. Nový model Google Gemini Experimental 1206 se neumístil na prvním místě pouze v hlavním žebříčku. Současně byl první v úplně všech hodnocených kategoriích. Rozdíly nejsou velké a Gemini se na prvních místech pravidelně vyměňuje s ChatemGPT, taková dominance ve všech variantách dotazů se ale nevidí.

image.png
Deset nejlepších modelů a jejich umístění v jednotlivých hodnocených kategoriích. Potom jsou ještě kategorie hlavních jazyků, Gemini je i v nich na prvním místě

Může se to zdát zvláštní. V českém prostředí Google Gemini nepatří mezi chatboty, o kterých by se příliš mluvilo. U nás se používá především ChatGPT a možná víc než jinde jsme si oblíbili Claude, který se přitom v Chatbot Areně nevešel ani do první desítky, je až na jedenáctém místě.

Tohle ale není umělý benchmark, kterému se modely mohou přizpůsobit. Testovací dotazy zadávají živí lidé, kteří potom také posuzují výsledky, a v případě Gemini bylo těchto slepých testů přes pět tisíc. Takovému hodnocení má smysl věřit.

Nový model Gemini si můžete vyzkoušet v Google AI Studiu. To je služba určená vývojářům, kteří zde mohou testovat modely a různé dotazy, než své systémy napojí na API Gemini. V pravém sloupci v bloku Model vyberte Gemini Experimental 1206. Stejně jako další modely Gemini má k dispozici kontextové okno o velikosti dvou milionů tokenů. To je obrovská kapacita, která pojme třeba několik knih. Konkurence je obvykle někde na desetině.

image.png
V Google AI Studiu můžete také porovnávat odpovědi různých modelů Gemini. Na obrázku vlevo reagoval nový Experimental 1206, který je zde v režimu Preview, v pravém panelu je aktuálně nejvyšší Gemini 1.5 Pro

Lidé prostřednictvím projektu LMSYS Chatbot Arena (lmarena.ai) hodnotí možnosti jednotlivých AI. Chatboti se podle jejich hodnocení řadí do žebříčků a v tomto článku najdete pořadí v hlavních kategoriích.

Přečtěte si, jak Chatbot Arena funguje, jakým způsobem žebříčky vznikají a jak v ní sami můžete modely zkoušet a hodnotit:

Hlavní žebříček AI bez rozlišení kategorií (Overall na Chatbot Arena)

Pořadí Model Skóre Skupina Znalosti
1 Gemini-Exp-1206 1372 Google Proprietary
1 Gemini-2.0-Flash-Thinking-Exp-1219 1369 Google Proprietary
1 ChatGPT-4o-latest (2024-11-20) 1364 OpenAI Proprietary
3 Gemini-2.0-Flash-Exp 1355 Google Proprietary
5 o1-preview 1335 OpenAI Proprietary
6 o1-mini 1306 OpenAI Proprietary
6 Gemini-1.5-Pro-002 1301 Google Proprietary
8 Grok-2-08-13 1288 xAI Proprietary
8 Yi-Lightning 1287 01 AI Proprietary
8 GPT-4o-2024-05-13 1285 OpenAI Proprietary

Žebříček bez vlivu stylu (Overall w/ Style Control)

Hlavní žebříček Chatbot Arena hodnotí odpovědi AI modelů tak, jak je uživatelé přímo vnímají; tedy včetně délky odpovědí a formátování. Hodnocení bez vlivu stylu používá statistické metody k odfiltrování těchto stylistických prvků a snaží se měřit pouze skutečnou kvalitu obsahu. Cílem je poskytnout objektivnější pohled na schopnosti modelů bez zkreslení způsobeného formou prezentace jejich odpovědí.

Pořadí Model Skóre Skupina Znalosti
1 Gemini-Exp-1206 1320 Google Proprietary
1 ChatGPT-4o-latest (2024-11-20) 1316 OpenAI Proprietary
1 Gemini-2.0-Flash-Thinking-Exp-1219 1312 Google Proprietary
3 o1-preview 1302 OpenAI Proprietary
4 Gemini-2.0-Flash-Exp 1295 Google Proprietary
6 Claude 3.5 Sonnet (20241022) 1285 Anthropic Proprietary
7 Gemini-1.5-Pro-002 1268 Google Proprietary
7 GPT-4o-2024-05-13 1263 OpenAI Proprietary
8 Claude 3.5 Sonnet (20240620) 1259 Anthropic Proprietary
9 o1-mini 1257 OpenAI Proprietary

Matematika (Math)

Pořadí Model Skóre Skupina Znalosti
1 o1-preview 1340 OpenAI Proprietary
1 Gemini-2.0-Flash-Thinking-Exp-1219 1338 Google Proprietary
1 o1-mini 1328 OpenAI Proprietary
1 Gemini-Exp-1206 1320 Google Proprietary
2 Gemini-2.0-Flash-Exp 1310 Google Proprietary
6 ChatGPT-4o-latest (2024-11-20) 1284 OpenAI Proprietary
6 Gemini-1.5-Pro-002 1281 Google Proprietary
6 Claude 3.5 Sonnet (20241022) 1278 Anthropic Proprietary
6 Claude 3.5 Sonnet (20240620) 1271 Anthropic Proprietary
6 Athene-v2-Chat-72B 1270 NexusFlow NexusFlow

Programování a kódování (Coding)

Pořadí Model Skóre Skupina Znalosti
1 Gemini-Exp-1206 1369 Google Proprietary
1 o1-mini 1360 OpenAI Proprietary
1 o1-preview 1355 OpenAI Proprietary
1 ChatGPT-4o-latest (2024-11-20) 1351 OpenAI Proprietary
1 Gemini-2.0-Flash-Thinking-Exp-1219 1343 Google Proprietary
1 Gemini-2.0-Flash-Exp 1343 Google Proprietary
5 Claude 3.5 Sonnet (20241022) 1323 Anthropic Proprietary
8 Yi-Lightning 1303 01 AI Proprietary
8 Athene-v2-Chat-72B 1295 NexusFlow NexusFlow
8 Claude 3.5 Sonnet (20240620) 1295 Anthropic Proprietary

Velmi obtížná zadání (Hard Prompts)

Pořadí Model Skóre Skupina Znalosti
1 Gemini-Exp-1206 1365 Google Proprietary
1 Gemini-2.0-Flash-Thinking-Exp-1219 1362 Google Proprietary
1 o1-preview 1352 OpenAI Proprietary
1 Gemini-2.0-Flash-Exp 1348 Google Proprietary
3 o1-mini 1338 OpenAI Proprietary
3 ChatGPT-4o-latest (2024-11-20) 1337 OpenAI Proprietary
7 Claude 3.5 Sonnet (20241022) 1303 Anthropic Proprietary
7 Yi-Lightning 1300 01 AI Proprietary
7 Gemini-1.5-Pro-002 1299 Google Proprietary
7 Athene-v2-Chat-72B 1292 NexusFlow NexusFlow

Velmi dlouhá zadání (Longer Query)

Pořadí Model Skóre Skupina Znalosti
1 Gemini-Exp-1206 1395 Google Proprietary
1 Gemini-2.0-Flash-Thinking-Exp-1219 1388 Google Proprietary
1 ChatGPT-4o-latest (2024-11-20) 1379 OpenAI Proprietary
1 Gemini-2.0-Flash-Exp 1373 Google Proprietary
4 o1-preview 1350 OpenAI Proprietary
6 o1-mini 1328 OpenAI Proprietary
6 Gemini-1.5-Pro-002 1317 Google Proprietary
6 Claude 3.5 Sonnet (20241022) 1314 Anthropic Proprietary
7 Yi-Lightning 1305 01 AI Proprietary
7 GPT-4o-2024-05-13 1300 OpenAI Proprietary

Kreativní psaní (Creative Writing)

Pořadí Model Skóre Skupina Znalosti
1 Gemini-Exp-1206 1406 Google Proprietary
1 ChatGPT-4o-latest (2024-11-20) 1406 OpenAI Proprietary
1 Gemini-2.0-Flash-Thinking-Exp-1219 1398 Google Proprietary
2 Gemini-2.0-Flash-Exp 1378 Google Proprietary
5 Gemini-1.5-Pro-002 1330 Google Proprietary
5 o1-preview 1318 OpenAI Proprietary
7 GPT-4o-2024-05-13 1289 OpenAI Proprietary
7 Claude 3.5 Sonnet (20241022) 1288 Anthropic Proprietary
7 Gemini-1.5-Flash-002 1284 Google Proprietary
7 Grok-2-08-13 1283 xAI Proprietary

Určitě si přečtěte

Články odjinud