Oživeno 19. prosince 2024 | Google nenápadně uvedl nový AI model, svůj první s tzv. reasoningem, kdy chatbot nad odpověďmi přemýšlí a nevychrlí první reakci, která ho napadne. Je to podobný způsob uvažování, s jakým už před časem přišel model o1 v ChatuGPT.
Zajímavé je, že nový model Gemini 2.0 Flash Thinking se hned umístil na prvních příčkách srovnání Chatbot Arena. Stejně jako experimentální Gemini 1206, o kterém jsme psali nedávno, zvítězil ve všech hodnocených kategoriích.
Přemýšlivé Gemini si můžete vyzkoušet v AI Studiu. Zajímavé je, že má kontextové okno pouze 33 tisíc tokenů (ve srovnání s miliony tokenů u jiných modelů Gemini). Přemýšlení je zjevně hodně náročné na výpočetní výkon.
Obrázek s pořadím a tabulky níže v článku jsme aktualizovali.
Experimentální chatbot Google Gemini vyhrál úplně všechny kategorie
Článek z 8. prosince 2024 | Nejlepší současný textový AI model je Gemini od Googlu. Alespoň pokud dáme na hodnocení webu Chatbot Arena, na kterém lidé naslepo posuzují kvalitu výstupů – bez toho, že by věděli, jaké modely jim odpovídají.
V pátek k tomu nastala zajímavá situace. Nový model Google Gemini Experimental 1206 se neumístil na prvním místě pouze v hlavním žebříčku. Současně byl první v úplně všech hodnocených kategoriích. Rozdíly nejsou velké a Gemini se na prvních místech pravidelně vyměňuje s ChatemGPT, taková dominance ve všech variantách dotazů se ale nevidí.
Deset nejlepších modelů a jejich umístění v jednotlivých hodnocených kategoriích. Potom jsou ještě kategorie hlavních jazyků, Gemini je i v nich na prvním místě
Může se to zdát zvláštní. V českém prostředí Google Gemini nepatří mezi chatboty, o kterých by se příliš mluvilo. U nás se používá především ChatGPT a možná víc než jinde jsme si oblíbili Claude, který se přitom v Chatbot Areně nevešel ani do první desítky, je až na jedenáctém místě.
Tohle ale není umělý benchmark, kterému se modely mohou přizpůsobit. Testovací dotazy zadávají živí lidé, kteří potom také posuzují výsledky, a v případě Gemini bylo těchto slepých testů přes pět tisíc. Takovému hodnocení má smysl věřit.
Nový model Gemini si můžete vyzkoušet v Google AI Studiu. To je služba určená vývojářům, kteří zde mohou testovat modely a různé dotazy, než své systémy napojí na API Gemini. V pravém sloupci v bloku Model vyberte Gemini Experimental 1206. Stejně jako další modely Gemini má k dispozici kontextové okno o velikosti dvou milionů tokenů. To je obrovská kapacita, která pojme třeba několik knih. Konkurence je obvykle někde na desetině.
V Google AI Studiu můžete také porovnávat odpovědi různých modelů Gemini. Na obrázku vlevo reagoval nový Experimental 1206, který je zde v režimu Preview, v pravém panelu je aktuálně nejvyšší Gemini 1.5 Pro
Lidé prostřednictvím projektu LMSYS Chatbot Arena (lmarena.ai) hodnotí možnosti jednotlivých AI. Chatboti se podle jejich hodnocení řadí do žebříčků a v tomto článku najdete pořadí v hlavních kategoriích.
Přečtěte si, jak Chatbot Arena funguje, jakým způsobem žebříčky vznikají a jak v ní sami můžete modely zkoušet a hodnotit:
Hlavní žebříček AI bez rozlišení kategorií (Overall na Chatbot Arena)
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
Gemini-Exp-1206 |
1372 |
Google |
Proprietary |
1 |
Gemini-2.0-Flash-Thinking-Exp-1219 |
1369 |
Google |
Proprietary |
1 |
ChatGPT-4o-latest (2024-11-20) |
1364 |
OpenAI |
Proprietary |
3 |
Gemini-2.0-Flash-Exp |
1355 |
Google |
Proprietary |
5 |
o1-preview |
1335 |
OpenAI |
Proprietary |
6 |
o1-mini |
1306 |
OpenAI |
Proprietary |
6 |
Gemini-1.5-Pro-002 |
1301 |
Google |
Proprietary |
8 |
Grok-2-08-13 |
1288 |
xAI |
Proprietary |
8 |
Yi-Lightning |
1287 |
01 AI |
Proprietary |
8 |
GPT-4o-2024-05-13 |
1285 |
OpenAI |
Proprietary |
Žebříček bez vlivu stylu (Overall w/ Style Control)
Hlavní žebříček Chatbot Arena hodnotí odpovědi AI modelů tak, jak je uživatelé přímo vnímají; tedy včetně délky odpovědí a formátování. Hodnocení bez vlivu stylu používá statistické metody k odfiltrování těchto stylistických prvků a snaží se měřit pouze skutečnou kvalitu obsahu. Cílem je poskytnout objektivnější pohled na schopnosti modelů bez zkreslení způsobeného formou prezentace jejich odpovědí.
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
Gemini-Exp-1206 |
1320 |
Google |
Proprietary |
1 |
ChatGPT-4o-latest (2024-11-20) |
1316 |
OpenAI |
Proprietary |
1 |
Gemini-2.0-Flash-Thinking-Exp-1219 |
1312 |
Google |
Proprietary |
3 |
o1-preview |
1302 |
OpenAI |
Proprietary |
4 |
Gemini-2.0-Flash-Exp |
1295 |
Google |
Proprietary |
6 |
Claude 3.5 Sonnet (20241022) |
1285 |
Anthropic |
Proprietary |
7 |
Gemini-1.5-Pro-002 |
1268 |
Google |
Proprietary |
7 |
GPT-4o-2024-05-13 |
1263 |
OpenAI |
Proprietary |
8 |
Claude 3.5 Sonnet (20240620) |
1259 |
Anthropic |
Proprietary |
9 |
o1-mini |
1257 |
OpenAI |
Proprietary |
Matematika (Math)
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
o1-preview |
1340 |
OpenAI |
Proprietary |
1 |
Gemini-2.0-Flash-Thinking-Exp-1219 |
1338 |
Google |
Proprietary |
1 |
o1-mini |
1328 |
OpenAI |
Proprietary |
1 |
Gemini-Exp-1206 |
1320 |
Google |
Proprietary |
2 |
Gemini-2.0-Flash-Exp |
1310 |
Google |
Proprietary |
6 |
ChatGPT-4o-latest (2024-11-20) |
1284 |
OpenAI |
Proprietary |
6 |
Gemini-1.5-Pro-002 |
1281 |
Google |
Proprietary |
6 |
Claude 3.5 Sonnet (20241022) |
1278 |
Anthropic |
Proprietary |
6 |
Claude 3.5 Sonnet (20240620) |
1271 |
Anthropic |
Proprietary |
6 |
Athene-v2-Chat-72B |
1270 |
NexusFlow |
NexusFlow |
Programování a kódování (Coding)
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
Gemini-Exp-1206 |
1369 |
Google |
Proprietary |
1 |
o1-mini |
1360 |
OpenAI |
Proprietary |
1 |
o1-preview |
1355 |
OpenAI |
Proprietary |
1 |
ChatGPT-4o-latest (2024-11-20) |
1351 |
OpenAI |
Proprietary |
1 |
Gemini-2.0-Flash-Thinking-Exp-1219 |
1343 |
Google |
Proprietary |
1 |
Gemini-2.0-Flash-Exp |
1343 |
Google |
Proprietary |
5 |
Claude 3.5 Sonnet (20241022) |
1323 |
Anthropic |
Proprietary |
8 |
Yi-Lightning |
1303 |
01 AI |
Proprietary |
8 |
Athene-v2-Chat-72B |
1295 |
NexusFlow |
NexusFlow |
8 |
Claude 3.5 Sonnet (20240620) |
1295 |
Anthropic |
Proprietary |
Velmi obtížná zadání (Hard Prompts)
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
Gemini-Exp-1206 |
1365 |
Google |
Proprietary |
1 |
Gemini-2.0-Flash-Thinking-Exp-1219 |
1362 |
Google |
Proprietary |
1 |
o1-preview |
1352 |
OpenAI |
Proprietary |
1 |
Gemini-2.0-Flash-Exp |
1348 |
Google |
Proprietary |
3 |
o1-mini |
1338 |
OpenAI |
Proprietary |
3 |
ChatGPT-4o-latest (2024-11-20) |
1337 |
OpenAI |
Proprietary |
7 |
Claude 3.5 Sonnet (20241022) |
1303 |
Anthropic |
Proprietary |
7 |
Yi-Lightning |
1300 |
01 AI |
Proprietary |
7 |
Gemini-1.5-Pro-002 |
1299 |
Google |
Proprietary |
7 |
Athene-v2-Chat-72B |
1292 |
NexusFlow |
NexusFlow |
Velmi dlouhá zadání (Longer Query)
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
Gemini-Exp-1206 |
1395 |
Google |
Proprietary |
1 |
Gemini-2.0-Flash-Thinking-Exp-1219 |
1388 |
Google |
Proprietary |
1 |
ChatGPT-4o-latest (2024-11-20) |
1379 |
OpenAI |
Proprietary |
1 |
Gemini-2.0-Flash-Exp |
1373 |
Google |
Proprietary |
4 |
o1-preview |
1350 |
OpenAI |
Proprietary |
6 |
o1-mini |
1328 |
OpenAI |
Proprietary |
6 |
Gemini-1.5-Pro-002 |
1317 |
Google |
Proprietary |
6 |
Claude 3.5 Sonnet (20241022) |
1314 |
Anthropic |
Proprietary |
7 |
Yi-Lightning |
1305 |
01 AI |
Proprietary |
7 |
GPT-4o-2024-05-13 |
1300 |
OpenAI |
Proprietary |
Kreativní psaní (Creative Writing)
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
Gemini-Exp-1206 |
1406 |
Google |
Proprietary |
1 |
ChatGPT-4o-latest (2024-11-20) |
1406 |
OpenAI |
Proprietary |
1 |
Gemini-2.0-Flash-Thinking-Exp-1219 |
1398 |
Google |
Proprietary |
2 |
Gemini-2.0-Flash-Exp |
1378 |
Google |
Proprietary |
5 |
Gemini-1.5-Pro-002 |
1330 |
Google |
Proprietary |
5 |
o1-preview |
1318 |
OpenAI |
Proprietary |
7 |
GPT-4o-2024-05-13 |
1289 |
OpenAI |
Proprietary |
7 |
Claude 3.5 Sonnet (20241022) |
1288 |
Anthropic |
Proprietary |
7 |
Gemini-1.5-Flash-002 |
1284 |
Google |
Proprietary |
7 |
Grok-2-08-13 |
1283 |
xAI |
Proprietary |