Která AI je nejlepší? V aktuálním žebříčku nejschopnějších chatbotů vyskočily nové modely o1 od OpenAI

Lidé prostřednictvím projektu LMSYS Chatbot Arena (lmarena.ai) hodnotí možnosti jednotlivých AI. Chatboti se podle jejich hodnocení řadí do žebříčků a v tomto článku najdete pořadí v hlavních kategoriích.

Nové modely o1-preview a o1-mini, které OpenAI uvolnilo minulý týden, se dostaly hned na první místa. Podle předpokladů excelují zejména při matematice a různých dalších obtížných zadáních.

Přečtěte si, jak Chatbot Arena funguje, jakým způsobem žebříčky vznikají a jak v ní sami můžete modely zkoušet a hodnotit:

Hlavní žebříček AI bez rozlišení kategorií

Pořadí Model Skóre Skupina Znalosti
1 o1-preview 1355 OpenAI 2023/10
2 ChatGPT-4o-latest (2024-09-03) 1335 OpenAI 2023/10
3 o1-mini 1324 OpenAI 2023/10
4 Gemini-1.5-Pro-Exp-0827 1299 Google 2023/11
5 Grok-2-08-13 1294 xAI 2024/3
6 GPT-4o-2024-05-13 1285 OpenAI 2023/10
7 GPT-4o-mini-2024-07-18 1273 OpenAI 2023/10
8 Claude 3 1265 Anthropic 2024/5
9 Gemini-1.5-Pro-Exp-0801 1260 Google 2023/10
10 Claude 3.5 1255 Anthropic 2024/5

Matematika

Pořadí Model Skóre Skupina Znalosti
1 o1-mini 1366 OpenAI 2023/10
2 o1-preview 1362 OpenAI 2023/10
3 Claude 3.5 Sonnet 1273 Anthropic 2024/4
4 Gemini-1.5-Pro-Exp-0827 1272 Google 2023/11
5 ChatGPT-4o-latest (2024-09-03) 1270 OpenAI 2023/10
6 Grok-2-08-13 1257 xAI 2024/3
7 Meta-Llama-3.1-405b-Instruct-bf16 1257 Meta 2023/12
8 GPT-4o-2024-05-13 1256 OpenAI 2023/10
9 GPT-4o-2024-08-06 1254 OpenAI 2023/10
10 GPT-4-1106-preview 1245 OpenAI 2023/4

Programování a kódování

Pořadí Model Skóre Skupina Znalosti
1 o1-preview 1374 OpenAI 2023/10
2 o1-mini 1370 OpenAI 2023/10
3 ChatGPT-4o-latest (2024-09-03) 1341 OpenAI 2023/10
4 Claude 3.5 Sonnet 1296 Anthropic 2024/4
5 GPT-4o-2024-05-13 1294 OpenAI 2023/10
6 Meta-Llama-3.1-405b-Instruct-bf16 1290 Meta 2023/12
7 Gemini-1.5-Pro-Exp-0827 1289 Google 2023/11
8 Grok-2-08-13 1286 xAI 2024/3
9 GPT-4o-mini-2024-07-18 1282 OpenAI 2023/10
10 Deepseek-v2.5 1278 DeepSeek Unknown

Velmi obtížná zadání

Pořadí Model Skóre Skupina Znalosti
1 o1-preview 1379 OpenAI 2023/10
2 o1-mini 1378 OpenAI 2023/10
3 ChatGPT-4o-latest (2024-09-03) 1334 OpenAI 2023/10
4 Gemini-1.5-Pro-Exp-0827 1288 Google 2023/11
5 GPT-4o-2024-05-13 1285 OpenAI 2023/10
6 Grok-2-08-13 1282 xAI 2024/3
7 Claude 3.5 Sonnet 1279 Anthropic 2024/4
8 Meta-Llama-3.1-405b-Instruct-bf16 1271 Meta 2023/12
9 GPT-4o-mini-2024-07-18 1268 OpenAI 2023/10
10 Deepseek-v2.5 1267 DeepSeek Unknown

Velmi dlouhá zadání

Pořadí Model Skóre Skupina Znalosti
1 o1-preview 1374 OpenAI 2023/10
2 ChatGPT-4o-latest (2024-09-03) 1365 OpenAI 2023/10
3 o1-mini 1336 OpenAI 2023/10
4 Gemini-1.5-Pro-Exp-0827 1327 Google 2023/11
5 Gemini-1.5-Flash-Exp-0827 1313 Google 2023/11
6 GPT-4o-2024-05-13 1303 OpenAI 2023/10
7 Grok-2-08-13 1295 xAI 2024/3
8 GPT-4o-mini-2024-07-18 1295 OpenAI 2023/10
9 Gemini-1.5-Pro-001 1293 Google 2023/11
10 Claude 3.5 Sonnet 1289 Anthropic 2024/4

Určitě si přečtěte

Články odjinud