Lidé prostřednictvím projektu LMSYS Chatbot Arena (lmarena.ai) hodnotí možnosti jednotlivých AI. Chatboti se podle jejich hodnocení řadí do žebříčků a v tomto článku najdete pořadí v hlavních kategoriích.
Nové modely o1-preview a o1-mini, které OpenAI uvolnilo minulý týden, se dostaly hned na první místa. Podle předpokladů excelují zejména při matematice a různých dalších obtížných zadáních.
Přečtěte si, jak Chatbot Arena funguje, jakým způsobem žebříčky vznikají a jak v ní sami můžete modely zkoušet a hodnotit:
Hlavní žebříček AI bez rozlišení kategorií
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
o1-preview |
1355 |
OpenAI |
2023/10 |
2 |
ChatGPT-4o-latest (2024-09-03) |
1335 |
OpenAI |
2023/10 |
3 |
o1-mini |
1324 |
OpenAI |
2023/10 |
4 |
Gemini-1.5-Pro-Exp-0827 |
1299 |
Google |
2023/11 |
5 |
Grok-2-08-13 |
1294 |
xAI |
2024/3 |
6 |
GPT-4o-2024-05-13 |
1285 |
OpenAI |
2023/10 |
7 |
GPT-4o-mini-2024-07-18 |
1273 |
OpenAI |
2023/10 |
8 |
Claude 3 |
1265 |
Anthropic |
2024/5 |
9 |
Gemini-1.5-Pro-Exp-0801 |
1260 |
Google |
2023/10 |
10 |
Claude 3.5 |
1255 |
Anthropic |
2024/5 |
Matematika
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
o1-mini |
1366 |
OpenAI |
2023/10 |
2 |
o1-preview |
1362 |
OpenAI |
2023/10 |
3 |
Claude 3.5 Sonnet |
1273 |
Anthropic |
2024/4 |
4 |
Gemini-1.5-Pro-Exp-0827 |
1272 |
Google |
2023/11 |
5 |
ChatGPT-4o-latest (2024-09-03) |
1270 |
OpenAI |
2023/10 |
6 |
Grok-2-08-13 |
1257 |
xAI |
2024/3 |
7 |
Meta-Llama-3.1-405b-Instruct-bf16 |
1257 |
Meta |
2023/12 |
8 |
GPT-4o-2024-05-13 |
1256 |
OpenAI |
2023/10 |
9 |
GPT-4o-2024-08-06 |
1254 |
OpenAI |
2023/10 |
10 |
GPT-4-1106-preview |
1245 |
OpenAI |
2023/4 |
Programování a kódování
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
o1-preview |
1374 |
OpenAI |
2023/10 |
2 |
o1-mini |
1370 |
OpenAI |
2023/10 |
3 |
ChatGPT-4o-latest (2024-09-03) |
1341 |
OpenAI |
2023/10 |
4 |
Claude 3.5 Sonnet |
1296 |
Anthropic |
2024/4 |
5 |
GPT-4o-2024-05-13 |
1294 |
OpenAI |
2023/10 |
6 |
Meta-Llama-3.1-405b-Instruct-bf16 |
1290 |
Meta |
2023/12 |
7 |
Gemini-1.5-Pro-Exp-0827 |
1289 |
Google |
2023/11 |
8 |
Grok-2-08-13 |
1286 |
xAI |
2024/3 |
9 |
GPT-4o-mini-2024-07-18 |
1282 |
OpenAI |
2023/10 |
10 |
Deepseek-v2.5 |
1278 |
DeepSeek |
Unknown |
Velmi obtížná zadání
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
o1-preview |
1379 |
OpenAI |
2023/10 |
2 |
o1-mini |
1378 |
OpenAI |
2023/10 |
3 |
ChatGPT-4o-latest (2024-09-03) |
1334 |
OpenAI |
2023/10 |
4 |
Gemini-1.5-Pro-Exp-0827 |
1288 |
Google |
2023/11 |
5 |
GPT-4o-2024-05-13 |
1285 |
OpenAI |
2023/10 |
6 |
Grok-2-08-13 |
1282 |
xAI |
2024/3 |
7 |
Claude 3.5 Sonnet |
1279 |
Anthropic |
2024/4 |
8 |
Meta-Llama-3.1-405b-Instruct-bf16 |
1271 |
Meta |
2023/12 |
9 |
GPT-4o-mini-2024-07-18 |
1268 |
OpenAI |
2023/10 |
10 |
Deepseek-v2.5 |
1267 |
DeepSeek |
Unknown |
Velmi dlouhá zadání
Pořadí |
Model |
Skóre |
Skupina |
Znalosti |
1 |
o1-preview |
1374 |
OpenAI |
2023/10 |
2 |
ChatGPT-4o-latest (2024-09-03) |
1365 |
OpenAI |
2023/10 |
3 |
o1-mini |
1336 |
OpenAI |
2023/10 |
4 |
Gemini-1.5-Pro-Exp-0827 |
1327 |
Google |
2023/11 |
5 |
Gemini-1.5-Flash-Exp-0827 |
1313 |
Google |
2023/11 |
6 |
GPT-4o-2024-05-13 |
1303 |
OpenAI |
2023/10 |
7 |
Grok-2-08-13 |
1295 |
xAI |
2024/3 |
8 |
GPT-4o-mini-2024-07-18 |
1295 |
OpenAI |
2023/10 |
9 |
Gemini-1.5-Pro-001 |
1293 |
Google |
2023/11 |
10 |
Claude 3.5 Sonnet |
1289 |
Anthropic |
2024/4 |