Oživeno 25. ledna 2025 | Služba Chatbot Arena, ve které lidé anonymně srovnávají výstupy AI, má oddělený projekt zaměřený na využití chatbotů pro vývoj. Ve WebDev Arena (web.lmarena.ai) pomocí stejných principů porovnává jejich schopnosti samostatného kódování.
Na webu uvidíte jen pole, do kterého napíšete zadání, co má AI naprogramovat. Běží pod ním návrhy, na které stačí kliknout, kdyby vás zrovna nic nenapadalo. Služba potom vybere dva modely, problém jim předhodí, vy sledujete, jak pracují a v závěru ukážou spustitelný výsledek.

Až bude hotovo, posoudíte a označíte, který model si se zadáním poradil lépe. Nebo že jsou na tom oba podobně, případně že oba dva výsledky jsou špatné. Aby srovnání bylo neovlivněné, teprve potom zjistíte, které konkrétní modely v aréně soupeřily.
Lépe programuje, hůře mluví
Takhle vypadá aktuální žebříček. Na prvních místech, s celkem pěkným náskokem před ostatními, jsou dva modely Claude. Tato AI se jinak v globálním žebříčku Chatbot Areny neumísťuje příliš vysoko. Na konci ledna se ale mezi oba modely dostal ještě čínský DeepSeek R1.
Pořadí |
Model |
Skóre |
Skupina |
1 |
Claude 3.5 Sonnet (20241022) |
1253 |
Anthropic |
2 |
DeepSeek-R1 |
1216 |
DeepSeek |
3 |
Claude 3.5 Haiku (20241022) |
1138 |
Anthropic |
4 |
o1-mini (20240912) |
1065 |
OpenAI |
4 |
o1 (20241217) |
1056 |
OpenAI |
4 |
Gemini-2.0-Flash-Thinking-01-21 |
1051 |
Google |
6 |
Gemini-2.0-Flash-Thinking-1219 |
1029 |
Google |
6 |
Gemini-Exp-1206 |
1026 |
Google |
9 |
Gemini-2.0-Flash-Exp |
982 |
Google |
10 |
DeepSeek-V3 |
967 |
DeepSeek |
Vývojářské schopnosti Claude mohu potvrdit. Zatímco standardní ChatGPT se do problému tu a tam zamotá a nenabídne správnou cestu ven, s Claudem bývám často úspěšný hned na první pokusy. Také ladění je uspokojivější. Jak je vidět v žebříčku, u OpenAI hodně pomůže „přemýšlecí” model o1 – je ale pomalejší a má nižší kapacitu.

Na obrázku je „win rate“: podíl úspěšnosti jednotlivých modelů při soubojích jeden proti jednomu