Meta před pár dny uvedla novou generaci velkých jazykových modelů Llama 4. Přijdou ve čtyřech verzích lišících se schopnostmi. Zatím jsou venku dvě slabší, a i ty slibují, že jsou lepší než většina konkurence.

Llama v aktuální verzi poprvé nabízí nativní multimodální režim, takže umí pracovat nejen s textovými, ale i zvukovými a obrazovými vstupy. Meta také poprvé využívá architekturu označenou jako MoE (mixture-of-experts), která dovolí lépe škálovat výkon a schopnosti. Konkurenti jako DeepSeek nebo Mistral už MoE také používají.

Vstupy nezpracovává jedna velká neuronová síť, nýbrž několik menších expertů s různými specializacemi. Zvláštní router se pak postará o to, který vstup se pošle kterému expertovi. Zároveň se vše posílá jednomu sdílenému expertovi. Oněch specializovaných mohou být desítky či stovky.

Llama 4 se trénovala na 200 jazycích, u poloviny z nich na datech tvořících přes miliardu tokenů. Celkově šlo o 30 bilionů tokenů. Model by také měl být méně předpojatý. U politických nebo sociálních témat odmítá odpovědět jen ve 2 % případů, u Llamy 3.3 v 7 %.

Čtyři Llamy nejsou lamy

Základní model Llama 4 Scout má pracovat se 17 miliardami aktivních parametrů (celkově 109 miliard) a 16 experty. Slibuje přitom nevídaně dlouhé kontextové okno 10 milionu tokenů, dosavadní modely končívaly na milionu. Scout má běžet na jednom čipu Nvidia H100 a prý je lepší než konkurenční Gemma 3, Gemini 2.0 Flash-Lite nebo Mistral 1.

Pokročilejší Llama 4 Maverick také počítá se 17 miliardami aktivních parametrů (400 miliardami celkově), ale má 128 expertů. Kontext může být až 1 milion tokenů. Podle Mety je v benchmarcích lepší než GPT-4o nebo Gemini 2.0 Flash, před ním je jen Gemini 2.5 Pro. A v kódování nebo přemýšlení má být na úrovni čínského DeepSeek v3 při polovině aktivních parametrů.

Vedle toho ještě Meta trénuje model Llama 4 Behemoth s 288 miliardami aktivních parametrů (2 biliony celkově) a 16 experty. K dispozici by měl být asi za měsíc. V benchmarcích prý pokoří GPT-4.5, Claude Sonnet 3.7 a Gemini 2.0 Pro, výše bude jen Gemini 2.5 Pro. Nakonec dorazí ještě Llama 4 Reasoning, který se soustředí na přemýšlení, ale bližší detaily neznáme.

Llama 4 Scout a Maverick jsou ke stažení na llama.com a Hugging Face. Zabudované jsou také v Meta AI, která je dostupná aplikacích WhatsApp, Messenger a Instagram či na webu meta.ai.

Kontroverze

Podle lmarena.ai zaznamenala Meta nejvyšší mezigenerační skok ve skóre, když Llama 4 Maverick získala v benchmarku 1417 bodů, o 121 více než předchůdce. Tak dobrý výsledek, nad nímž je pouze Gemini 2.5 Pro se skóre 1349, ale začal vyvolávat pochybnosti.

Sama Meta totiž říká, že takto vysoko by měl mířit až vyšší model Behemoth. Kritici proto tvrdí, že do firma do testu poslala optimalizovanou verzi LLM, která se specializovala jen na maximalizaci skóre. Případně nahnala vlastní lidi do arény, aby v testu hlasovali pro ni (byť jde o slepý test). Reálné schopnosti na stažených a rozběhnutých modelech jsou pak údajně horší, než firma slibuje. Zástupci Mety ale říkají, že výsledky zmanipulované nejsou.

Pochybnosti vzbuzuje i slibované kontextové okno. Oba modely Llama 4 citelně ztrácejí přehled už po 120 tisících tokenech, jsou na tom výrazně hůř než GPT, Claude nebo Gemini. Takže sliby o 1- nebo 10milioném okně také nestojí na pevných základech.