V posledních dvou týdnech jsme byli zaplaveni novými AI modely umělé inteligence a největším překvapením pro mne byla série modelů od francouzského Mistralu. Navzdory všeobecnému přesvědčení, že regulace v Unii zabrání místním firmám a startupům v kvalitním vývoji AI, se Mistral zařadil k velkým hráčům, jako je Meta, OpenAI, Google nebo Anthropic. Má rovnou čtyři modely…
MathΣtral, takový malý matfyzák
Nejmenší je 7b model MathΣtral určený primárně pro vědce. Vytvořen byl pro pomoc se složitými matematickými úkoly. V základní verzi se proti Mistralu 7b zlepšil ve škále úkolů, jinde se naopak zhoršil. Jde o krásný příklad modelu laděného pro konkrétní úkoly. A je-li to málo, jde s pomocí finetuningu doladit ještě lépe.
Podle benchmarku MMLU se model proti předchozímu zhoršil v některých oborech medicíny nebo PR. To vše pro zlepšení výkonu v oborech jako je algebra, astronomie nebo chemie.
Codestral pro programátory
Největší zajímavostí na novém Codestralu je architektura. Není založený na (dnes už můžeme říct tradičních) transformerech, ale na architektuře mamba, systému SSM – state space mamba, který umožňuje modelu pracovat rychleji a efektivněji s dlouhými sekvencemi informací. Codestral tak díky mambě dokáže generovat kód rychle a pracovat s velkými objemy dat při nízkých nárocích na hardware.
Malý 7b model Codestral Mamba může dosahovat výsledků jako trojnásobně veliké modely s architekturou transformer
Nemo – spolupráce s Nvidií
Nvidia investovala do Mistralu nejen peníze, ale i lidi, a výsledkem je model Nemo, 12b model s novým tokenizérem Tekken. Díky tomu zvládá zpracovávat slova na tokeny s až dvojnásobnou efektivitou. V kombinaci s (na tak malý model) obrovským kontextovým oknem 128k tokenů se do něj vejde víc jak 60 tisíc slov i v češtině. Trénovaný byl na úlohy ve více jazycích a měl by tak chápat nuance jednotlivých jazyků lépe než konkurence. A nejsou to jen jazyky, kterými mluví lidé, nýbrž i ty programovací. Nemo by tak měl vynikat jako překladač řeči a kódů. Vyzkoušet ho můžete na ai.nvidia.com.
V benchmarcích zaměřených na jazyk vyniká osminásobným kontextovým oknem při stejném výkonu. Navíc se díky lepšímu zpracování na tokeny vejde do kontextového okna více informací
Mistral Large 2
Největším překvapením je Mistral Large 2, nový open model, který se staví vedle nedávno vydaného modelu Llama 3.1 od Meta. Ve srovnání s Llamou má Mistral Large 2 méně než polovinu parametrů, ale přesto nabízí vynikající výkon v oblasti generování kódu, matematiky a vícejazyčných úloh. Tento model je dostupný jak pro výzkumné, tak komerční využití a představuje významný krok kupředu pro evropský AI průmysl. Zdá se, že se sázka Mistralu na nové technologie vyplácí!
V porovnání s Llama 3.1 si podle firemních benchmarků vede lépe v psaní skriptů i matematice
Velký důraz v Mistralu při vytváření Large dvojky kladli omezení chyb, laicky řečeno halucinací. Toho bylo dosaženo finetuningem, vyladěním modelu tak, aby byl ve svých reakcích opatrnější.
Model byl vytrénován, aby uměl uznat, že neví. Není to dokonalé, ale na výsledcích v benchmarcích se to projevuje.
I v porozumění náročnějším instrukcím je Large 2 na stupních vítězů
Podle vývojářů je jiný i v dalším aspektu. V poměru anglických textů k jiným jazykům v tréninkových datech. Měl by lépe zvládat všechny evropské jazyky. A pokud je vám i to málo, můžete u Large 2 zkusit finetuning.
Dvojku si můžete zadarmo vyzkoušet. Je k dispozici v Le Chat i La Platforme, kde jsou k dispozici i nějaké kredity pro použití API.