Evropa

A pak že to v Evropě nepůjde. Francouzský Mistral se novými modely staví po bok OpenAI a Googlu

V posledních dvou týdnech jsme byli zaplaveni novými AI modely umělé inteligence a největším překvapením pro mne byla série modelů od francouzského Mistralu. Navzdory všeobecnému přesvědčení, že regulace v Unii zabrání místním firmám a startupům v kvalitním vývoji AI, se Mistral zařadil k velkým hráčům, jako je Meta, OpenAI, Google nebo Anthropic. Má rovnou čtyři modely…

MathΣtral, takový malý matfyzák

Nejmenší je 7b model MathΣtral určený primárně pro vědce. Vytvořen byl pro pomoc se složitými matematickými úkoly. V základní verzi se proti Mistralu 7b zlepšil ve škále úkolů, jinde se naopak zhoršil. Jde o krásný příklad modelu laděného pro konkrétní úkoly. A je-li to málo, jde s pomocí finetuningu doladit ještě lépe.

SCR01.jpg
Podle benchmarku MMLU se model proti předchozímu zhoršil v některých oborech medicíny nebo PR. To vše pro zlepšení výkonu v oborech jako je algebra, astronomie nebo chemie.

Codestral pro programátory

Největší zajímavostí na novém Codestralu je architektura. Není založený na (dnes už můžeme říct tradičních) transformerech, ale na architektuře mamba, systému SSM – state space mamba, který umožňuje modelu pracovat rychleji a efektivněji s dlouhými sekvencemi informací. Codestral tak díky mambě dokáže generovat kód rychle a pracovat s velkými objemy dat při nízkých nárocích na hardware.

SCR02.png
Malý 7b model Codestral Mamba může dosahovat výsledků jako trojnásobně veliké modely s architekturou transformer

Nemo – spolupráce s Nvidií

Nvidia investovala do Mistralu nejen peníze, ale i lidi, a výsledkem je model Nemo, 12b model s novým tokenizérem Tekken. Díky tomu zvládá zpracovávat slova na tokeny s až dvojnásobnou efektivitou. V kombinaci s (na tak malý model) obrovským kontextovým oknem 128k tokenů se do něj vejde víc jak 60 tisíc slov i v češtině. Trénovaný byl na úlohy ve více jazycích a měl by tak chápat nuance jednotlivých jazyků lépe než konkurence. A nejsou to jen jazyky, kterými mluví lidé, nýbrž i ty programovací. Nemo by tak měl vynikat jako překladač řeči a kódů. Vyzkoušet ho můžete na ai.nvidia.com.

SCR03.png
V benchmarcích zaměřených na jazyk vyniká osminásobným kontextovým oknem při stejném výkonu. Navíc se díky lepšímu zpracování na tokeny vejde do kontextového okna více informací

Mistral Large 2

Největším překvapením je Mistral Large 2, nový open model, který se staví vedle nedávno vydaného modelu Llama 3.1 od Meta. Ve srovnání s Llamou má Mistral Large 2 méně než polovinu parametrů, ale přesto nabízí vynikající výkon v oblasti generování kódu, matematiky a vícejazyčných úloh. Tento model je dostupný jak pro výzkumné, tak komerční využití a představuje významný krok kupředu pro evropský AI průmysl. Zdá se, že se sázka Mistralu na nové technologie vyplácí!

SCR04.png
V porovnání s Llama 3.1 si podle firemních benchmarků vede lépe v psaní skriptů i matematice

Velký důraz v Mistralu při vytváření Large dvojky kladli omezení chyb, laicky řečeno halucinací. Toho bylo dosaženo finetuningem, vyladěním modelu tak, aby byl ve svých reakcích opatrnější.

SCR05.png
Model byl vytrénován, aby uměl uznat, že neví. Není to dokonalé, ale na výsledcích v benchmarcích se to projevuje.
scr06.png
I v porozumění náročnějším instrukcím je Large 2 na stupních vítězů

Podle vývojářů je jiný i v dalším aspektu. V poměru anglických textů k jiným jazykům v tréninkových datech. Měl by lépe zvládat všechny evropské jazyky. A pokud je vám i to málo, můžete u Large 2 zkusit finetuning.

Dvojku si můžete zadarmo vyzkoušet. Je k dispozici v Le Chat i La Platforme, kde jsou k dispozici i nějaké kredity pro použití API.

Diskuze (1) Další článek: AI zaplní vyhledávač Bing. Klasické webové výsledky ustoupí

Témata článku: ,