OpenAI uvedla další model generativní umělé inteligence. Jmenuje se GPT-4o mini a není to žádný revoluční obří model se stovkami bilionů parametrů. Naopak. Je to zmenšená verze modelu Omni. Zásadní posun nastal v ceně.

Kdo by před rokem tušil že z GPT-4 bude dnes legacy model a o 3.5 zanedlouho už nebude nikdo vědět
Omni-mini je výkonnější, ale i levnější náhražkou za model GPT 3.5 Turbo. Už bylo na čase, protože OpenAI v kategorii malých modelů ujížděl vlak. Google se svým modelem Gemini Flash a Anthropic s modelem Haiku drtili 3.5 Turbo ve výkonu, v multimodalitě (vedle textu podpora dalších vstupů), a nejvíce v ceně – 3.5 Turbo bylo na dnešní poměry drahé a hloupé.
Malý, osekaný, ale šikovný
Jak už je u OAI zvykem, na začátku je víc slibů než funkcí. To platí i u Mini. Vypuštěná verze do ChatGPT zatím nemá podporu vision (nevidí obrázky), neumí kreslit, neumí s browsingem ani CustomGPTs, a nepodporuje přílohy.

Mini zatím v chatu podporuje jen text, pokud jste ve vlákně použili přílohy, nepůjde z Omni na Mini přepnout.
Verze pro API vision sice již podporuje, ale zbytek funkcí stále chybí. To vše má přijít v budoucnu. V benchmarcích na aréně lmsys ho ještě nenajdete, ale v průběžném měření (zveřejněné na X) se umístil v kategorii všeobecných dovedností mezi GPT-4 Turbo a GPT-4 (to je ten model, po jehož zveřejnění volala konkurence po půlroční pauze ve vývoji jazykových modelů), a předběhl i největší čínský model Yi. Z malých modelů vychází výkonově nejlépe.

Současně s 4o-mini zveřejnila OpenAI také tento graf. V porozumění textu, matematických úlohách a psaní kódu je ve třídě malých modelů (okolo 100b) lepší než 4o-mini jen Google Gemini Flash (a jen v jedné kategorii benchmarku MathVista).
Oživeno 24. července 2024 v 18:00 | Verze pro API sice už vision podporuje, ale zbytek funkcí stále chybí. To vše má přijít v budoucnu. V benchmarku na aréně lmsys se (k datu 24. června) umístil na neuvěřitelném druhém místě v kategorii všeobecné. Pamatujete, jak po zveřejnění modelu GPT-4 konkurence volala po pauze ve vývoji LLMs? Tak tento model nechal Mini daleko za sebou. V některých podkategoriích (třeba v ruštině) ale stále vede Sonet 3.5.

Na aréně můžete zvolit různé kategorie. Ne každý model je dobrý ve všem. Za povšimnutí stojí například to, že čínské modely nejsou nejlepší v čínštině.
Jak funguje aréna lmsys. Modely jsou hodnoceny v „battle“. Do pole napíšete prompt a dostanete dvě odpovědi. Pomocí čtyř tlačítek vyberete, jestli jsou obě špatné, obě dobré, nebo která z nich je lepší. Až poté se dozvíte, které modely byly použity. Modely hodnotí lidé, nikoliv stroje, a do hodnocení se můžete zapojit i vy. Na aréně se můžete dostat často i k modelům týdny před jejich oficiálním oznámením. Bylo to tak u modelu Omni, který byl na aréně k dispozici pod názvem „i-am-a-good-chatbot“ a i Mini (prostě označený jako GPT-mini).
Peníze na prvním místě
Výkonově je Mini na úrovni (a je divné to napsat) dnes již zastaralého modelu GPT-4. Cenově je o řády jinde. Zpracovat milión tokenů modelem Turbo vyjde na deset dolarů. S modelem mini vyjde stejný objem na patnáct centů. To je jeden a půl procenta původních nákladů při stejných schopnostech generování textu.
Tedy až na kontextové okno. To je u mini čtyřnásobné. Ale pozor. Jestli budete chtít například ve vašem firemním chatbotovi změnit model, musíte nejdříve znovu otestovat prompty. Mezi modely i od stejné firmy nejsou prompty stoprocentně přenositelné a složitější prompty nebudou dávat stejné výsledky. Zpracování obrázků nezlevnilo, u verze Mini i plnohodnotného Omni je cenově stejné.
Rychlost a zase rychlost!
Mini je neskutečně rychlé. U modelu Turbo jsme si zvykli, že generuje zhruba stejně rychle jako zvládáme číst. Mini generuje tak rychle, jak stíhám skrolovat po obrazovce. Na první pohled až zbytečně rychle.
Otevírá to však další možnosti, jak s LLMs pracovat, a přitom u toho nezestárnout. Třeba můžete modelu v jednom promptu zadat úkol, ať odpověď sám rovnou vyhodnotí, zda li splňuje zadání, odpověď upraví, klidně dvakrát, a na rychlosti práce se to neprojeví. Na kvalitě výsledku však ano. Narozdíl od předchozích verzí si ale kávu během generování udělat nestihnete.
Porovnání cen s konkurencí
- Za milion tokenů u Gemini Flash na vstupu zaplatíte 35 centů a za výstup 1,05 dolaru
- Anthropic Haiku: na vstupu 25 centů, na výstupu 1,25 dolaru
- GPT-4o mini: na vstupu 15 centů, na výstupu 60 centů
S Mini tak můžete buď dosáhnout nižších nákladů, nebo za stejné peníze propracovanějších výsledků. Snižující se ceny ale znamenají i další věc. Modely jsou méně energeticky náročné. Strach z nedostatku energie na provoz a ekologická stopa AI nás tak pomalu (velmi pomalu) může přestat trápit. Jak můžeme doslova v reálném čase vidět, vědci optimalizují modely a posouvají je k větší efektivitě a tím pádem i udržitelnosti.