Něco takového tady ještě nebylo. Meta před pár dny zveřejnila jednu z největších AI na světě Llama 3.1 405B. GPT-4o nebo třeba Gemini 1.5 od Googlu jsou sice ještě mnohem mohutnější, ale jejich tvůrci je bezpečně střeží ve svých datacentrech.



Meta Marka Zuckerberga zveřejnila doposud největší svobodný jazykový model

Vycvičené jazykové modely z rodiny Llama jsou naopak k dispozici pod svobodnou licencí, a tak si je můžete celé stáhnout na počítač, spustit u sebe doma a dělat si s nimi, co se vám zlíbí. Právě to činí z Llama 3.1 405B naprostý unikát, takhle chytrá AI úplně pro každého tu je totiž opravdu poprvé.

Llama 3.1 v kostce:

Oficiální chatbot: Meta AI (pouze v USA)

Meta AI (pouze v USA) Licence: Svobodná, modely ke stažení

Svobodná, modely ke stažení Velikostní verze: 405B, 70B, 8B

405B, 70B, 8B Kontextové okno (paměť na souvislý chat): 128 tisíc tokenů

128 tisíc tokenů Faktografická znalost: prosinec 2023

prosinec 2023 Podporované jazyky: Angličtina, němčina, francouzština, italština, portugalština, hindština, španělština, thajština (další negarantované)

Angličtina, němčina, francouzština, italština, portugalština, hindština, španělština, thajština (další negarantované) Umí programovat: Ano

Jak se staví AI chatbot v roce 2024

Pokud už kontrolujete svoji výbavičku a oprašujete grafické karty, možná si raději nejprve přečtěte technickou zprávu The Llama 3 Herd of Models. Meta v ní na 92 stranách hutného textu popisuje celý proces učení svého obra a zároveň nutnou výstavbu hardwarové infrastruktury, aby to bylo vůbec možné.



Llama 3.1 a výsledky v široce respektovaných benchmarcích. Verze 405B v některých testech překonává i proprietární konkurenci jako GPT-4 a Claude 3,5 Sonnet

A protože Google, OpenAI a další u svých proprietárních modelů až tak otevření nejsou a nechávají si klíčové know-how hlavně pro sebe, dokument je docela názornou sondou, co všechno v roce 2024 potřebujete k tomu, abyste vyrobili AI chatbota.

Chatbota, který bude ve své podstatě stále hodně natvrdlý, ale už bude svým intelektem docela věrně napodobovat kdejakého souseda.

Rozvařený květák vs. farma GPU

Lidský mozek je svým způsobem zázrak. Podivná hmota s konzistencí rozvařeného květáku dokáže dlouhé hodiny a bez přestání generovat relativně spojitý text na Facebooku a Twitteru a během jednoho večera vytvoří doposud netušené kombinace Caps Locku, nadávek a hrubek.



Meta má sice vlastního webového chatbota, kde už běží i Llama 405B, ten ale není dostupný v zemích Evropské unie včetně Česka

Jistě, GPT-4o nebo Claude 3.5 Sonnet to zvládnou také, jenže ten zatracený květák k tomu potřebuje pouze pár set kalorií denně a při počítání se v nitru místy rozpálí jen na směšných 40 °C. To vše bez mohutného chlazení.

Fajn, dost bylo lidí. Co je třeba k tomu, aby to samé dokázala AI Llama 3.1 405B?

Aby mohl velký jazykový model psát stejně dobře jako člověk, musí se nejprve naučit skládat písmenka do smysluplných slov a vět.

Základem všeho je pre-training

Meta tomu říká pre-training a je to fáze, kdy si AI statisticky modeluje, že sled znaků „každý den ráno čtu Živě.cz“ má mnohem vyšší kvalitu než „dsg fesg rgtretrhe wqweqf“.

Právě během tohoto pre-trainingu potřebuje neuronová síť pročíst miliony a miliony stránek textu a učí se vnitřní strukturu jednoho z největších vynálezů lidské evoluce, díky kterému si už veškeré znalosti nemusíme předávat z generace na generaci orálně.

Mimochodem, jen drobná odbočka, právě proto došlo k takovému rozmachu civilizace až v okamžiku, kdy jsme vynalezli písmo a naučili se psát. Díky tomu si totiž už nemusíme všechno pamatovat a můžeme se při bádání více specializovat a řešit nové problémy. Stručně řečeno, už nemusíme stavět pouze chýše a zemljanky, ale i katedrály, viadukty a poličky z Ikey.

Llama 3.1 se učila na 15 bilionech tokenů textu

Llama 3.1 se učila chápat psané slovo hlavně díky World Wide Webu. Kdyby tu nebyl, nebyly by ani žádní chatboti, z webu se totiž stal levný a technicky dostupný zdroj dat prakticky pro všechny výzkumníky v oblasti velkých jazykových modelů. Inženýři tedy na sklonku loňského roku stáhli tu kvalitnější část veřejně dostupného internetu a vyrobili z ní obrovský soubor více než 15 bilionů tokenů.

Jen připomenu, že neuronové sítě jazykových modelů ve skutečnosti nepracují s písmenky jako my lidé, ale s číselnými kódy – tokeny –, které reprezentují jednotlivé znaky a jejich menší shluky.

Zadek je 57, 1037, 74

Takže takové slovíčko zadek je třeba pro GPT-4 ve skutečnosti jen sled čísel 57, 1037 a 74 (Z, ade, k) a stroj si při učení vytváří sítě statistických vazeb mezi každým z nich.



Zadek v překladači Tokenizer od OpenAI. Slovníky ostatních velkých jazykových modelů včetně Llamy se mohou lišit, základní princip je ale u všech stejný

Mimochodem, protože příprava ohromného množství dat pro učení skončila v závěru roku, veškerá faktografická znalost Llamy 3.1 končí v prosinci 2023. Ne, opravdu vám neřekne nic věcného k zahajovacímu ceremoniálu letošních olympijských her.

16 384 nesmírně drahých grafik Nvidia H100

Fajn, takže máme jakýsi korpus 15 bilionů tokenů (čili nejspíše několik desítek bilionů skutečných písmenek), navrhli jsme algoritmus neuronové sítě, která je bude zpracovávat a modelovat zmíněné vzájemné vztahy mezi nimi, a ještě potřebujeme počítač.

Asi tušíte, že takový se vám do alzaboxu opravdu nevejde, Meta si totiž pro cvičení svých ďábelských automatů musela postavit zcela novou superpočítačovou infrastrukturu, kterou Llama 3.1 405B vytížila skoro na maximum.



Server Meta Grand Teton s osmi akcelerátory Nvidia H100. K učení Llamy 3.1 405B jich tedy potřebujete tisíce

Slovy čísel, Llama 3.1 405B k učení potřebovala 16 384 GPU akcelerátorů Nvidia H100. Každý z nich má k dispozici 80GB rychlé paměti HBM3, úctyhodný příkon 700 W a Meta je po osmi namontovala do svých výpočetních serverů Grand Teton a propojila rozhraním NVLink.

Kdyby Meta prodávala tetony třeba na zmíněné Alze, jeden by při současných cenách dílčích komponent vyšel na stejnou částku jako menší byt v dobré pražské čtvrti.

Armáda SSD s propustností až 7 TB/s

Fajn, hrubou výpočetní sílu bychom tedy měli, všechny jednotky ale ještě potřebují přístup ke studijním datům na společném úložišti. O to se už postaral klastr sestavený z tisíců SSD jednotek o souhrnné kapacitě 240 PB a s typickou propustností 2 TB/s (ve špičce až 7 TB/s).

Toto vše nakonec doplnila rychlá optická síť – opět plná superlativů –, pomocí které celý paralelní systém fungoval dohromady.

39 milionů GPU hodin času

Tak a teď otázka za milion. Za jak dlouho se na takto brutálním výkonu promění tupý program v jazykový model, který se ještě nechová jako lidský chatbot, ale už umí generovat smysluplný text?

Zdráhám se to napsat, ale za dveřmi Mety trval pre-training celých 54 dnů! Anebo také 39,3 milionů GPU hodin všech paralelně zapojených akcelerátorů.



GPU hodiny propálené učením různých verzí velkého jazykového modelu Llama 3.1

Pokud si tedy kladete otázku, proč zatím globální komunita vyprodukovala vlastně jen několik málo základních velkých jazykových modelů, odpověď je prostá. Je to šíleně drahé. Je to šíleně drahé nejen optikou nutných investic do hardwaru, ale i poté, když to všechno vůbec spustíte – tedy leda že byste měli v rodině Montgomery Burnse a jeho Springfieldskou jadernou elektrárnu.

Není vůbec náhodou, že většinu těch největších AI provozují operátoři rozsáhlých cloudových infrastruktur s dostatečně dimenzovaným zázemím. Ostatně, i takový Apple nakonec necvičil své AI u sebe, ale na akcelerátorech TPU v datacentrech Googlu.

Velký jazykový model ještě není chatbot

Dobrá, dejme tomu, že jsme všechny tyto komplikace zdárně vyřešili a Llama 3.1 k naší radosti konečně vytváří smysluplné věty. Ale pozor, stále je to jen velký jazykový model. Stručně řečeno, nemá ještě roli – nemá sociální a emoční inteligenci a neví, jak vést dialog.

Tuto fiktivní lidskost, díky které nám chatboti připadají, jako by skutečně měli vědomí, si totiž musejí také namodelovat v druhé fázi učení, tedy post-trainingu. Říkáme tomu také fine-tuning, obecně alignment a už jsme si ho vysvětlili na příkladu OpenAI v samostatném článku.

Velké jazykové modely se v této fázi zpětnovazebně učí vyšším slovním abstrakcím. Vědci jim tedy předkládají lidské dialogy s hodnocením kvality a budoucí chatbot se postupně učí, že má na sled tokenů: „Ahoj, jak se máš?“ odpovídat slovy: „Ahoj, jsem nápomocný chatbot a mám se dobře“ a nikoliv: „Pizza s ananasem“ nebo třeba: „Pošlu vás všechny do plynu!“

Prosím, nijak to nezlehčuji – ilustruji tu neskutečnou úroveň sémantické abstrakce, se kterou se musejí budoucí chatboti ještě vypořádat. Musejí si s pomocí lidských cvičitelů namodelovat, co je to dobré vychování, lidskou etiku a hromadu dalších věcí, aby se počáteční astronomická investice opravdu vyplatila.

Byť totiž občas zaznívají slova, že mají současní chatboti až příliš silnou autocenzuru (i ChatGPT byl v prosinci 2022 nesrovnatelně svobodnější než dnes), kdo z vás by si troufl vypustit do světa kecálka, který pak někomu poradí, jak úspěšně spáchat sebevraždu nebo kybernetický útok. Ostatně, nic z toho neudělá ani Grok Elona Muska, ačkoliv se svérázný majitel sítě X nechal tolikrát slyšet, že spustí tu nejsvobodnější AI na světě.

Něco takového si dnes prostě žádný komerční subjekt nemůže dovolit, smršť hromadných žalob při prvním velkém průšvihu by totiž byla bez nadsázky likvidační.

Máme hotovo, teď přišel čas na inferenci

Výborně, právě jsme úspěšně dokončili pre-training i post-training a máme k dispozici neomezené množství energie ať už od pana Burnse, nebo z rozsáhlých fotovoltaických a větrných farem Mety a jejích dodavatelů (Meta chce být uhlíkově neutrální, takže žádná fosilní paliva!).

Nastal tedy čas na inferenci. Inference je přesně ten proces, kdy používáme AI jakéhokoliv druhu jako koncový uživatel. Prostě pošleme nějaký vstup do její neuronové sítě a ta podle teď už učením nastavených rozhodovacích vah vyplivne nejpravděpodobnější výsledek.

Inference Llamy potřebuje 16 grafik H100

Lidé si často neuvědomují, že i když je inference mnohem méně náročný proces než učení, i k ní potřebujeme u (opravdu) velkých jazykových modelů superpočítač. Pokud má Llama 3.1 405 miliard parametrů, ty musejí být do jednoho načtené v grafické paměti.



Llamu 3.1 nabízejí k inferenci i dalšímu fine-tuningu mnozí cloudoví operátoři na jejich vlastním železe, což může experimentování zpřístupnit širšímu spektru expertů

Llama 3.1 405B proto potřebuje k inferenci nejméně 16 akcelerátorů H100 s jejich už tak obrovskou RAM. Meta toho docílila paralelním propojeních dvou serverů Grand Teton. Jistě, 16 GPU je méně něž 16 tisíc jednotek, stále to jsou ale dva pražské byty na dobré adrese.



Ceník inference Llamy 3.1 skrze API cloudových operátorů (cena za milion zpracovaných tokenů), což je zdaleka nejjednodušší způsob, jak si dnes strojově hrát s AI

I když tedy Meta uvolnila naučený model široké komunitě – byť si i nadále hlídá, komu umožní stažení (registrace a podpis elektronické smlouvy je nutností) –, v praxi se tu bavíme spíše o akademické sféře a komerčních týmech s patřičnými rozpočty.

Anebo snížené rozlišení – kvantizaci

Druhou možností, jak rozjet největší Llamu všech dob, je tzv. kvantizace (quantization), což je velmi jednoduše řečeno snížení bitového rozlišení naučeného modelu a používá se právě tehdy, když potřebujeme rozjet velký jazykový model i na relativně běžném domácím počítači s herní grafikou od Nvidie.

Původní Llama 3.1 s 16bitovou přesností inference tedy může běžet i v 8bitové přesnosti, čímž se sice může snížit i její kvalita inteligence, ale u běžné debaty to zpravidla není až taková tragédie. Je to vlastně stejné jako s fotografií. Zatímco na většinu momentek pro Instagram stačí běžný JPEG s obvyklou ztrátovou kompresí, klíčové životní okamžiky si archivujete v co nejvyšší kvalitě.

Pro nás je podstatné, že velký jazykový model s kvantizací zabere v GPU RAM mnohem méně místa, a tak potřebuje k inferenci mnohem méně grafických karet. I tak bude ale verze 405B pro běžné mašiny nepřekonatelně velké sousto.

Pro ty tu jsou zmenšené verze AI a Llama 3.1 není výjimkou. Obrovský model 405B proto doplňuje ještě 70B a konečně 8B, který už opravdu utáhne i domácí železo s herní grafikou. Počítejte ale s tím, že to ani tak nebude žádný rychlík jako na webu, kde mají chatboti o několik řádů rychlejší zázemí.

Demokratizace AI je stále vzdálený sen

Parametry Llamy 3.1 405B a důkladný popis jejího učení a výstavby infrastruktury v posledním roce jsou úctyhodné, ale zároveň v plné nahotě ukazují, že se v dohledné době určitě nebude konat žádná demokratizace AI v tom smyslu, že si ji vyrobí úplně každý na koleni.

Špičková AI je dnes prostě to nejdražší, co se kdy objevilo na poli informačních technologií.

Nvidia sice každý rok představuje nové a nové akcelerátory, které jsou zase o kus efektivnější, to ale rozhodně nevede ke zlevňování, protože je používáme ke cvičení zase o něco složitější AI.

AGI bude šíleně drahá

A to jsme přitom stále na úplném začátku. Pokud se dnes bavíme o tom, za kolik let vycvičíme vysněnou AGI (umělá obecná inteligence), která už člověka překoná ve všech myslitelných intelektuálních úlohách, je třeba také připomenout, že to bude na současných počítačových architekturách neuvěřitelně drahá záležitost.

A zároveň vlastně ani nevíme, v jakém okamžiku už o nějakém budoucím LLM dokážeme spolehlivě říci, že opravdu dosáhl úrovně AGI, protože nám zatím chybí široce uznávaná definice toho, co to vlastně je. Pokouší se o ni OpenAI a Google, ale zatím jsou příliš vágní.

AI potřebuje hlavně energetickou revoluci

I když tedy médii občas prolétne úvaha, kdo všechno kvůli AI přijde o práci, je třeba stále dokola připomínat, že AI není zázračné perpetuum mobile a oproti rozvařenému květáku z úvodu článku potřebuje k běhu astronomické množství energie.

Skutečnou revolucí tedy bude chvíle, kdy vyřešíme právě tento bazální problém a chatboti zítřka s inteligencí AGI poběží na kdejakém domácím počítači stejně samozřejmě jako kalkulačka ve Windows.