Konstruktéři superpočítačů se celá desetiletí předháněli, kdo má nejrychlejší mašinu, no a my ostatní se pokaždé těšili, která z nich překoná zase nějakou tu další kulatou metu.

Postupem času se z toho všeho stala tak trochu rutina a běžný smrtelník si musí stále častěji klást nepříjemnou otázku, jak tyto neuvěřitelně výkonné superpočítačové clustery v praxi zlepšily život na planetě Zemi.

Podle čerstvého žebříku TOP500 pro listopad 2023 je i nadále nejrychlejším změřeným strojem americký Frontier s výkonem 1 194 petaflopsů.



Frontier je podle čerstvého žebříčku TOP500 i nadále nejrychlejší superpočítač

Jenže co to vlastně znamená? Co to znamená pro pana Nováka z Kozojed, že kdesi ve federálních laboratořích Oak Ridge stojí obrovský stroj, který dokáže znásobit 1 194 biliard reálných čísel za sekundu?

Stručně řečeno, je to fakt jen hodnota – byť o řád vyšší než před lety –, ale vlastně žalostně abstraktní a těžko uchopitelná.

Benchmark, který změří, co už dobře známe

Možná je tedy na čase poohlédnout se po něčem trošku jiném. Po benchmarku superpočítačů, které reálně mění životy a tuto změnu opravdu vidíme každý den.

Přesně takovým testem všech testů by mohl být MLPerf konsorcia MLCommons. Už má za sebou také pěknou řádku let, nicméně teprve v poslední době se dostává do širšího povědomí v souvislosti s nástupem generativní umělé inteligence. Přesně tu totiž mimo jiné testuje.



Sada nezávislých výpočetních úkolů MLPerf pokrývá prakticky všechny domény současné AI počínaje obrazovou detekcí a konče generativní AI, která kreslí a pohání chatboty

Stručně řečeno, inženýři z MLCommons připravili celý zástup nezávislých výpočetních úkolů, no a všichni zájemci si mohou vyzkoušet, jak rychle je zpracuje jejich vlastní hardware.

Ovšem pozor, těmi všemi zájemci nemáme na mysli našeho pana Nováka, který si dnes ráno zašel do alzaboxu pro nabušený herní laptop, ale trošku více provařená jména: Microsoft, Nvidii, Intel, Google a jejich stroje velikosti dodávky se zmrzlinou.



Generativní AI Stable Diffusion 2 v akci

Jedním z takových úkolů, ve kterém se musejí poprat, je například učení obrázkového generátoru Stable Diffusion 2 na datasetu LAION-400M. Jak už název napovídá, AI se v tomto případě učí kreslit na databázi 400 milionů obrázků, no a která mašina to zvládne rychleji, ta se v tabulce vítězů posune nejvýše.



Tabulka těch, kteří se na svém železe odvážili změřit dobu učení modelu Stable Diffusion 2

Jen tak mezi námi, superpočítač Nvidia Eos to zvládne za necelé tři minuty!

Kdo nejrychleji naučí jazykový model GPT-3

O Stable Diffusion přinejmenším něco málo slyšel úplně každý, ale během letošního roku jej doslova převálcovala jeho konkurence zosobněná službami Midjourney a nejnovějším modelem DALL-E 3.

V testovací sadě MLPerf je nicméně (mezi desítkami dalších) ještě jedno a mnohem provařenější jméno: GPT-3!

Ano, to GPT-3, které je dědečkem současné nejpokročilejší generace velkých jazykových modelů GPT-4 od společnosti OpenAI. Inženýři a manažeři z nejslavnější firmy současnosti se nám sice v posledních dnech rozhádali jako parta čtrnáctiletých puberťaček, to ale nic nemění na tom, že si úplně každý fanoušek technologií včetně pana Nováka z Kozojed dokáže představit, že učení něčeho tak komplexního jako GPT-3 bude asi fakt šílené.

Soutěží Nvidia, Intel, Google i Microsoft

Výzva, kdo nejrychleji naučí GPT-3 psát, je sice součástí GPTPerf už nějaký pátek, do něčeho tak drahého se už ale opravdu nepouští každý, takže chvíli trvalo, než jsme se dočkali prvních odvážlivců.

V poslední době se konečně přidala většina velkých jmen, a tak se konečně můžeme podívat, komu to zabralo nejkratší čas. Mimochodem, všichni, kdo se chtěli zapojit, museli GPT-3 naučit na datasetu C4. Stojí za ním Google a je to kompilát 7 terabajtů surového textu z korpusu Common Crawl. Dnes je to v podstatě jedna ze standardních učebnic všech podobných chatbotů.

Chceš-li se naučit smysluplně psát své myšlenky, začni číst těchto 250 miliard normostran…

Výsledky posledního kola z listopadu 2023

Takže dost řečí a jdeme na výsledky z posledního kola MLPerf v3.1 ke dni 8. listopadu 2023. V souboji se popral různě dimenzovaný hardware od Intelu, Googlu a Nvidie.

Mašiny seřadíme od té nejpomalejší podle doby, jak dlouho ji trvalo učení GPT-3. Opět ale připomenu, že slovíčko nejpomalejší zde stále znamená sakra zatraceně rychlý!

Provozovatel CPU Akcelerátor (počet) Doba učení (minuty) Intel Intel Xeon Platinum 8380 Intel Gaudi2 (256) 223,91 Intel Intel Xeon Platinum 8380 Intel Gaudi2 (384) 153,58 Nvidia Intel Xeon Platinum 8480 Nvidia H100 (512) 58,30 Google AMD Epyc 7B13 Google TPU (4096) 44,68 Nvidia Intel Xeon Platinum 8480 Nvidia H100 (768) 40,63 Nvidia Intel Xeon Platinum 8462 Nvidia H100 (4096) 8,57 Nvidia Intel Xeon Platinum 8462 Nvidia H100 (6144) 6,03 Nvidia Intel Xeon Platinum 8462 Nvidia H100 (8192) 4,87 Nvidia Intel Xeon Platinum 8462 Nvidia H100 (10240) 4,07 Microsoft Intel Xeon Platinum 8480 Nvidia H100 (10752) 4,01 Nvidia Intel Xeon Platinum 8462 Nvidia H100 (10752) 3,92

Intel, respektive jeho dceřinka Habana Labs si vyzkoušela, jak dlouho bude trvat vycvičit chatbota na dvou mašinách s 256 a 384 akcelerátory pro generativní AI a zvláště velké jazykové modely vlastní produkce Intel Gaudi2.

Hodiny na mašinách od Intelu

Gaudi2 je nádherný kus křemíku s 24 výpočetními jádry a rychlou 96GB pamětí, který nasadilo třeba skladiště veřejných AI modelů HuggingFace.



Intel Gaudi2

Když jich někde splašíte 256 a přidáte pár prémiových xeonů, vlastní GPT-3 vycvičíte za necelé čtyři hodiny. A pokud jich zapojíte 384, stáhnete čas na ještě příjemnější 2,5 hodiny.

44 minut v Google Cloudu

Intel Gaudi2 byl donedávna v benchmarku MLPerf jediným soupeřem Nvidie, takže všechna čest, jenže teď se zapojil i Google. Ve svém datacentru vyhradil pro test cluster s 512 AI akcelerátory Google TPU v5e (Tensor Processing Unit) vlastní výroby a serverovými procesory řady AMD Epyc. Díky tomu stáhl učení GPT-3 na pouhých 44 minut!



Skříně plné Google TPU a AMD Epyc

V Habana Labs ale ještě smutnit nemusejí, Google TPU si totiž firma syslí jen pro sebe a nejsou k dispozici pro ostatní. Ne že byste snad Gaudi2 sehnali v krámě přes ulici, ale je to běžný komerční produkt Intelu.

4 minuty na Microsoft Azure

Tak či onak, teď jsme si ukázali fakt brutálně rychlé stroje a my upřímně tleskáme, ale teď už prosím žádáme, ať se na parket dostaví Nvidia, zbytek bitevního pole totiž patří jejím AI superpočítačům Eos nacpaným až po okraj AI akcelerátory Nvidia H100. Ty se teprve teď pomaličku dostávají do veřejných cloudů a jedním z nich je Azure.



Výpočetní karta H100

Takže prosím vás, pokud si tykáte s Jensenem a nějakým zázračným způsobem se stejně jako Microsoft dostanete k jeho mašině s 10 752 akcelerátory H100-SXM-80GB, vlastní velký jazykový model úrovně GPT-3 vycvičíte za jen těžko uvěřitelné 4 minuty!

3,92 minut a vítězství pro Nvidii

Ale ani tato mašina není rekordmanem posledního vydání benchmarku MLPerf. Tím je totiž prakticky identický stroj opět s 10 752 jednotkami H100 (ale doplněný odlišnými prémiovými xeony), který si ale tentokrát otestovala přímo sama Nvidia u sebe doma.



Nvidia se chlubí, že v novém vydání benchmarku ještě rychlejší

Díky tomu stáhla čas na 3,92 minut a jestli ji v dohledné době někdo překoná, už teď víme, že to bude leda tak opět ona sama, protože nikdo jiný tu už prostě není.

Pokud tedy chcete zůstat v obraze, jak rychle se učí umělé inteligence, které před rokem začaly výrazně měnit svět, výstupy MLPerf si určitě uložte do oblíbených.