Umělá inteligence | Nvidia | Superpočítače

Největší a nejtěžší superGPU světa pro AI váží jako čtyři sloni. Budou ji testovat Microsoft, Google a Meta

Jakub Čížek 31. května 2023

Další
článek Ultrazvukové impulzy uvádějí myši do stavu podobného hibernaci SDÍLET NA FACEBOOKU TWEETNOUT

Nvidia DGX GH200 je nejvýkonnější AI superpočítač na světe
Chová se jako jediná GPU a zákazníky bude Google, Microsoft a Meta
Nvidia dnes nepřímo ovládá celý sektor AI

ChatGPT dokáže divy, ale není to žádné perpetuum mobile. Generativní umělá inteligence je totiž šíleně drahá. Podle některých a hojně citovaných odhadů by denní provoz chatbota mohl přijít až na 700 tisíc amerických dolarů.

AI chatboti jsou pouze začátek. Brzy s námi budou o počasí debatovat i znudění barmani ve videohrách

A to se bavíme jen o inferenci – používání už vycvičené AI. Samotné učení podobného automatu může být ještě o řád dražší.

Technologie totiž opět předběhla dobu, takže pokud se právě teď nacházíme v bodě zlomu a generativní AI bude stejně velkou revolucí jako třeba komercializace internetu v 90. letech minulého století, budeme potřebovat také zcela novou generaci železa, které vůbec umožní její běh.

Keynote šéfa Nvidie na letošním Computexu:

Abychom si to celé ukázali v nějakém kontextu, přivítejme prosím na pódiu Jensena Huanga, výkonného ředitele Nvidie, kterému patřila úvodní keynote veletrhu Computex 2023. Pane Huangu, tak nám to konečně vysvětlete.

ChatGPT na CPU přijde na 10 milionů dolarů

Dejme tomu, že máte klasické datacentrum postavené hlavně na serverových CPU – ať už od Intelu, nebo AMD. Datacentrum, které je dodnes zdaleka nejrozšířenější, protože jeho výstavba je drahá a nese v sobě proto i určitou technologickou setrvačnost.

Máte jen serverové CPU? Tak to vás prý přijde vycvičení ChatGPT na 10 milionů dolarů

Pokud byste chtěli v podobné serverovně vycvičit vlastní velký jazykový model (LLM), který pohání třeba ChatGPT, nový Bing nebo chatbota Google Bard, budete podle Jensena potřebovat:

Cluster s 960 servery na bázi CPU
11 GWh elektrické energie
10 milionů dolarů

Toto je tedy odpověď na otázku, proč máme na scéně tak málo opravdu zdatných chatbotů. Není to prostě žádná sranda, na kterou vyděláte noční brigádou v Makru.

Mimochodem, velkých jazykových modelů jsou dnes desítky, ale svojí kvalitou se v praxi ani náznakem nepřibližují tomu, co nabízí třeba právě ChatGPT, Bing a Bard.

Se stejným rozpočtem vycvičíme na GPU 44 velkých jazykových modelů

Asi nebude překvapením, že má Jensen mnohem více raději GPU a jejich použití pro akcelerované výpočty. Ostatně, bez Nvidie by se žádná AI revoluce vůbec nekonala, její akcelerátory totiž pohánějí prakticky všechny velké hráče počínaje duem OpenAI/Microsoft a konče Googlem a Amazonem.

Stejný rozpočet, ale namísto klasických procesorů GPU

Takže kdybychom měli stejně jako v předchozím případě rozpočet 10 milionů dolarů, s GPU dostaneme podle Jensena toto:

Cluster se 48 GPU servery
44 vycvičených velkých jazykových modelů LLM
A to vše za 3,2 GWh propálené elektřiny

Limitem často nejsou peníze, ale spotřeba

Pro mnoho datacentrových operátorů nicméně nejsou limitem peníze – 10 milionů USD jsou pro digitální obry při vší úctě jen drobné –, ale právě elektrická spotřeba.

Spotřeba, která nezvedne z židle místní úřady, od kterých potřebujete razítko. A také spotřeba, kterou bude možné co nejvíce pokrýt z OZE, abyste nebyli v rozporu se svojí vlastní politikou uhlíkové neutrality.

Stejná původní spotřeba energie CPU (11 GWh), ale tentokrát na GPU

Pokud by tedy bylo stropem původních 11 GWh, které jsme s brutální neefektivitou propálili na CPU serverech, pak bychom podle Jensena získali ekvivalent:

172 GPU serverů
150 vycvičených velkých jazykových modelů LLM

Sto padesát modelů za energetickou cenu jednoho cvičeného čistě na CPU. Zní to jako z letáku nejbližšího supermarketu, ale je to velmi důležité, protože tím pádem máme rozpočet k tomu, abychom jednoho chatbota mohli vícekrát přeučit a vyzkoušet různé konfigurace. Dělají to tak všichni a bez toho by to ostatně ani nešlo.

Suma sumárum, cena jednoho přeučení ChatGPT nám klesla na 400 tis. dolarů a 130 MWh

Touto optikou pak jeden jediný velký jazykový model přijde zhruba na 400 tisíc amerických dolarů, ve kterých je započítaná celá režie provozu dvou GPU serverů Nvidia HGX H100, jenž během učení dohromady propálí 130 MWh elektřiny.

Současnou revoluci v AI pohání třicetikilogramové desky HGX H100

A přesně to se dnes děje. Jestli chcete někomu poděkovat za to, že za vás ChatGPT vyřešil třeba školení BOZP, poděkujte Jensenovi, základní desky HGX H100 s osmi GPU jednotkami architektury Hopper dnes totiž pohánějí úsvit generativní umělé inteligence.

To není prvoplánová reklama na americkou korporaci. To je prostě fakt.

HGX H100 se stará o nejnáročnější operace v cloudech Microsoftu, AWS i Googlu

Na HGX H100 a dalších technologiích od Nvidie se učily jak nejnovější velké jazykové modely OpenAI, tak ty od dalších hráčů, kteří si to mohou dovolit. Ve svých datacentrech je má samozřejmě Amazon Web Services, Google Cloud, Oracle Cloud a pohání také sociální impérium Marka Zuckerberga – Metu.

Nvidia je do jisté míry skutečným pánem současného boomu generativních AI. Bez jejího železa a systémů by to nebylo prakticky vůbec možné, anebo extrémně drahé

HGX H100 je sám o sobě zázrak techniky. Základní deska s půdorysem ne moc větším než motherboard vašeho domácího PC váží úctyhodných 29,5 kilogramů a pokud byste si něco podobného chtěli spájet u sebe v dílně, připravte si 35 tisíc komponent.

HGX H100 váží skoro 30 kilogramů, takže ho do rackových skříní instalují roboti

Úctyhodná je ale i cena. HGX H100 vás přijde na cirka 200 tisíc amerických dolarů, což z něj dělá nejdražší jednodeskový počítač na světě.

Superčip Grace Hopper GH200 v produkci

Nicméně ani to nestačí dnešním nárokům. HGX H100 se teprve relativně nedávno dostal do masové výroby, ale tempo vývoje na poli AI je tak děsivé, že už těm největším výzvám prostě nestačí. Touto dobou je už proto v sériové výrobě jeho nástupce – kombinovaný superčip GH200 s architekturou Grace (CPU) Hopper (GPU).

GH200 je takový Supercomputer on Chip pro AI

Bude stavebním pilířem nové generace generativních AI v nejbližší době, i když i on nejspíše brzy zestárne. Tempo doby je totiž šílené.

Počítač vyrobený pro generativní AI

Parametry kombinovaného superčipu GH200 jsou bez nadsázky ohromující. Na relativně malé desce je k výpočtům připraveno bezmála 200 miliard tranzistorů v CPU a GPU části, které propojuje rozhraní NVLink C2C rychlostí 900 GB/s (half-duplex, takže 450 GB/s na každý směr). GPU má k dispozici až 96 GB paměti HBM3 (3 TB/s), nejvýše 72 armových jader CPU pak až 512 GB LPDDR5X (546 GB/s).

Logické schéma GH200 (Z dokumentace)

Díky tomu by měl superčip Grace Hopper dosahovat výpočetního výkonu okolo 6 PFLOPS TE. To „TE“ je velmi důležité, je to totiž zkratka pro Transformer Engine.

Transformer je architektura strojového učení, která dnes pomalu zažívá svůj raný zlatý věk, vycházejí z ní totiž prakticky všechny současné velké jazykové modely a pravděpodobně se prosadí i v dalších oblastech generativní AI.

GH100 vycvičí LLM s 65 miliardami parametrů 284× rychleji než obvyklý CPU server

Stručně řečeno, superčip od Nvidie je doslova navržený pro chatboty a spíše než čip je to SCoC – kompletní SuperComputer on Chip, který má k dispozici více grafické paměti než mnohé specializované AI servery.

Exascalová superGPU s hmotností čtyř slonů

Jenže… Jenže ani to nestačí. No vážně, jen málokdo si uvědomuje brutální složitost AI, za každým chatbotem se totiž skrývá jen těžko představitelný a nutný výpočetní výkon. Pokud dnes tedy mnozí komentátoři tak rádi předvídají, komu všemu AI sebere práci, nejprve k tomu musíme mít to železo.

Jak složit ze superčipů superpočítač:

Co kdybychom tedy 8 superčipů GH200 propojili opět NVLinkem do vyššího celku a těchto 32 vyšších celků do jedné velké obludy? Získali bychom tak mašinu s 256 superčipy – Nvidia DGX GH200.

Jensen nicméně na keynote zdůraznil, že díky extrémně rychlým rozhraním se bude takový organizmus spíše než jako běžný a škálovatelný superpočítačový cluster (v podstatě rychlá optická síť dílčích serverů vedle sebe) chovat jako jedna výpočetní GPU jednotka.

Chová se to jako jedna obrovská GPU, zdůraznil Jensen

„Není to distribuovaný systém, ale propojený,“ připomněl Jensen a zavtipkoval, že to je tím pádem největší a nejtěžší grafická karta o hmotnosti čtyř slonů – 18 tun.

Superpočítač DGX GH200 chladí přes dva tisíce 60mm větráčků a jednotlivé komponenty propojuje 241 kilometrů vysokorychlostní optické kabeláže. Mašina má dohromady k dispozici brutálních 144 TB sdílené grafické paměti a 1000 PFLOPS pro strojové učení a inferenci transformerů.

Je to dobré, v ceně je tříletá záruka...

S mašinou si zadovádí Google, Microsoft a Meta

Je to první exascalový superpočítač vyrobený přímo pro AI, takže není divu, že prvními zákazníky bude také velké trojka Microsoft, Google a Meta. Nvidia nicméně slibuje, že to není experiment na míru, ale počítá se sériovou výrobou. Cena bude nicméně astronomická a stravenky nejspíše neberou.

Již brzy ve vašem cloudu a na Facebooku

Dnešní AI je 5000× složitější než před deseti lety

Už teď je každopádně jisté, že i DGX GH200 brzy zestárne. Zatímco před deseti lety dosahovaly ty nejkomplexnější neuronové sítě 62 milionů parametrů (naučené rozhodovací váhy na softwarových neuronech; měřítko složitosti počítačových neuronových sítí), velký jazykový model PaLM od Googlu má podobných parametrů 340 miliard.

Srovnání dvou AI z let 2012 a 2022

A zatímco před deseti lety se takové obrázkové neuronky učili rozpoznávat dění ve scéně na 1,2 milionech fotografií, dnešní PaLM se učil konstruovat text na 3,5 bilionech tokenů (token má zpravidla délku v řádu nižších jednotek znaků).

Počet parametrů je analogií rostoucí výpočetní náročnosti, velikost studijních dat pak té paměťové. Pokud bude složitost LLM dále růst, dorazí GPT-5 a další, nebude stačit ani nový superčip.

Co je to parametr AI

Parametrem neuronové sítě jsou váhy a jejich korekční biasy. Váhy Jsou strojovým učením vycvičené rozhodovací koeficienty na softwarových synapsích mezi neurony. Čím více parametrů, tím komplexnější znalost AI.

Naučená váha (V) je koeficient pro aktivační funkci (f), která zpracovává vstup (X). Do hry vstupuje ještě tzv. bias, ale raději to nebudeme dále komplikovat

Jen parametry ale nestačí. Záleží také na kvalitě – pestrosti – studijních dat a samozřejmě také na co nejefektivnější architektuře samotné neuronové sítě, Parametrům jsme se věnovali v samostatném článku o velkém jazykovém modelu LLaMA.

Diskuze (36) › Další článek: Ultrazvukové impulzy uvádějí myši do stavu podobného hibernaci

Témata článku: Hardware, Umělá inteligence, Nvidia, Čipy, Chatovací AI, AI ve vyhledávačích, Superpočítače, AWS