Grafické karty | Nvidia | Datacentra

Nvidia Ampere: Obří nášup výkonu dostanou nejdřív datacentra, pak ale i běžné počítače

  • Nvidia představila novou architekturu Ampere
  • Základem je 7nm výroba u TSMC
  • Nová architektura několikanásobně zvyšuje výkon při použití tensor jader

Po velmi dlouhé čekání jsme se konečně dočkali nástupce architektury Volta, která vládla serverům, datacentrům a superpočítačům po celém světě. Nvidia Ampere je nová architektura, která se zaměřuje jak na segment serverů, ale oproti architektuře Volta bude společná i pro herní segment. V současné generaci byly herní karty postavené na mírně odlišné architektuře Turing.

Nvidia s novou architekturou Ampere představila i nový čip, který má sám o sobě rekordní hodnoty a ještě více to platí u kompletního serveru DGX A100, jež obsahuje celkem osm těchto čipů. Podíváme se tak na podrobné informace.

GA100 a 54,2 miliardy tranzistorů

Výpočetní karta Nvidia Ampere A100 se pyšní mnoha rekordními parametry, které jsou opravdu důležité pro oblastí, kam cílí -+ servery, datacentra, superpočítače, převážně zaměřené na umělou inteligenci. Základem je obří jádro o velikost 825 mm2 (V100 mělo rozměry 815 mm2), které je složené z 54,2 miliardy tranzistorů. To je téměř 3× více, než bylo u minulé generace Volta (V100), která měla u největšího čipu 21,1 miliardy tranzistorů.

Takto obrovský skok v počtu tranzistorů má za následek hlavně pokročilejší 7nm výroba u TSMC (minulá generace se vyráběla 12nm procesem), ale nutné byly i další optimalizace v hustotě logiky.

GA100_Card_678x452.jpg
Nvidia Ampere A100

Kolem čipu se nachází celkem 40 GB rychlé paměti HBM2, která má šířku sběrnice 5 120 bitů a propustnost 1,6 TB/s. Propustnost je tak téměř dvakrát vyšší než u V100 (900 GB/s).

Pokud jde o základní specifikace jádra s frekvencí 1,41 GHz, tam se příliš žádného „wow“ efektu nedočkáme – k dispozici je 6 912 cuda jader a výkon v SP (FP32) je 19,5 TFLOPS, v DP (FP64) pak 9,7 TFLOPS. Starší V100 poskytovala 15,7 TFLOPS, respektive 7,8 TFLOPS.

A kde jsou tedy ty neuvěřitelné skoky ve výkonu? Nvidia se pustila do maximalizace výkonu ve spojení s tensor jádry.

Výkon tensor jader až 20× oproti Volta V100

Nvidia s novou architekturou významně rozšířila podporu výpočtů s různou přesností pomocí tensor jader. Kromě INT4, INT8, BF16, FP16, FP64 přibyl i nový formát TF32, přičemž všechny využívají tensor jádra. A nárůst výkonu je obrovský.

Při porovnání Volta V100 je rozdíl u FP16 125 TFLOPS vs. 312 TFLOPS, respektive dokonce 624 TFLOPS s novou kompresní technikou Sparse. Stejně je tomu u BF16. Špičkový výkon u nového formátu TF32 je 156 TFLOPS, respektive 312 TFLOPS s kompresí.

Snímek obrazovky 2020-05-15 v 9.53.44.jpg
Porovnání výkonu V100 a A100

Nejvyššího výkonu lze dosáhnout při nejnižší přesnosti s využitím tensor jader, u INT8 je to až 624 TOPS, respektive 1 248 TOPS s kompresí a u INT4 pak dokonce 1 248 TOPS a 2 496 TOPS s kompresí. Samotný špičkový výkon při FP16 je oproti Volta více než dvojnásobný – 78 TFLOPS.

Efektivní využití v datacentrech

Jedna karta má spotřebu 400 W a pro propojení více modulů používá nové rozhraní NVLink 3, které má dvojnásobný počet linek a tedy i dvojnásobnou propustnost oproti starší verzi. Konkrétně jde o 12 linek a 600 GB/s.

Ale i jediná karta by mohla být pro řadu použití příliš masivní, takže Nvidia představila novou technologii MIG (Multi Instance GPU), která dokáže čip rozdělit na 7 samostatných virtuálních čipů. To je důležité například pro použití v cloudu nebo efektivní rozdělení výkonu v menších týmech. Každá instance má i rozdělenou paměť, takže při rozdělení na 7 jde o 5 GB na instanci.

CSP-multi-user-with-MIG-1.png

Pro samostatné použití v rámci karty je určena verze EGX A100 s integrovaným síťovým modulem Mellanox CX6 DX s propustností 100 Gb/s.

DGX A100: superpočítač v krabici s výkonem 5 PFLOPS

Nvidia rovněž představila nový model serverového nodu DGX A100, který obsahuje osm modulů Ampere A100, dva 64jádrové procesore AMD Rome a 1 TB operační paměti DDR4, 15TB rychlého úložiště NVMe SSD a také 9 síťových karet Mellanox ConnectX-6 VPI s propustností 200 Gb/s.

DGX_A100.jpg
Nvidia DGX A100

Nvidia nedávno společnost Mellanox koupila právě pro tyto účely, protože vyvíjí moderní síťové technologie, které jsou klíčové pro nasazení takto výkonných systémů.

Toto „monstrum“ má výkon v FP16 celkem 5 PFLOPS a s INT8 dokonce 10 PFLOPS. Při přesnosti TF32 pak 2,5 PFLOPS a u FP64 pak 156 TFLOPS.

I přes tyto rekordní hodnoty je cena překvapivě nízká – 200 tisíc dolarů, tedy asi 6 milionů korun.

Nvidia rovněž prezentovala rozdíl oproti současné generaci „AI datacentra“. Zatímco teď je ke stejnému výkonu nutné mít 50 DGX-1 systémů s 25 racky, cenovkou 11 milionů dolarů a spotřebou 630 kW, s DGX A100 stačí jeden rack, 1 milion dolarů a spotřeba je 28 kW. Cena za stejný výkon tak mezigeneračně klesla 10× a spotřeba elektrické energie dokonce 20×.

Nvidia DGX A100 Superpod

Aby toho nebylo málo, Nvidia se pochlubila něčím, čemu říká DGX A100 Superpod. Jedná se o systém 140 serverů DGX A100 zahrnující celkem 1 120 výpočetních modulů Ampere A100, které jsou pomocí 15 km optických kabelů propojené rychlostí 280 TB/s. Dohromady je k dispozici 4 PB NVMe SSD a celkový „AI výkon“ je 700 PFLOPS.

umm.jpg

Výhodou je, že Nvidia je schopná tento superpočítač postavit během pouhých 3 týdnů. Dokonce se pochlubila, že přidala 4 Superpody i do svého datacentra a její lokální superpočítač „SaturnV“ má výkon už 4,6 ExaFLOPS.

Takto vysoký výkon Nvidia využívá pro výzkum umělé inteligence pro vlastní potřebu a produkty. Vše se samozřejmě točí kolem CUDA, technologií jako třeba DLSS 2.0 a budoucí, autonomního řízení a podobně. Nvidia se tak dostává k tak vysokému výpočetnímu výkonu v oblasti umělé inteligence, jako nikdo jiný na světě.

Strašidelná umělá inteligence

Nvidia opět prezentovala i kompletní platformu v rámci softwaru, která se chlubí obrovskému zájmu vývojářů. Připravila si dokonce i efektní video o tom, jak umělá inteligence stále více ovlivňuje různé segmenty našeho života.

Vzhledem k tomu, kolik toho bylo, začalo to být poměrně odstrašující, obzvláště po tom, co na konci videa bylo hlasem oznámeno, že text namluvil hlas umělé inteligence, která zároveň i složila hudbu k celému videu.

Je jasné, že umělá inteligence se nakonec dotkne takřka všech segmentů a Nvidia má našlápnuto v tom, aby byla jedničkou v těch nejnáročnějších aplikacích a hlavně v datacentrech, kde budou hlavní umělé „mozky“.

Na grafické karty s architekturou Ampere si ještě chvíli počkáme. Pokud novou grafiku potřebujete už teď, nenechejte si ujít aktuální vydání Computeru s velkým srovnávacím testem rovnou 21 grafických karet. Vybrat si můžete mezi elektronickým a tištěným vydáním.

Diskuze (5) Další článek: Skupiny záložek v Chromu se blíží. Google je vypustil do beta verze

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , , ,