Nvidia B200 je monstrózní dvojčip s 208 miliardami tranzistorů. Vdechne život nové generaci AI | Zdroj: Nvidia

Zdroj: Nvidia

Nvidia B200 je monstrózní dvojčip s 208 miliardami tranzistorů. Vdechne život nové generaci AI

Nvidia odstartovala konferenci GTC vskutku monumentálně, představila na ni totiž svůj největší akcelerátor v historii. Čip B200 a jeho slabší dvojče B100 jsou prvními, které využívají novou architekturu Blackwell, jež se později dostane i do herních karet. Premiéru si však odbude v profesionální sféře zaměřené na generativní AI, ale také vědecké výpočty, simulace nebo automatizace.

Nahradí nebo spíš doplní stávající akcelerátory H200 a H100, oproti nimž přinese i několikanásobně vyšší výkon. Nvidia s Blackwellem slibuje, že při práci s velkými jazykovými modely s 1,8 bilionu parametrů budou výpočty až 25× levnější a energeticky úspornější než u předchůdce.

Tahle velikost LLM zhruba odpovídá GPT-4. V generaci Hopper by se taková AI musela trénovat tři měsíce na 8000 čipech s 15 MW energie. Blackwell za stejnou dobu udělá totéž se 2000 čipů a 4 MW energie.

Akcelerátor B200 se skládá ze dvou GPU propojených ultrarychlou linkou s propustností 10 TB/s. Detaily propojení Nvidia zatím tají, nemluví ani o některých konkrétních parametrech. Víme však, že B200 celkově využije 208 miliard tranzistorů, bude mít 192 GB sdílené paměti HBM3e s propustností 8 TB/s. Nvidia si jej nechá vyrobit u TSMC na druhé generaci 4nm procesu.

  B200 B100 H200 H100 A100 V100
architektura Blackwell Blackwell Hopper Hopper Ampere Volta
die size ? ? 812 mm² 812 mm² 826 mm² 815 mm²
tranzistorů 2x 104 mld. 2x 104 mld. 80 mld. 80 mld. 54,2 mld. 21,1 mld.
CUDA jader ? ? 16 896 16 896 6912 5120
boost takt ? ? 1980 MHz 1980 MHz 1410 MHz 1530 MHz
VRAM 2× 96 GB HBM3e 2× 96 GB HBM3e 141 GB HBM3e 80 GB HBM3 80 GB HBM2 32 GB HBM2
sběrnice 2× 4096bit 2× 4096bit 6144bit 5120bit 5120bit 4096bit
propustnost 2× 4 TB/s 2× 4 TB/s 4,8 TB/s 3,35 TB/s 2,0 TB/s 0,9 TB/s
FP32 CUDA ? ? 67 TFLOPs 67 TFLOPs 19,5 TFLOPs 15,7 TFLOPs
FP64 CUDA ? ? 34 TFLOPs 34 TFLOPs 9,7 TFLOPs 7,8 TFLOPs
INT8 Tensor 4500 TOPs 3500 TFLOPs 1979 TOPs 1979 TOPs 624 TOPs -
FP4 Tensor 9000 TFLOPs 7000 TFLOPs - - - -
FP6 Tensor 4500 TFLOPS 4500 TFLOPS - - - -
FP8 Tensor 4500 TFLOPS 3500 TFLOPs 1979 TFLOPs 1979 TFLOPs - -
FP16 Tensor 2250 TFLOPs 1800 TFLOPs 990 TFLOPs 989 TFLOPs 312 TFLOPs 125 TFLOPs
FP64 Tensor 40 TFLOPs 30 TFLOPs 67 TFLOPs 67 TFLOPs 19,5 TFLOPs -
BF16 Tensor ? ? 989 TFLOPs 989 TFLOPs 156 TFLOPs -
TF32 Tensor 1125 TFLOPs 900 TFLOPs 495 TFLOPs 495 TFLOPs 156 TFLOPs -
interconnect NVLink 5, 1800 GB/s NVLink 5, 1800 GB/s NVLink 4, 900 GB/s NVLink 4, 900 GB/s NVLink 3, 600 GB/s NVLink 2, 300 GB/s
TDP 1000 W 700 W 700 W 700 W 400 W 350 W
Výroba TSMC 4NP TSMC 4NP TSMC 4N TSMC 4N TSMC 7N TSMC 12nm FFN

Tensorová jádra doplněná o Transformer Engine zrychlila až 2,5×. Blackwell navíc poprvé podporuje i méně přesné formáty FP6 a FP4, které prý mají najít uplatnění v AI. Naproti tomu ale překvapivě oslabil v tom nejpřesnějším režimu FP64, kde výkon klesl z 67 na 40 bilionů operací v plovoucí desetinné čárce za sekundu. Nový čip je tak zřejmě víc cílený na umělou inteligenci než vědu, kde se netočí tak velké peníze.

Vedle silného čipu B200 a slabšího B100 dorazí i GB200, který na jedné kartě bude mít dva B200, procesor Grace se 72 jádry Arm Neoverse V2 a celkem 864 GB paměti (480 GB bude LPDDR5X s propustností 512 GB/s). Jeho TDP je ohromných 2700 wattů.

Nvidia bude prodávat i celá serverová řešení. Například uzel GB200 NVL72 bude obsahovat 36 čipů GB200. Dorazí i DGX B200 s osmi čipy B200 na desce osazené dvěma Intel Xeony Platinum 8570 (každý s 56 jádry).

Všechny novinky mají být k dispozici v průběhu roku. Nvidia při představení citovala šéfy Amazonu, Dellu, Googlu, Mety, Microsoftu, OpenAI, Oraclu a xAI, takže můžeme očekávat, že jde o první společnosti, které akcelerátory Blackwell zahrnou do svých cloudů, případně je využijí ve svých koncových produktech.

Zdroj: Nvidia

Určitě si přečtěte

Články odjinud