Nvidia odstartovala konferenci GTC vskutku monumentálně, představila na ni totiž svůj největší akcelerátor v historii. Čip B200 a jeho slabší dvojče B100 jsou prvními, které využívají novou architekturu Blackwell, jež se později dostane i do herních karet. Premiéru si však odbude v profesionální sféře zaměřené na generativní AI, ale také vědecké výpočty, simulace nebo automatizace.
Nahradí nebo spíš doplní stávající akcelerátory H200 a H100, oproti nimž přinese i několikanásobně vyšší výkon. Nvidia s Blackwellem slibuje, že při práci s velkými jazykovými modely s 1,8 bilionu parametrů budou výpočty až 25× levnější a energeticky úspornější než u předchůdce.
Tahle velikost LLM zhruba odpovídá GPT-4. V generaci Hopper by se taková AI musela trénovat tři měsíce na 8000 čipech s 15 MW energie. Blackwell za stejnou dobu udělá totéž se 2000 čipů a 4 MW energie.
Akcelerátor B200 se skládá ze dvou GPU propojených ultrarychlou linkou s propustností 10 TB/s. Detaily propojení Nvidia zatím tají, nemluví ani o některých konkrétních parametrech. Víme však, že B200 celkově využije 208 miliard tranzistorů, bude mít 192 GB sdílené paměti HBM3e s propustností 8 TB/s. Nvidia si jej nechá vyrobit u TSMC na druhé generaci 4nm procesu.
|
B200 |
B100 |
H200 |
H100 |
A100 |
V100 |
architektura |
Blackwell |
Blackwell |
Hopper |
Hopper |
Ampere |
Volta |
die size |
? |
? |
812 mm² |
812 mm² |
826 mm² |
815 mm² |
tranzistorů |
2x 104 mld. |
2x 104 mld. |
80 mld. |
80 mld. |
54,2 mld. |
21,1 mld. |
CUDA jader |
? |
? |
16 896 |
16 896 |
6912 |
5120 |
boost takt |
? |
? |
1980 MHz |
1980 MHz |
1410 MHz |
1530 MHz |
VRAM |
2× 96 GB HBM3e |
2× 96 GB HBM3e |
141 GB HBM3e |
80 GB HBM3 |
80 GB HBM2 |
32 GB HBM2 |
sběrnice |
2× 4096bit |
2× 4096bit |
6144bit |
5120bit |
5120bit |
4096bit |
propustnost |
2× 4 TB/s |
2× 4 TB/s |
4,8 TB/s |
3,35 TB/s |
2,0 TB/s |
0,9 TB/s |
FP32 CUDA |
? |
? |
67 TFLOPs |
67 TFLOPs |
19,5 TFLOPs |
15,7 TFLOPs |
FP64 CUDA |
? |
? |
34 TFLOPs |
34 TFLOPs |
9,7 TFLOPs |
7,8 TFLOPs |
INT8 Tensor |
4500 TOPs |
3500 TFLOPs |
1979 TOPs |
1979 TOPs |
624 TOPs |
- |
FP4 Tensor |
9000 TFLOPs |
7000 TFLOPs |
- |
- |
- |
- |
FP6 Tensor |
4500 TFLOPS |
4500 TFLOPS |
- |
- |
- |
- |
FP8 Tensor |
4500 TFLOPS |
3500 TFLOPs |
1979 TFLOPs |
1979 TFLOPs |
- |
- |
FP16 Tensor |
2250 TFLOPs |
1800 TFLOPs |
990 TFLOPs |
989 TFLOPs |
312 TFLOPs |
125 TFLOPs |
FP64 Tensor |
40 TFLOPs |
30 TFLOPs |
67 TFLOPs |
67 TFLOPs |
19,5 TFLOPs |
- |
BF16 Tensor |
? |
? |
989 TFLOPs |
989 TFLOPs |
156 TFLOPs |
- |
TF32 Tensor |
1125 TFLOPs |
900 TFLOPs |
495 TFLOPs |
495 TFLOPs |
156 TFLOPs |
- |
interconnect |
NVLink 5, 1800 GB/s |
NVLink 5, 1800 GB/s |
NVLink 4, 900 GB/s |
NVLink 4, 900 GB/s |
NVLink 3, 600 GB/s |
NVLink 2, 300 GB/s |
TDP |
1000 W |
700 W |
700 W |
700 W |
400 W |
350 W |
Výroba |
TSMC 4NP |
TSMC 4NP |
TSMC 4N |
TSMC 4N |
TSMC 7N |
TSMC 12nm FFN |
Tensorová jádra doplněná o Transformer Engine zrychlila až 2,5×. Blackwell navíc poprvé podporuje i méně přesné formáty FP6 a FP4, které prý mají najít uplatnění v AI. Naproti tomu ale překvapivě oslabil v tom nejpřesnějším režimu FP64, kde výkon klesl z 67 na 40 bilionů operací v plovoucí desetinné čárce za sekundu. Nový čip je tak zřejmě víc cílený na umělou inteligenci než vědu, kde se netočí tak velké peníze.
Vedle silného čipu B200 a slabšího B100 dorazí i GB200, který na jedné kartě bude mít dva B200, procesor Grace se 72 jádry Arm Neoverse V2 a celkem 864 GB paměti (480 GB bude LPDDR5X s propustností 512 GB/s). Jeho TDP je ohromných 2700 wattů.
Nvidia bude prodávat i celá serverová řešení. Například uzel GB200 NVL72 bude obsahovat 36 čipů GB200. Dorazí i DGX B200 s osmi čipy B200 na desce osazené dvěma Intel Xeony Platinum 8570 (každý s 56 jádry).
Všechny novinky mají být k dispozici v průběhu roku. Nvidia při představení citovala šéfy Amazonu, Dellu, Googlu, Mety, Microsoftu, OpenAI, Oraclu a xAI, takže můžeme očekávat, že jde o první společnosti, které akcelerátory Blackwell zahrnou do svých cloudů, případně je využijí ve svých koncových produktech.
Zdroj: Nvidia