Na letošním GTC (GPU Technology Conference) představila Nvidia spoustu novinek, především z oblasti hardwaru. Tou nejdůležitější byl nový čip GV100 postavený na architektuře Volta.
Jedná se o obří a komplexní čip, který má celkem 21,1 miliardy tranzistorů a je vyroben 12nm technologií. Čip obsahuje i speciální jádra pro akceleraci hlubokých neuronových sítí. V rámci tohoto čipu představila Nvidia několik produktů, které jsou zaměřené právě na strojové učení a hluboké neuronové sítě.
Už minulý rok se nechal šéf Nvidie Jensen Huang slyšet, že strojové učení není žádný segment, ale že je to budoucnost všeho. Vzhledem k tomu, u jakých věcí a segmentů jsme jen za pouhých několik posledních měsíců mohli vidět použití umělé inteligence, začíná se to jen potvrzovat.
Nvidia patří k výrobcům nejpokročilejších a nejvýkonnějších grafických a výpočetních čipů na světě a sázka na strojové učení přispívá k tomu, že i z pohledu finančních výsledků roste neuvěřitelně rychle. Tento rok dostane na trh spoustu nových produktů – jak hardwarových, tak i softwarových a celé platformy. Vše zaměřeno na umělou inteligenci, simulace či virtuální realitu.
Nejkomplexnější čip v historii
Nvidia na GTC představila zcela nový čip GV100, který je postavený na architektuře Volta (nástupce Pascalu) a poprvé se objeví ve výpočetní kartě Tesla V100.

Čip GV100 ma rekordních 21,1 miliardy tranzistorů rozložených na 815 mm2
Jedná se o obří čip, který na ploše 815 mm2 obsahuje rekordních 21,1 miliardy tranzistorů, vyrobených novým 12nm FFN procesem. Čip s frekvencí až 1 455 MHz má celkem 5 376 CUDA jader a nově také 672 specializovaných Tensor jader, které jsou určené speciálně pro akceleraci zpracování části hlubokých neuronových sítí s nižší přesností. Díky tomu disponuje nový čip výkonem, který může snadno konkurovat řešení typu Google TPU a podobně (ASIC, FPGA).

Porovnání parametrů výpočetní karet Tesla, nejnovější generace má název V100
Ostatně čísla hovoří za vše – karta Tesla V100 se pyšní výpočetní výkonem 7,5 TFLOPS v DP (FP64), 15 TFLOPS v SP (FP32) a masivních 120 TFLOPS při využití Tensor jader. Pro tyto případy je tak možné rychle a jednoduše dosáhnout více než desetinásobného zrychlení zpracování dat, pochopitelně po optimalizaci a pro konkrétní část výpočtů, kde není potřeba taková přesnost.






Nvidia v případě Tesla V100 opět použila rychlé paměti HBM2 s šířkou paměťové sběrnice 4 096 bitů s vyšší propustností 900 GB/s, přičemž kapacita je u tohoto modelu 16 GB. TDP karty je 300 W.
Nvidia DGX-1 pro nejvýkonnější servery
S uvedením karty Tesla V100 představila Nvidia také novější generaci serverového řešení DGX-1, které obsahuje celkem osm těchto karet. Pokud tedy sečteme výpočetní výkon s použitím Tensor jader, jedná se celkem o 960 TFLOPS v jednom relativně malém boxu. Cena je už nyní v předprodeji 149 tisíc dolarů.

Nvidia ale myslí i na méně náročné profesionály, kteří nechtějí mít u sebe hlučný serverový box a nabídne jim DGX Station, což je řešení o velikosti klasického počítače, které ukrývá celkem čtyři karty Tesla V100 chlazené vodou, takže je box zcela tichý. Cena je v tomto případě stanovená na 69 tisíc dolarů.

Speciálně pro cloud computing je připravené řešení HGX-1, které obsahuje osm karet Tesla V100 a umožňuje propojení pomocí rychlého rozhraní NVLink Hybrid Cube.

Všechna tato řešení lze očekávat až ve třetím či čtvrtém čtvrtletí tohoto roku.
Xavier AI pro autonomní auta
Nvidia už v roce 2015 představila první řešení pro autonomní vozidla – Drive CX a Drive PX. V minulém roce se jednalo o druhou generaci v podobě Drive PX 2, kterou mají například všechny elektromobily Tesla vyrobené od roku 2016.

Tento rok ale představila hybridní novinku v podobě Xavier AI Car Supercomputer. Hlavní změnou je, že si Nvidie uvědomila rozdílnost neuronových sítí pro autonomní ovládání vozidle. Řešení tak obsahuje nejen klasický „sériový“ procesor s osmi jádry ARM64 a 512 CUDA procesorů s architekturou Volta, ale také specializovanou akcelerační část, kterou označuje jako DLA.

Xavier AI je složen ze tří různých architektur
Díky tomu je řešení nejen snadno a obecně programovatelné na různé účely, ale i vysoce výkonné a efektivní pro specializované výpočetní s hlubokými neuronovými sítěmi. Celková spotřeba celé krabičky pro zpracování dat ze všech senzorů automobilu je přitom jen 30 W (při výkonu 30 TOPS DL - 30 bilionů operací pro hluboké sítě).
Roboti, simulace a zrychlení času
Jednou z hlavních výhod Nvidie je v tom, že pro všechna tato řešení má k dispozici kompletní softwarový stack, který má několik úrovní. Nově navíc umožňuje konkrétní konfiguraci stáhnout z webu v dockeru, takže není nutné vše složitě nastavovat a podobně, můžete začít pracovat se strojovým učením doslova během pár minut. To samé platí i pro cloudovém použití.
Nvidie také ukázala, jak rychle probíhá učení nových umělých inteligencí, které ovládají například roboty. Ne vždy lze roboty učit v reálném prostředí, protože to nedovolují podmínky a nelze udělat třeba stonásobné opakování stejného zákroku, než se to umělá inteligence naučí – typicky třeba nějaká forma operace člověka.
Je tak nutné vytvořit co možná nejrealističtější simulaci světa a fyziky, ve které se tyto umělé inteligence budou učit dostatečně přesně na to, aby je bylo možné použít i v reálném světě. Skrývá to navíc jednu výhodu – v simulaci lze s vyšším výpočetním výkonem pochopitelně výrazně zrychlit čas, takže třeba to, co by reálně trvalo několik let či měsíců, může být za pár hodin hotové.
A v tom se opět ukazuje exponenciální vývoj, který budeme v tomto směru pozorovat i v následujících letech. Protože učení umělých inteligencí, které budou ovládat různé stroje i roboty, bude stále rychlejší.