Nvidia Fermi: stvořeno pro novou generaci (super)počítačů

Brzy se dočkáme nového nejvýkonnějšího superpočítače, který bude založen na „grafických“ kartách s čipem Fermi. Jaký bude mít výkon a co nás v budoucnu vlastně čeká?

O nadcházející tak trochu revoluční generaci grafických karet s čipem „Fermi“ společnosti Nvidia, které budou možná začátkem nového směru vývoje, jsme vás již dříve informovali v podrobném článku.

Dnešní článek však bude zaměřen především na oblast superpočítačů, kvůli kterým má nový čip Fermi velkou řadu speciálních technologií, které u grafických karet nejsou vůbec potřeba. V závěru se podíváme také na budoucnost a jaké důsledky můžou znamenat nové výpočetní (cGPU/GPGPU) karty, které zvládají stále více úloh a pomalu nahrazují některé funkce procesoru.

Nový milník: nejvýkonnější superpočítač s cGPU

V oblasti superpočítačů byly dříve používány především RISC procesory, které nedávno nahradily serverové x86 s podporou 64bitového adresování, které nyní tvoří přibližně 80 % všech superpočítačů. Jeden takový mají i v národní laboratoři Oak Ridge. Druhý nejvýkonnější superpočítač s názvem „Jaguar“ je založen na čtyřjádrových AMD Opteronech s frekvencí 2,3 GHz, kterých je celkem 150 152 a jejichž maximální výkon sahá k hodnotě 1,5 PFLOPS.

Revoluce však právě odstartovala, zmíněná ORNL má v plánu postavit první superpočítač založený na cGPU (Compute GPU) Nvidia Tesla kartách, které budou mít „Fermi“ čip. Výkon těchto karet je řádově vyšší, než v případě procesorů, pokud vám stačí obecná představa, jedná se o poměr přibližně 1:10 v lepším případě až 1:15. Srovnání platí s čtyřjádrovým procesorem na vysoké frekvenci nad 3 GHz. Jedna Tesla karta s Fermi čipem tak zvládne spočítat stejně rychle to, co 10-15 čtyřjádrových procesorů. Pokud tušíte, jaká je cena a spotřeba jednoho serverového procesoru včetně kompletní platformy a kolik grafické karty, asi vám to již došlo.

Klepněte pro větší obrázek 

Jádro Fermi

ORNL počítá zhruba s 2000 až 2500 Tesla kartami s „Fermi“, přičemž očekávaný výkon by měl být vyšší než 10 PFLOPS, tedy více než desetinásobek současného výkonu nejrychlejšího superpočítače na světě - IBM Roadrunner.

Nvidia čip vyvíjela především pro nasazení do superpočítačů a dalších výpočetních zařízení. Tomu odpovídají i specifikace, které zahrnují podporu ECC pamětí (až 6 GB GDDR5, šest 64bitových řadičů) a hlavně jako první karta zvládne nativní běh jazyků C, C++ a Fortran. Do dalších technologií patří i OpenGL 3.2, OpenCL, DirectCompute a samozřejmě nechybí ani DirectX 11, což je však spíše pro hry. Z důležitých standardů je to pak například IEEE 754-2008 (dříve pouze IEEE 754-1985).

Murchinson Widefield Array: omezené zdroje vyřadily procesory

Další využití cGPU souvisí s poměr výkon/spotřeba, která je u „Fermi“ karet také značně lepší, než v případě procesorů. Murchinson Widefield Array neboli MWA je prototyp zcela nového a jednoduchého radiového teleskopu, který z vesmíru snímá signály o nízké frekvenci v rozmezí 80 až 300 MHz, jež nebyly zatím téměř prozkoumány, čímž skýtají velkou možnost zajímavých objevů, především pro vědecké účely.

Momentální prototyp má 32 clusterů, přičemž každý cluster obsahuje 16 relativně jednoduchých antén, každá má v sobě čip a data jsou pomocí kabelu přenášena do jednoho místa. V plánu je pokrýt přibližně jeden kilometr čtverečný osmi tisíci anténami (512 clusterů).

Klepněte pro větší obrázek

Fotografie jednoho z clusterů MWA

Vzhledem k nízké frekvenci je nutné, aby antény byly daleko od civilizace, ideálním místem se stalo odlehlé místo v Austrálii. Nenachází se zde přívod elektrického proudu, jediným zdrojem elektřiny je tak dieselový agregát s výkonem maximálně 20 kW.

Klepněte pro větší obrázek

Nynější prototyp a následné generování dat vyžaduje výpočetní sílu v podobě 20 TFLOPS. Pro představu bude stačit jednoduché počítání. Dle informací by výkon 20 TFLOPS zajistilo 200 čtyřjádrových procesorů Xeon 5500 na frekvenci 3,2 GHz, jejich spotřeba by byla kolem 24 kW. Musíte však počítat i s dalšími komponenty, bez kterých to samozřejmě nejde. Hrubým počítáním se příkon dostane k 55 kW, což je více než dvojnásobek toho, co dokáže generátor vyrobit. Procesory tak nepřipadly v úvahu.

Menší zlom přišel v roce 2006, kdy Nvidia uvedla CUDA a grafické karty GeForce 8. Později, konkrétně s kartou Nvidia Tesla C1060 (dvoujádrová GeForce GTX 295), bylo možné mít výkon 4,5 TFLOPS se spotřebou 1 kW. Potřebný výpočetní výkon 20 TFLOPS je tak k dispozici se spotřebou pouze 5,5 kW. V případě Tesla karet s „Fermi“ čipem bude spotřeba pouze 3,3 kW při stejném výkonu.

1 EFLOPS - magická hranice je reálnější

Jak je vidět, superpočítače zpracovávají spoustu dat a paralelní výkon je výsadou právě novodobých grafických čipů. Procesor nemůže nabídnout nejen tak vysoký výkon, ale jeho spotřeba je i se všemi potřebnými komponenty prakticky desetinásobná.

Pokud se naposledy vrhneme na počty, k dosažené magické hranice 1 EFLOPS (1 000 PFLOPS) je potřeba přibližně 10 miliónů čtyřjádrových procesorů, nebo „pouze“ 660 tisíc Tesla karet s „Fermi“ čipem, které budou mít celkem 4 PB GDDR5 paměti.

I když je to dnes i během několika let nereálné, první odhady hovoří o roku přibližně 2020, kdy by mohlo stačit několik tisíc cGPU karet k potřebnému výkonu 1 EFLOPS. Procesory tak asi zůstanou na pokraji jednotek či desítek PFLOPS, grafické čipy mají totiž nejméně desetinásobný náskok v paralelnímu výkonu, a ten už asi nelze jen tak dohnat.

Klepněte pro větší obrázek

Budoucnost je ve hvězdách

Možná nás brzy čeká nová doba a cGPU karty budou zpracovávat většinu dat, které lze paralelizovat. Už nyní zvládají velké množství úloh, starají se o akceleraci videa ve vysokém rozlišení, akceleraci 2D a 3D obrazu (brzy i Flashe), převod videa (Badaboom) a chystá se zrychlení skenování antivirů a dle předběžných zpráv zvládnou třeba i silně optimalizovaný operační systém postavený například na Linuxu.

Se stále většími možnostmi programování cGPU rostou také možnosti využití. Nvidia to možná tuší, a proto neuvádí jen další a rychlejší grafickou kartu, ale asi již naskočila na rozjetý vlak do budoucnosti a chce mít alespoň částečný náskok před AMD (ATI).

Klepněte pro větší obrázek

Několikrát zveřejněný obrázek ohledně Larrabee od Intelu nám možná ukazuje to, o čem se zatím pouze spekuluje. Jedná se o takový hybrid vícejádrového procesoru a grafické karty. Dle neoficiálních zpráv se však Intel s Larrabee hodně trápí. Po nevydařené koupi Nvidie (AMD stihlo koupit ATI) musel začít pracovat na vlastní grafické kartě/cGPU/GPGPU, vývoj však trvá již přibližně 3 roky a stále není jasné kdy bude uveden první funkční model. Poslední zveřejněný termín hovoří o 2010/2011.

Intel má s Larrabee již teď značné zpoždění a dohnat několikaletý vývoj Nvidie a ATI se zdá zhola nemožné. Intel musí navíc využívat řadu patentů Nvidie i ATI ohledně návrhu a pak jsou tu také ony ošemetné ovladače, které zahrnují stamilióny řádků kódu, které nelze napsat za pár měsíců a vyžadují opravdu výborné a specializované programátory, které si Nvidia i ATI dobře drží.

Intel se snaží tlačit na více frontách, jeho konkurence ho však z obou stran pomalu ale jistě dohání. V případě levného segmentu úsporných procesorů (Atom) mu začíná konkurovat ARM a jeho velmi úsporné procesory, které již brzy dosáhnou frekvence 2 GHz a více jader. Ten se již „spolčil“ s Nvidii a vytvořil platformu Tegra, která je zatím v mobilním nenáročném segmentu.

Na druhé straně jsou tu právě cGPU karty s paralelním zpracováním, které už nejsou pouze grafickými kartami a s „Fermi“ poprvé přichází zmíněná podpora nativního jazyka C++ a Fortran. To možná v budoucnu bude hrát nejen velkou roli v oblasti počítačů, ale také superpočítačů. Nvidia s ATI by tak mohla získat většinu obřích zakázek na výrobu superpočítačů.

Protože Nvidia nemá licenci na x86, možná se ve vzdálené budoucnosti dočkáme kombinace ARM procesoru, který zvládne běžné operace a výkonného cGPU od Nvidie, určeného pro veškeré náročné výpočty, které lze paralelizovat (taková výkonnější Tegra pro počítače). Spojení AMD a ATI tak nakonec bylo možná ještě rozumnější než se původně myslelo. Důvodem mohl být právě tento směr vývoje.

Ať bude budoucnost jakákoli, určitě bude „rychlejší“.

.

Témata článku: Hardware, Jaguar, Split

28 komentářů

Nejnovější komentáře

  • fatman 28. 10. 2009 14:46:35
    Test...
  • Jan Tomášek 22. 10. 2009 14:40:59
    Ne a jestli někdy jo, tak z GPU už vlastně znovu bude CPU.
  • Hrdlodus 21. 10. 2009 22:42:03
    Znamená to také, že za nějakou dobu (až to a ono) se přestane používat...
Určitě si přečtěte

Monitory do 10 tisíc: poradíme, jaké jsou teď nejlepší

Monitory do 10 tisíc: poradíme, jaké jsou teď nejlepší

** Dobrý monitor s kvalitním panelem lze pořídit pod tři tisíce korun ** Pod deset tisíc si můžete koupit pracovní 27" monitor nebo nejlevnější použitelné 4K ** Vybrali jsme také ideální model pro vícemonitorovou konfiguraci

27.  11.  2016 | Stanislav Janů | 13

Sbíječky vyměnili za klávesnice. Nový projekt má za cíl přeučit horníky na programátory

Sbíječky vyměnili za klávesnice. Nový projekt má za cíl přeučit horníky na programátory

** Programátorů je málo a horníků bez práce po uzavření dolu Paskov bude moc ** Problém řeší unikátní projekt ** Pilotní kurz dává naději, že by z horníků mohli být použitelní kodéři

28.  11.  2016 | David Polesný | 76