Nvidia GF100: Co Fermi přinese hráčům

Nvidia včera představila novinky, které má GF100 přinést hráčům. Nebudeme pitvat architekturu, ale soustředíme se spíše na praktický přínos, který má nová generace grafických karet Nvidia mít.
Kapitoly článku

Současná situace v oblasti grafických karet je bezprecedentní. ATI s velkým předstihem představilo Radeony s podporou DirectX 11, které v současnosti kralují nejen po stránce technologické, ale i co se výkonu týče. Nvidia v kontrastu s tím již dávno rezignovala na výrobu grafických čipů GT200, přestože je o ně stále zájem, a nejvýkonnějším běžně dostupným modelem, který v současnosti nabízí, je GeForce GTS 250, která spadá do nižší střední třídy.

Právě neutěšená situace v oblasti vyšší střední třídy i nejvýkonnějších karet, kde Nvidia až do uvedení Radeonů HD 5000 prakticky neohroženě vládla už od dob uvedení GeForce GTX 8800, bude nejspíš důvodem, proč porušila nepopulární pravidlo nevyjadřovat se k dosud nevydaným produktům a proč je Nvidia kolem připravovaných produktů sdílná, jako snad nikdy předtím.

Vím, že nic nevím

Přestože nás zásobuje materiály, které do podrobností o architektuře připravovaných čipů zabíhají více než obvykle, pečlivě si hlídá, aby se neobjevily údaje, které nás zajímají nejvíc. Pravda, u řady z chybějících parametrů by to bylo předčasné, neboť sám výrobce v nich zatím nemá jasno.

 GeForce GTX 380 (GF100)GeForce GTX 285 (GT200)GeForce 9800 GTX+ (G92)
stream procesory512240128
texturovací jednotky648064
rasterizační jednotky483216
takt jádra?648 MHz738 MHz
takt stream procesorů?1 476 MHz1 836 MHz
typ pamětíGDDR 5GDDR3GDDR3
takt pamětí?2 484 MHz2 200 MHz
šířka sběrnice384 b512 b256 b
velikost paměti?1 024 MB512 MB
počet tranzistorů3 miliardy1,4 miliardy754 milionů
výrobní proces40 nm55 nm55 nm
cílový segment?400 USD150-200 USD

Ještě nějaký ten týden (či měsíc) si budeme muset počkat, než se dozvíme detaily o konkrétních modelech s GF100, jejich výkonu, taktovacích frekvencích, spotřebě (má být vyšší než u GT200), a cenách. Parametry prototypů, které Nvidia předváděla na CES, nejspíš nebudou odpovídat konečným specifikacím, takže ani těch pár výsledků, které novináři při prezentaci ukořistili, nelze brát úplně vážně.

Architekturu probereme jen telegraficky. Pokud vás zajímá podrobněji, určitě vám nedělá problém přelouskat oficiální třicetistránkový dokument Nvidie. Podrobný a celkem dobře srozumitelný popis architektury najdete třeba na Hardware Canuks

schéma GF100.png

Jádro GF100 je rozděleno do čtyř velkých bloků – GPC (Graphic Processing Clusters).

V každém z nich jsou čtyři SM – streaming multiprocesory a raster engine. Samotné stream procesory (nově CUDA Cores) jsou uvnitř streaming multiprocesorů, v každém z nich je jich dvaatřicet. Vedle nich je ještě součástí streaming multiprocesoru L1 cache, čtyři texturovací jednotky, či PolyMorph engine, jehož součástí je i teselátor.

schéma GPC.png

Mimo streaming multiprocesory se nachází ROP jednotky a sdílená L2 cache.

K texturovacím jednotkám jen jedna zajímavost – v jádru GF100 je celkem šestnáct SM a v každém z nich jsou čtyři texturovací jednotky. Celkově je jich tedy méně, než u GeForce GTX 28x, které měly 80 texturovacích jednotek. Oproti GT200 je ale lze mimo jiné díky integrování do každého SM využívat efektivněji. Co víc, zatímco u GT200 běžely texturovací jednotky na frekvencích jádra, u GF100 mají běžet na frekvencích vyšších. Výsledný výkon texturovacích jednotek ve srovnání s GT200 má být díky úpravám výrazně vyšší.

výkon texturovacích jednotek.png

Frekvence jádra je jednou z klíčových vlastností, která se používá pro rozlišování jednotlivých modelů grafických karet. S GeForce 8800 GTX přišla Nvidia s výše taktovanými stream procesory, jejichž frekvence byla násobkem základního taktu jádra. GF100 má jít ještě dál. Klíčovým prvkem má být frekvence stream procesorů a většina z výpočetních jednotek běží na stejné frekvenci nebo na jejím zlomku. Jakýmsi pozůstatkem taktovacích frekvencí jádra, core clock, jsou samostatně taktované rasterizační jednotky a L2 cache.

Až do uvedení DirectX 10 záleželo na výrobci GPU, které funkce z balíku Direct3D bude grafická karta podporovat. Podporu jednotlivých funkcí bylo možné ověřit přes tzv. cap bity. S desátou verzí DirectX ale cap bity zmizely a objevilo striktní vymezení funkcí, které grafický čip podporovat musí, aby danou specifikaci splňoval. Zjednodušil se tím vývoj aplikací, zhoršila se tím ale šance prosadit nové funkce, které nejsou součástí specifikace.

GF100: důraz na výkon při výpočtech geometrie

Grafické čipy splňující stejnou specifikace se balíkem funkcí, liší méně, než tomu bylo dříve. Rozdíl může být v tom, jak jsou jednotlivé funkce realizované a jak rychle je čip zvládá provádět. Na základě předpokladu, jakým směrem se bude vývoj her ubírat a kde bude zapotřebí vyšší výkon, pak výrobci posilují jednotlivé části jádra.

U GeForce GT100 došlo k výraznému posílení výkonu při výpočtech geometrie. Pro lepší představu o tom, o jaký nárůst je, uváděla Nvidia rozdíly mezi výkonem NV30 (GeForce FX 5800), GT 200 (GeForce GTX 280) a GF100. Zatímco se v posledních letech výrobci soustředili na posilování výkonu shaderů (mezi NV30 a GT200 narostl jejich výkon více než 150×), výkon při výpočtech geometrie narostl asi třikrát. GF100 má oproti GT200 při výpočtech geometrie nabízet osminásobný výkon.

Důvod k tak významnému posílení výkonu v této oblasti? Teselace. A výpočty s mnohem většími počty polygonů. O co jde?

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,