Tak jde také o ukázku pamětí HBM 2, ta propustnost 900GB/s ujde.Výrobního procesu - 21MLD tranzistorů je asi taky rekord.
Názor byl 1× upraven, naposled 12. 5. 2017 13:19
Ujde? Nepřijde mi, viz můj dřívější příspěvek. Na 120 TFLOPS IMO při 2 operandech po 2 bytech a jednom výsledku karta potřebuje 6x120 TB/s, tedy skoro o 3 řády více než nějakých 900 GB/s... Kde se těch 120 TFLOPS při tak nedostatečné propustnosti bere, je mi opravdovou záhadou...
900 GB/s na čip. Jinak nevím, jak počítáte TFLOPS, to nemohu rozporovat, nerozumím tomu, jen že karty s+- 10 TFLOPS mají propustnost pamětí kolem 3-500 GB/s, tak celkových 3,6TB/s na 120 TFLOPS v jedné specializované úloze násobení matic nějak mi nepřipadá mimo.
Hmm, násobení matic... Napadá mne, že pokud z paměti ty matice načtu jen jednou, a pak se veškeré počítání bude dít v cache, a ven se bude sypat jen výsledek, mohla by se náročnost snížit ještě o řád. Netuším, jak jsou ty matice velké, ale předpokládám, že budou v řádu 10x10 (kostičky JPEGu a tuším i MPEGu komprimují po 8x8, nepletu-li se).Na načtení dvou matic 10x10 z paměti a na zapsání výsledku do matice třetí budu potřebovat při 2 bytech na skalár 3x2x10x10=600 bytů čtení/zápisu, přitom na násobení těch matic spotřebuji 10 násobení a 9 sčítání na každý prvek výsledné matice, tedy 19x10x10=1900 operací. Čili nějakých 1900 operací versus 600 bytů zápisu a čtení. Pořád to nějak nevychází🙁.Aby to jakž-takž vycházelo, musel bych používat matice alespoň 1000x1000, pak bych potřeboval na práci s pamětí 3x2x1000x1000=6 MB, zatímco pronásobení tak velkých matic by mne stálo 1900x1000x1000=1,9 GFLOP. Za sebe ale dost pochybuji, že by se používaly tak velké matice, a navíc při větších maticích dává větší smysl používat algoritmy, které mají asymptotickou složitost lepší než n^3 (dá se dostat až někam k n^2.4)... V praxi by tedy matice musely být přes 10.000x10.000, což už začíná narážet na velikost paměti. Škoda, že tu není nějaký odborník.
Přiznám se, že se v tom ztrácím ... není někde nějaký srovnání o kolik/kolikrát je toto rychlejší než třeba něco co se vyrábí teď nebo co se vyrábělo před rokem? Píšou tady o exponenciálním vývoji ... Jinak když sleduji co někteří lidi dokážou zkonstruovat, tak si proti nim připadám jak mravenec ...
skutocny pokrok zabezpecuje top promile. my ostatni sme iba pesiaci.
Je to zajímavý, že jsou tak obrovský rozdíly mezi průměrnou inteligencí a těmi promile nejinteligentnějších ... jak to ta evoluce zařídila ...
Zajímaly by mne dvě věci:1) jak může čipu s údajným výkonem 120 TFLOPS stačit paměť s propustností pouhých 900 GB/s (o směšné kapacitě 16 GB raději nemluvě). Pochopil-li jsem z článku dobře, používají se 16bitové operandy, čili to máme 2 operandy po 2 bytech na vstupu a 1 výsledek také po 2 bytech, dohromady tedy 6 bytů na operaci, což je při 120 TFLOPS nějakých 720 TB/s. I kdybych měnil jen jeden z operandů, pořád to bude ještě 4x120=480 TB/s, a alespoň jeden operand měnit musím, jinak nic nepočítám. A teď mi vysvětlete, kde jsou schované ty 3 řády rozdílu?! (navíc tipuji, že HBM2 bude těch ideálních 900 GB/s dosahovat stejně jako DRAM jen v sekvenčním přístupu, a při náhodném přístupu bude rozdíl v rychlosti ještě o 2 až 3 řády menší, ale je to jen domněnka, o způsobu organizace HBM bohužel nic netuším)2) 21 miliard tranzistorů... to znamená jakou výtěžnost? Jasně, cena je šílená, tak se v tom asi slušné procento zmetkovitosti schová; a nebo nedostatky z výroby řeší nějak chytřeji? Např. vypínáním nedostatečně funkčních či nefunkčních částí? Tohle by mne opravdu moc zajímalo.
1) Těch 120 je jen v jedné konkrétní funkci.
? (argument o počtu bytů přeci pořád platí)
Aha, chápu. Těch 900 GB je na jeden čip. Patrně bude mít 4 4GB čipy, takže 3,6 TB/s
Tak teď už je to jen o 2 řády, nikoli o 3; pořád mi však 2 řády přijdou nějak moc😉 (nejméně 480 TB/s v případě využívání jen jednoho měnícího se operandu vs. 3,6 TB/s, o nichž píšeš Ty)...
Mňa na tom najviac fascinujú tie mozgy, ktoré niečo také dokážu navrhnúť, ba dokonca s v tom aj vyznať.. hovorím o architektúre
"Celková spotřeba celé krabičky pro zpracování dat ze všech senzorů automobilu je přitom jen 30 W (při výkonu 30 TOPS DL - 30 miliard operací pro hluboké sítě)."Doteraz som zámenu miliárd a biliónov videl v opačnom garde, a síce že americký bilión (naša miliarda) sa prekladal ako bilión (u nás tisíc miliárd).Toto je prvý článok, kde to je opačne. Autor niekde čítal, že 30 TOPS je 30 biliónov, ale myslel si, že sú to bilióny americké. Tak ich preložil ako miliardy. Ale tieto bilióny sú "európske".Skúška správnosti: kilo=tisíc; mega=milión; giga=miliarda; tera=bilión.Keby sa to stalo v bežných novinách, tak by ma to moc neprekvapilo. Ale toto je magazín špeciálne pre výpočtovú techniku... 🙂 Ale aj majster tesár /tesař/ sa občas utne.
Potvrďte prosím přezdívku, kterou jsme náhodně vygenerovali, nebo si zvolte jinou. Zajistí, že váš profil bude unikátní.
Tato přezdívka je už obsazená, zvolte prosím jinou.