Mne taková teoretická čísla dostávají vždycky do kolen. Proč teoretická? Tak si to vezměme hezky na paškál a porovnejme množství dat, která jsou potřeba, s množstvím dat, která jsou k dispozici. Na výkon kolem 2 _skutečných_ PFLOPS je třeba zhruba 2x10^15 x 4 x 3 bytů, tedy kolem 24 PB/s. A co máme k dispozici? Paměť, která je schopna dodávat (nenáhodně! jen v burst režimu!) 284 GB/s. Tedy o neuvěřitelných 5 řádů méně než kolik je potřeba, v případě náhodného přístupu místo sekvenčního pak pravděpodobně o 6 řádů!
Samozřejmě, jde namítnout, že jsou tu přeci takové věci jako cache, drobně možná může pomoci i meziprocesorová komunikace (je jen otázka, kolik si synchronizace mezi procesory naopak vezme na vlastní režii) a podobné vymoženosti. Ale probůh! Opravdu je tu někdo, kdo by uvěřil, že cache běh zrychlí v porovnání s během bez ní milionkrát?! Sám bych věřil u dobře na cache optimalizované aplikace na zrychlení něco mezi 100násobkem a 1000násobkem při využití náhodného přístupu, a 10 a 100násobkem, pokud budou data čtena hezky sekvenčně za sebou, aby u RAM šel využít burst režim.
P.S. FLOP chápu jako operaci FPU v alespoň single precision formátu. Single precision znamená 4 byty na číslo, a na jednu operaci je potřeba dvě čísla načíst a jedno uložit. Tedy suma sumárum 12 bytů, pokud některý z operandů či výsledků nerecykluji. V double precision jde o 24 bytů na jedinou operaci, v extended precision pak o bytů 30.