Priznam se, ze jsem nepochpil vas prispevek. Ale dam vam jednoduchy priklad:
v jednom optimalizovanem kodu jsem dosahnul vysledku 0,7 SSE instrukci za sekundu. Kazda tato instrukce mi provedla vynasobeni/vydeleni/odecteni/secteni dvou dvojic cisel. To znamena 1,4 aritmetickych operaci za takt v plovouci carce s dvojitou presnosti. Pouzivanim FPU nebo dokonce emulace pomoci celociselne matematiky takoveho vysledku nedosahnete. Navic, tyto vypocty byly jen casti programu. Kod byl velmi optimalizovany, psany v asembleru.
Napriklad Prime95 dosahuje pak 1 SSE instrukce pracujici nad vicero daty za takt. Bez SSE pobezite treba 4x pomaleji.