Pentium 4 a programování (aneb co je pod povrchem)

Diskuze čtenářů k článku

DJ SUD  |  29. 10. 2001 20:20  | 

Diky Michale za nevsedne aktualni clanek. I kdyz se strojakem nezabyvam od studii, dokazu to ocenit.

Vzdycky jsem si myslel, ze vyvoj pokracuje o stupen vyse, kdyz jsou vycerpany vsechny moznosti soucasnosti.

P.S.: Byl bug Partial Register Stall v PIII odstranen? (Katmai i Coppermine?)

Souhlasím  |  Nesouhlasím  |  Odpovědět
Orrin  |  29. 10. 2001 21:32  | 

Doufam ,ze tento clanek otevre oci mnohym jez by PIV koupit chteli.
Opravdu hezky clanek. Je poznat,ze autor vi o cem pise.
Diky Michale.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Adam  |  29. 10. 2001 21:53  | 

Souhlasim, chtelo by to vice clanku, ktere jdou poradne do hloubky. Povrchnich clanku je vsude dost.

 

Souhlasím  |  Nesouhlasím  |  Odpovědět
John  |  30. 10. 2001 09:34  | 

Autor ví, o čem píše, ale ne vždycky. Nejsem přítelem Pentia 4, ale říci, že Intel chtěl ušetřit pár tranzistorů, a proto tam nedal druhou FPU jednotu, je totální blbost. Vím, že nikdo nemůže vědět všechno, ale když už člověk do něčeho rýpe, ....  FPU jednotka je pro náročnost operací, které provádí, velmi složitá a druhá FPU jednotka by údajně zvětšila plochu čipu o 40% - to už je opravdu velká cena.

Druhá věc: Partial register stall Intel nevyřešil, protože ani vyřešit nejde. Jde pouze eliminovat významnost tohoto problému použitím různých triků a technik.

Jinak jsem si rád článek přečetl.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Michal Kwolek  |  30. 10. 2001 16:13  | 

Figl je v tom, ze pokud se dava do procesoru vice FPU vetsinou byvaji specializovane na urcite operace napr.


  1. scitani

  2. nasobeni

  3. ostatni operace + store

Ukazuje se, ze tyto operace se v praktickych aplikacich dostatecne stridaji. Diky tomu neni zdaleka treba dvojnasobek tranzistoru pro dve FPU jednotky. Vyse zminena kombinace (mirne obohacena o MMX a 3Dnow!) bude pouzita v procesoru AMD Hammer.

Partial Register Stall vyresit jde, procesory AMD jim netrpi. Nevyzaduji totiz explicitni nulovani registru aby pochopily, ze vysledek neni pouzity. Problem vzajemneho blokovani vyp. jednotek je (v komplexnim pohledu) opravdu nutno resit "fintami". PRS je vsak jen jednim konkretnim prvkem v tomto procesu a lze jej eliminovat uplne.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Petr  |  29. 10. 2001 22:01  | 

Tento clanek ma asi nejvyssi uroven na Zive za posledni rok - je opravdu VELMI VELMI kvalitni, i kdyz mi delal trochu problemy assembler (naposled jsem v ass. programoval na Commodore C64 )), byl jasne srozumitelny a informacne skvely - konecne budu mit pri hadkach cim argumentovat.

Jeste jenou dekuji.

                                petr

              

Souhlasím  |  Nesouhlasím  |  Odpovědět
Luda  |  29. 10. 2001 22:12  | 

Chvali neni nikdy dost , tak se taky pripojuji. Opravdu skvely clanek.

Luda

Souhlasím  |  Nesouhlasím  |  Odpovědět
Hurricane  |  29. 10. 2001 22:29  | 

Zdravim

ANO, opravdu, velmi kvalitni clanek, diky. I kdyz x86 ASMu moc nerozumim (orientuju se na Microchip PIC), tak to dokazu ocenit. Jen tak dal.

Hurricane

Souhlasím  |  Nesouhlasím  |  Odpovědět
Petr  |  29. 10. 2001 23:05  | 
Dan  |  30. 10. 2001 18:01  | 

Vyborny clanek, take diky za site-info!

Souhlasím  |  Nesouhlasím  |  Odpovědět
Zed  |  30. 10. 2001 03:24  | 

Hmmmmm, tak ...



1) skvelej clanek

2) jsem rad, ze jeste nekdo rozumi x86 assembleru (sam jsem nekolik let programoval pouze v assembleru a vzpominam na zlate casy



Z.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Koumes  |  30. 10. 2001 06:22  | 

...cenu AMD Gold3n Rul3z za zasluhy

Souhlasím  |  Nesouhlasím  |  Odpovědět
AViP  |  30. 10. 2001 08:00  | 

které jsou v originálním článku z www.emulators.com ?!?

Zejména. pročpak se nezmiňujete o tom, že AMD K7 nemá partial register stall ?!?

Jinak, samozřejmě, díky za cokoliv v češtině, co alespoň trochu pomáhá vysvětlit realitu kolem procesoru Pentium 4. Vzhledem k tomu, že jsem zdrojové články četl, je mi rovněž jasné, že se muselo při překladu krátit. Ale stejně ...

Souhlasím  |  Nesouhlasím  |  Odpovědět
D.  |  30. 10. 2001 08:51  | 

Opravdu zajimavy clanek, i pro cloveka, ktery je z oboru, ale tak hluboko normalne nejde. Paradni zpestreni vsedniho dne. Takovych clanku vic.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Stanislav Ošmera  |  30. 10. 2001 09:03  | 

Teda jsem uplne unesenej timto clankem. Docela me prinutil abych zive zase trochu vylepsil hodnoceni.
Kez by takovychto clanku bylo vice. Celkove pctuning ma o tridu vyssi uroven nez ostatni veci z zive.
Clanek je dokonalej v informacni hodnote, ale i v tom jak je vsechno vysvetleno i pro ty kteri moc nevidi do asembleru a microprocesoru (nebo aspon si to myslim, sam v asembleru jeste obcas neco udelam).
Zdravim a jen houst a vetsi kapky.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Daddo  |  30. 10. 2001 09:40  | 

Klobúk dole. Pripájam sa k názorom kolegov - vynikajúci článok. Dúfam, že ich bude viac.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Eagle  |  30. 10. 2001 09:45  | 

Celkem slušný článek, ale ani zde se nevyhneme pár drobným opravám ). Bohužel.

"na přístup do ní (L1 cache) čeká procesor jen 3 cykly" - omyl! Záleží na konkrétním procesoru a taky na tom, do jaké jednotky data putují. Konkrétně u Pentia 4 je to ALU 2T a FPU 6T. U Level 2 cache je to u stejného procesoru ALU 7T a FPU 7T.

"do hlavní paměti 130 cyklů" - nelze dost dobře změřit, protože i zde jsou buffery v podobě in-order quele, které sice trochu zpomalí získávání aktuálně požadovaných dat, ale celkově dokážou hodně zlepšit využití paměti.

"vyrovnávací paměť s 256bitovou šířkou datové sběrnice" - to má menší význam, než je na první pohled patrné. Je to jen kvůli rychlému kopírování dat z L2 do L1, když je potřeba najednou obměnit větší množství dat.

"Komunikace se světem: Zde není možno Intelu nic vytknout" - no tak to tedy je a hodně! Athlon používá 133MHz DDR FSB (3,75 ns) pro režim data i adresy, ale Pentium 4 používá 100MHz - pro data QDR (2,5ns), ale pro adresy pouze DDR (5ns). Jasně můžete vidět, že adresování probíhá na Athlonu rychleji.

"P4 používá paměti RDRAM s dlouhou latencí" - Pentium 4 prefetchuje jako divé, takže se tím latence RDRAM z velké části ztratí. Pokud někoho zajímá, proč Pentium 4 vyhrává Memory testy, tak to je ten prefetch.

"Tolik „hladových hrdel“ jeden dekodér nakrmit nedokáže" - a co Trace cache? Pro cykly to nejlepší, co dosud kdo vymyslel.

"SSE nelze použít pokud musíme použít čísla s velmi vysokou přesnosti" - SSE obsahuje 128bit registry!

"7 let stará sada MMX" - Pentium MMX bylo uvedeno v lednu (nebo v únoru?) roku 1997, tj. ani ne pět let.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Michal Kwolek  |  30. 10. 2001 11:32  | 

""na přístup do ní (L1 cache) čeká procesor jen 3 cykly" - omyl! Záleží na konkrétním procesoru a taky na tom, do jaké jednotky data putují. Konkrétně u Pentia 4 je to ALU 2T a FPU 6T. U Level 2 cache je to u stejného procesoru ALU 7T a FPU 7T.do hlavní paměti 130 cyklů" - nelze dost dobře změřit, protože i zde jsou buffery v podobě in-order quele, které sice trochu zpomalí získávání aktuálně požadovaných dat, ale celkově dokážou hodně zlepšit využití paměti.
"

Bylo zmineno, ze se jedna o Thunderbird na KT133A (jen pro upresneni... pameti na 133MHz, timingy 3/2/2). Prefetch merici program Latency "neoblbne" diky nahodnym pristupum do cele oblasti merene pameti.

""P4 používá paměti RDRAM s dlouhou latencí" - Pentium 4 prefetchuje jako divé, takže se tím latence RDRAM z velké části ztratí. Pokud někoho zajímá, proč Pentium 4 vyhrává Memory testy, tak to je ten prefetch."

Nemuzu nez nesouhlasit. Pri nahodnych pristupech do pameti se prefetch neuplatni. Bohuzel vetsina serverovych aplikaci se charakterizuje naprostou prevahou nahodneho pristupu nad sekvencnim. Treba SQL server pri zpracovani dotazu projizdi sekvencne indexove stranky (rekneme ze se jedna o neklastrovany index, maly objem dat- nizky vliv na rychlost) ale zpracovava udaje ze zcela nahodneho (z hlediska umisteni) mista a z obrovskeho objemu dat. Tady zadny prefetch prilis nepomuze. Pomuze velka cache a nizka latence pameti. Procesory konstruovane pro servery jsou velkou Cache primo charakteristicke.

""vyrovnávací paměť s 256bitovou šířkou datové sběrnice" - to má menší význam, než je na první pohled patrné. Je to jen kvůli rychlému kopírování dat z L2 do L1, když je potřeba najednou obměnit větší množství dat."

Nejen v tomto pripade. Jak uz jsem psal, instrukce 80x86 byvaji dlouhe a je rozdil jestli na precteni jedne instrukce potrebujeme 1 cteni nebo 2 cteni z cache.

""Tolik „hladových hrdel“ jeden dekodér nakrmit nedokáže" - a co Trace cache? Pro cykly to nejlepší, co dosud kdo vymyslel."

Trace cache je jakymsi prodlouzenim dekoderu. Prave jeho "propustnost" je max. 3mikroinstrukce na takt.

""SSE nelze použít pokud musíme použít čísla s velmi vysokou přesnosti" - SSE obsahuje 128bit registry!"

SSE pracuje vzdy na castech registru to je primo jejich princip- provadi stejnou operaci s kazdou casti reistru (polovinou,ctvrinou). 128bitove registry znamenaji maximalni precizi 64bitu, pokud potrebujeme 80bitove (rada nejen vedeckych aplikaci)- SSE pouzit nelze.

"7 let stará sada MMX" - Pentium MMX bylo uvedeno v lednu (nebo v únoru?) roku 1997, tj. ani ne pět let.


Oops, tak to mi nejak ujelo todlencto  diky za upozorneni.



 

Souhlasím  |  Nesouhlasím  |  Odpovědět
Eagle  |  30. 10. 2001 15:33  | 

ad1) V článku to nebylo nějak zdůrazněno, že se jedná o Thunderbird. Ale vidíte, že musíte taky říct, do jaké jednotky je jaká latence.

ad2) Prefetch se právě při náhodných přístupech uplatní velmi dobře! Celý mechanismus funguje tak, že procesor předem dekóduje instrukce (i v rámci větvení) a vydá pokyn na přesun příslušných dat z paměti do cache. Tímto se zamezí stavu, kdy procesor čeká na data, resp. se alespoň omezí čekací doba, protože data už jsou na cestě... při vámi uváděném timingu 7-1-1-1 může prefetch dobře obejít 7T inicializační latence, zatímco u dalšího sekvenčního čtení by byl na nic. U dlouhých burst přenosů se proto prefetch neuplatňuje, naopak se uplatňuje u náhodných přístupů. Pochopitelně tím nechci říct, že prefetch má 100 procent úspěšnost (už jenom díky větvení a spekulativnímu provádění kódu) a že nízká latence pamětí není důležitá.

ad3) Athlon používá šířku 64 bitů, což je 8 bytů. Je jen velmi málo instrukcí, které se dekódují na tak velké ops (jestli vůbec taková instrukce existuje). Jestliže tedy instrukci procesor přečte v jednom cyklu, tak jediný problém mohou být data větší než 64 bitů (třeba FPU).

ad4) Zapomínáte na fakt, že během uspokojování procesoru z Trace cache se dekódují další instrukce a ty se zapisují do Trace cache. Toto je velmi chytré! Při opakování instrukce již není třeba ji znovu dekódovat. Athlon má sice 3 dekodéry, ale ty jednak trpí na latence cache a pak taky všechny instrukce putující na zpracování musí být dekódovány (tj. žádné znovupoužití).

ad5) OK, už mlčím.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Michal Kwolek  |  30. 10. 2001 16:39  | 

ad 1) Samozrejme. V clanku bylo uvedeno pouze porovnani latence do stejne (konkretne ALU) jednotky z L1 Cache, L2 Cache a pameti.

ad 2) porad si nerozumime  pokud vetsinu casu (ve svete procesoru cti: vice nez jednou za 40 instrukci) saham na nahodna mista v pameti tak se diky latenci pameti cely mechanismus zablokuje. Jiste si dokazete takovou situaci zive predstavit, pripadne to muzu na nejakem prikladu vysvetlit. Porad tedy tvrdim: P4 ma v testech tak dobre vysledky diky jejich sekvencnimu charakteru.

ad 3) Athlon dokaze ovsem dekodovat 3 instrukce za takt...

ad 4) Vystup trace cache je max 3 mikroinstrukce za takt. Je jedno jestli jiz byly prelozeny ci nikoliv. Osobne si myslim, ze cely mechanismus by mohl byt efektivnejsi pri pozuziti kvalitnejsiho dekoderu bez TC ale s 16-32kb cache pro instrukce. TC ma jiste budoucnost a Intel dela dobre, ze tyto technologie zavadi. Pokud tuto myslenku dotahnou do konce (lepsi dekoder, vetsi propustnost, snad i cache pro instrukce...) budou z teto technologie budouci procesory jiste velmi tezit. Nyni je to vsak krok stranou a zpet z malou poznamkou pod carou: "technologie budoucnosti" ktera uzivatele soucasneho procesoru zajima pramalo.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Eagle  |  30. 10. 2001 21:39  | 

2) Uvědomte si, že procesor předem dekóduje instrukce a dělá odhady větvení (branch prediction). Jestliže tedy dokáže dělat odhady, určitě také ví, jaké instrukce jsou ve frontě a jaká budou potřebovat data. Takže pokud předem ví, která oblast paměti obsahuje požadovaná data (tj. lokace v paměti není závislá na nějakém výpočtu), dokáže je předem natáhnout do cache. A tak to taky funguje. Jak je jinak podle vás možné, že v běžně využívaném a uznávaném testu StreamD, který nedělá nic jiného než aritmetické operace s proměnnými, může být Pentium 4 2-3x rychlejší než Athlon.

3) Ano, to je pravda.... v tom případě jsou mu tři dekodéry celkem na nic.

4) "Je jedno jestli jiz byly prelozeny ci nikoliv." - no tak to teda určitě ne! Trace cache jsou již dekódované instrukce! Všimněte si rozdílu - u Athlonu se instrukce musí nejprve dekódovat a poté rovnou putuje ke zpracování. V Pentiu 4 se instrukce nejprve dekóduje, pak se uloží do Trace cache a teprve odtud putuje do zpracování. Pokud se nějaká operace opakuje, použije se rovnou dekódovaná instrukce z Trace cache (tj. nic se nedekóduje)... mezitím se mohou dekódovat další instrukce, na kterých ani nemusí být prováděný kód závislý! Že dokáže Athlon dekódovat tři instrukce za cyklus je pravda, ale jen v případě, kdy některá ze zpracovatelských jednotek tyto instrukce potřebuje. Pokud ne, dekóduje se třeba jen jedna instrukce. V praxi to tedy vypadá tak, že při využití Trace cache je Pentium 4 schopné dodat čtyři instrukce najednou (3 z Trace cache a jednu z dekodéru), zatímco Athlon jen tři. Naopak, pokud se Trace cache vzhledem k probíhajícímu kódu nedá použít, má Athlon výhodu 3:1.

Můžete si házet špínu na Intel jak chcete, ale já vím své. Jestli se vám Pentium 4 nelíbí, tak si ho prostě nekupujte.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Michal Kwolek  |  31. 10. 2001 16:14  | 

2) Kolik instrukci dopredu muze znat procesor misto, ze ktereho se bude cist? V jakem to bude pomeru vzhledem k delce latence pameti? StreamD dela vyse zminene operace na pameti sekvencne. Rychlost sekvencniho zapisu/cteni tandemu P4+RDRAM nikdo neupira.

4) P4 dokaze dodat max. 3 mikroinstrukce, podle mych informaci zadna zkratka dekoder -> vyp. jednotky neexistuje, vse jde pres TC. Athlon dokaze dodat 6 mikroinstrukci. Vyhoda Athlonu pokud se TC pouzit neda je jeste vyssi, nezapomente na absenci L1 Cache pro instrukce v P4. Nevyhoda Athlonu pokud TC pouzit lze je naopak mensi nez uvadite. Diky predikci vetveni atd. by melo byt misto dalsi instrukce vzdy znamo dopredu a diky tomu muze byt vzdy vcas dekoderem zpracovana. Pokud se branch predirektor splete tak holt vznikne dira dokud se nenacte instrukce ze spravneho mista+jeden takt na zpracovani dekoderem, porad si ale muze vesele prozpevovat protoze diky kratsi pipeline dozene ztratu drive.

Pokud bude duvod tak budu hazet spinu, pokud bude duvod chvalit- udelam to take. Nejsem zadny fanatik do AMD, Intelu, VIA ani Transmety. Spise by mne zajimal Vas postoj- jeste nedavno byly Vase clanky a prizpevky silne proAMD ted je tomu naopak. Opravdu Vas P4 tak nadchlo a prinutilo Vas tak drasticky zmenit nazor?

 

Souhlasím  |  Nesouhlasím  |  Odpovědět
Eagle  |  31. 10. 2001 22:48  | 

2) Dost na to, aby to u typických aplikací přineslo zvýšení výkonu o 2 až 10 procent (zdroj Intel Corporation, jinak viz. testy Coppermine vs. Tualatin).

4) "Once MacroOPs are decoded, up to three MacroOPs per cycle are dispatched to the instruction control unit (ICU). The ICU is a 72-entry MacroOP reorder buffer (ROB) that manages the execution and retirement of all MacroOPs, performs register renaming for operands, and controls any exception conditions and instruction retirement operations." - AMD Athlon Processor Technical Brief

Takže sečteno a podtrženo, Athlon dodá maximálně 3 ops za CLK, Pentium 4 je schopné dodat také tři ops za cyklus (jestli není možné dodat ji přímo z dekodéru) z Trace cache a přitom dekódovat jednu instrukci na ops. Do Trace cache se vejde 12000 ops (to je dost, nezdá se vám?), takže plně nahrazuje Level 1 instrukční cache.

 

---
Pentium 4 mě rozhodně nenadchlo, spíš mě naštvali zaslepení hlupáci, kteří si naivně myslí, že AMD je naprosto dokonalé a že nic lepšího neexistuje, přičemž ani nemají dostatek informací, aby byli schopni posoudit architekturu jednotlivých procesorů. Mimochodem, když jste takový fanda do AMD, jakou dokumentaci k x86 od AMD používáte? Obávám se totiž, že většina programátorů v assembleru používá IA-32 Intel Architecture Software Developer Manual (je to 2000 stran informací). Jinak že je Willamette nedodělek, s tím souhlasím.

Souhlasím  |  Nesouhlasím  |  Odpovědět
David Majda  |  30. 10. 2001 10:00  | 

Tohle je snad nejlepsi clanek, co jsem na Zive kdy cetl -- a to se o procesory jinak skoro vubec nezajimam. Dekuji autorovi a tesim se na dalsi clanky od nej.

Souhlasím  |  Nesouhlasím  |  Odpovědět
kubik  |  30. 10. 2001 10:01  | 

Chvalim! At zije PC Tuning! Diky za pekny pocteni k rannimu kafi!

Souhlasím  |  Nesouhlasím  |  Odpovědět
dýtr  |  30. 10. 2001 10:55  | 

hmm udelal sem dobre, ze sem si poridil P4ku. Uvital bych nakej programek, kterej detekuje duty cycles. Jo a FAKt BYCH BYL RAD, kdybych si moh precist neco o northwoodu (do hloubky). Intel na to hodil asi embargo co ?

Kazdopadne prispevky stylu "dobry clanek" jsem za Zive uz hodne dlouho nevidel. Assembleru "ruzumim" a taky chvalim .

Souhlasím  |  Nesouhlasím  |  Odpovědět
proksik  |  30. 10. 2001 11:10  | 

Timto clankem jste me opravdu nadchli. Fakt super, autor by mel dostat extra premie.

P.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Hugo  |  30. 10. 2001 13:36  | 

 Článek je skvělej, ale zrovna jsem sehnal kupce na moje PIII 933, i815E a 320 MB a chci si pořídit P4 478pin 1800 Mz, i850 a 512 MB.

Dělám programy ve kterých jde především a rychlost výpočtů s pohyblivou čárkou. AMD pro mne bylo zklamáním měl jsem jako první 700Mz Athlona a desku s ABIT KX133. Podařilo se mi ji vyreklamovat i s AMD. Pak jsem měl KT133 a skoro to samé. Hodně grafických karet ATI RAGE Pro a karty od ASUSU dělali taky potíže. Vše se vyřešilo použitím čipsetu od intelu. Nechci se intelu vzdát je pro mě důležitější  stabilita než rychlost. Co je platný že výpočet proběhne za 24 místo 30 hodin, když to na AMD občas celý vytuhne.  Ve škole se z úsporných důvodů kupovalo hodně desek s VIA chipsetem a skoro nikde to pod w2k není úplně bez problémů.

To jsem ale odbočil jinam.

Chtěl bych se proto zeptat vyplatí se upgrade zmiňovaného PC  za účelem zvýšení rychlosti. Staré PC prodám velmi výhodně a tak doplatím jen 7200 Kč (cena RIMMů) .

Souhlasím  |  Nesouhlasím  |  Odpovědět
Zdenek  |  30. 10. 2001 14:56  | 

A co AMD cipset? Mam dva roky komp s AMD 750 cipsetem a se stabilitou pod w2k rozhodne nemam problem.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Hugo  |  30. 10. 2001 15:36  | 

Teď o tom začínám uvažovat ale není pro Athlon XP 1700+ násobitel 11x trochou moc - viz zahlcení sběrnice.

A navíc jsem u grafiky narazil na tenhle problem Geforce2 GTS od asusu. Měl jsem s ní na via chipsetu problemy a chtěl jsem ji vyměit. Prodejce mi všat na internetu ukazal toto :
Minimum System Requirement
Intel Pentium™, Pentium Pro™, Pentium II™ III or compatible CPUs
Intel chipset mainboard recommended
One available AGP compliant slot
a řekl mi že, že jsem si měl vybrat jinou grafiku. Jak jsem přešel na i815 vše OK.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Patrik Veselík  |  30. 10. 2001 15:11  | 

Chtěl jsem původně pochválit, že až na drobnosti (kterých se nikdo nevystříhá) je to skvělý článek, ale už jsem asi padesátý a má pochvala by ztratila význam, tak nic.....

"Bohužel testy dokazují, že k takovému snižování taktu dochází i při řádném chlazení pokud je procesor zatěžován na 100% - tedy právě tehdy, kdy výkon nejvíce potřebujeme."

Po přečtení této věty jsem si uvědomil fakt, úzce se vztahující k procesoru AMD Athlon. Autor zde opět potvrdil známé a přece podceňované chlazení procesorů. Není nad kvalitní chladič, bez něj odejde procesor (dřív nebo později) nebo odejde uživatel (k jinému počítači) - nebo obojí. Procesor Intel Pentium 4 budiž tedy jakýmsi měřítkem tepelného výkonu procesoru a schopnosti chladičů tento výkon odvést. Pentium 4 se alespoň tímto způsobem brání, ovšem o to hůř jsou na tom procesory AMD Athlon, které sice pracují, ale evidentně se přehřívají. Uživatelé se chlácholí číslem, které si základní deska skoro vymýšlí - teplotou pouzdra. Již několikrát proběhlo tiskem, že této teplotě se dá věřit plus mínus deset stupňů. To nená zrovna malá tolerance a může být hranicí mezi dobrým a odcházejícím procesorem.
   Když to tedy shrnu - co upozorňuje uživatele AMD Athlonů, že se jejich procesor přehřívá? Bohužel jen spousty různobarevných čmoudíků, ale to je již pozdě. Již kvůli AMD doufám, že Palomino bude dobře a i v mezních situacích hlásit přesnou teplotu, která může být bernou mincí pro uživatele i příslušný software. Doufám, že to bude též hmatatelný důkaz pro výrobce chladičů, že by nebylo špatné poskytnout pro dnešní žhavé procesory odpovídající chladiče. Odpovídající technologie chlazení dávno existují a používají se, jen je využít.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Lib  |  30. 10. 2001 15:47  | 

Co se tyce P4 tak lze jasne videt (na NetBurst) jakym smerem se vyvoj CPU ubira - konkretne je to predpovidani - ze specifikace intelu jasne plyne, ze programy na P4 musi byt hrube optimalizovane, protoze toto CPU spoleha jen a jen na to, ze bude krmeno daty podle nejakych pravidel - zejmena to lze videt ve zvysene hloubce "predpovidani" kodu, coz ovsem prinasi vetsi zpozdeni pri zotaveni se z chyby (a to je taky jeden z duvodu proc stare programy bezi pomalu). A myslim ze algoritmy na zotaveni a predpovidani sezeraly nejakou tu cast CPU a pridani dalsich vylepseni (napr. v podobe druhe FPU jednotky) by zvetsilo plochu CPU, coz by znamenalo vetsi teplo, s cimz zase souvisi nizsi frekvence atd. Suma sumarum P4 ma nizsi IPC nez P3 a Athlon, ale to se dorovnava predpovidani (dalsi jadro se bude asi jmenovat Nostradamus ) a "jednoduchosti" - tj vyssim taktem a jak vsichni dobre vime  Vykon = IPC * Frekvence. Proste uvidime jak na tom bude Northwood a co vyleze z AMD (konkretne jejich 64bit. CPU - Hammer je tusim kodove jmeno - kladivo na Intel )

Souhlasím  |  Nesouhlasím  |  Odpovědět
Petr Minařík  |  30. 10. 2001 16:05  | 

Díky za ušetření fury času. Rád čtu takovéto zasvědcené články v mateřském jazyce (i když bych to také anglicky překousal) a podané polopatisticky. Díky pane Autore dloho jsem si trápil hlavu proč tak supermoderní procesor je tak superpomalý. Teď už mi svítá.

Pro PCtuning - doufám, že si pána náležitě hledíte! Pokud budete produkovat takové články jistě se Vám zdvihne navštěvovanost.

Souhlasím  |  Nesouhlasím  |  Odpovědět
vlczaak  |  30. 10. 2001 16:52  | 

Výborně napsaný článek - vysoce odborný a přesto vše velmi dobře vysvětleno, takže pochopitelné i pro "normální" lidi (v assembleru běžně nedělám). Vypadá to, že uvedení P4 byl především marketingový tah s cílem neztratit čas a získat pozici na trhu. Z tohoto pohledu to bylo možná úspěšné, protože masáž Intelu ohledně P4 je poměrně přesvědčivá. Nicméně z hlediska výkonu se jedná o verzi 0.9 a věřím, že až Intel uvede své Pentium 5 (= P4 v1.0), bude kampaň ještě úžasnější, protože se podaří implementovat vše, co se v P4 slíbililo, ale "nestihlo". Jinak si nemyslím, že jsou Pentia špatné procesory, ale tento styl uvádění "polotovarů" zdá se mi poněkud pochybný.

Rovněž diskuze je zajímavá, zvláště pokud se do ní zapojí někdo další, kdo do P4 "vidí".

Souhlasím  |  Nesouhlasím  |  Odpovědět
vlczaak  |  30. 10. 2001 16:52  | 

Výborně napsaný článek - vysoce odborný a přesto vše velmi dobře vysvětleno, takže pochopitelné i pro "normální" lidi (v assembleru běžně nedělám). Vypadá to, že uvedení P4 byl především marketingový tah s cílem neztratit čas a získat pozici na trhu. Z tohoto pohledu to bylo možná úspěšné, protože masáž Intelu ohledně P4 je poměrně přesvědčivá. Nicméně z hlediska výkonu se jedná o verzi 0.9 a věřím, že až Intel uvede své Pentium 5 (= P4 v1.0), bude kampaň ještě úžasnější, protože se podaří implementovat vše, co se v P4 slíbililo, ale "nestihlo". Jinak si nemyslím, že jsou Pentia špatné procesory, ale tento styl uvádění "polotovarů" zdá se mi poněkud pochybný.

Rovněž diskuze je zajímavá, zvláště pokud se do ní zapojí někdo další, kdo do P4 "vidí".

Souhlasím  |  Nesouhlasím  |  Odpovědět
Michal Kwolek  |  30. 10. 2001 18:23  | 

Redakce shledala nektere casti clanku za nadbytecne (problematiky se tykaly jen okrajove). Uvedu tedy dle meho soudu dulezitou pasaz alespon v diskuzi. Tento text byl na konci prvni kapitoly:
 
 
Některé prvky měly naopak negativní vliv na rychlost avšak byly nutné pro další rozvoj operačních systémů. Zde řadíme především zavedení chráněného režimu procesoru (Protected Mode). Průměrně program psaný pro chráněný režim procesoru (WIN 9X, NT, Linux, částečně WIN 3.11 v enhanced módu (virtuální 8086 režim)) pracuje až o 10% pomaleji než  identický algoritmus psaný pro reálný režim (DOS).
 
INSIDER: Reálný a chráněný režim procesoru
Adresace v reálném režimu procesoru probíhá pomocí segmentu a offsetu pomocí velmi jednoduchého vzorce fyzická adresa=segment*16+offset. Tak vznikne 20bitové číslo, kterým lze přímo identifikovat místo v paměti. Odtud plyne omezení využitelné paměti v tomto režimu na 1MB (2^20). Programátorským oříškem také byla také práce s objekty v paměti většími než 64KB (2^16) kvůli překračování hranic segmentu. V tomto režimu chybí také jakákoliv možnost ochrany dat a není možno naprogramovat skutečný, preemptivní, multitasking. Tato situace přestala přestávala stačit už v době DOSu a po příchodu Windows se stala zcela nepoužitelnou. Proto přišli vývojáři v Intelu s myšlenkou nového režimu práce procesoru, který překoná tyto omezení. Chráněný režim (Protected Mode) umožňuje adresovat gigantické množství paměti (v závislosti na způsobu adresace, řádově terabajty) z čehož libovolná část může ležet mimo fyzickou paměť např. na disku (virtuální paměť),  zavádí úrovně ochrany díky kterým je např. jádro operačního systému chráněno před zničením chybně napsanou aplikací. Segmenty můžou mít velikost až 2GB. A konečně umožňuje i implementaci multitaskingu. Dokonce i Pentium 4 se ale po startu chová jako stařičký 8086 (jen s hodinami tikajícími trochu rychleji , do chráněného režimu se přepne až při zavádění operačního systému.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Liibo  |  31. 10. 2001 12:08  | 

Dobrý den,
nedá mi to a taky se přidám k davu těch, co chválí autora  no snad nezpychne a bude psát další články podobně do hloubky. Většina článků je příliš povrchních a pohled odborníka by se měl ocenit... Povrchnost dnes nějak hýbe světem, koho zajímá že AMD XP má lepší architekturu tak si to někde přečte, udělá hmmm a podívá se na kolika MHz to CPU běží.. a snad i proto AMD zavedlo PR rating, co já vím.

Vzkaz pro redakci: Nebojte se článků, které jdou takhle do hloubky -- ty si přečtu raději než nějaký povrchní blábol

Souhlasím  |  Nesouhlasím  |  Odpovědět
Petr  |  31. 10. 2001 13:33  | 

článek je vyčerpávající takovým způsobem, na jaký nejsme zvyklí Víc takových článků a budu uvažovat o placeném serveru. No more copy eng+ => cz-

Souhlasím  |  Nesouhlasím  |  Odpovědět
Giffel  |  31. 10. 2001 17:13  | 

Jsem pouze student stredni tech. skoly, ale tento clanek je na urovni. Zrovna probirame podobnou problematiku a vas clanek me vynesl, co se tyce informovanosti, mozna vyse nes nas ucitel.

 

P. S. Uz se tesim jak si na nej zamachruju............................................................Snad.

Souhlasím  |  Nesouhlasím  |  Odpovědět
DuckDaffy  |  31. 10. 2001 22:44  | 

Tak si můžete připsat další pochvalu na své konto ode mě .

Zajímalo by mě, zda bude obdobný článek o AMD procesorech.

A uvítal bych obdobné detaily o Transmetě, o kterých se prakticky nepíše.

Souhlasím  |  Nesouhlasím  |  Odpovědět
BoB  |  01. 11. 2001 14:35  | 

...ale take se pridam k zastupu tech, kteri zaplesali nad kvalitou clanku, jez vysoce prevysuje ostatni. Pracuji na (PA)-RIISCovych strojich a okolo jejich architektury (ale i i32) jsem se "trochu" otrel a tak mne trochu vadi moderni "objektovy" trend a "mame hodne pameti"... zlate casy 16kB-64kB pameti, kdy se dlouze premyslelo, nez se napsala cast kodu, optimalizovalo se a optimalizovalo, ze clovek za 14 dni nemel sanci pochopit, co ten jeho genialni kod ma vlastne delat

Dnes je to samy pojidack kolacu...

Souhlasím  |  Nesouhlasím  |  Odpovědět
filda  |  01. 11. 2001 19:46  | 

Je to celkem nářez!!!!!!!!

Souhlasím  |  Nesouhlasím  |  Odpovědět
Tony  |  02. 11. 2001 09:11  | 

Takhle ma vypadat clanek, za ktery jsem ochoten zaplatit, a verim, ze nejen ja. PS: nikdy jsem si zadnej OS ani SOFT nekoupil.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Dave  |  06. 11. 2001 07:17  | 

Uz dlouho jsem necetl takhle dobrej clanek. Kez by si kazdy autor prostudoval literaturu jako Michal Kwolek.

Souhlasím  |  Nesouhlasím  |  Odpovědět
^SphinX  |  15. 11. 2001 08:09  | 


Opravdu je to tak , většina uživatelů koukne aha Pentium 4 tak to je určite o 20% lepši a de do toho , řeknou si pář základních pojmů.

FSB 400 ? supr ma větši nez AMD

Ghz ? aha je tam vetší číslo :) je lepší

a pak zapnou Photoshop 6, a najednou jim to jde pomaleji než na P III :)))))

nebo se drží videem kde se za chodu PC sebere CPU chladič a říkají si aha INTEL to je ale stabilita:) ale když do auta nedáte olej tak taky dlouho nevydrží :)).

VERDIKT: můj názor je že P4  je určitě zbytečná investice, není tam dobry pomer CENA:VYKON.

-^SphinX-

Souhlasím  |  Nesouhlasím  |  Odpovědět
Zasílat názory e-mailem: Zasílat názory Můj názor

Aktuální číslo časopisu Computer

Test 9 bezdrátových reproduktorů

Jak ovládnout Instagram

Test levných 27" herních monitorů

Jak se zbavit nepotřebných věcí na internetu