Většinu chyb způsobují prý vysokoenergetické částice z vesmíru, které interagují s paměťovou buňkou. Takže je to otázka náhody, a RAM modul je takový detektor záření :)U většiny strojů nikdy, respektive nesleduju to z logu OS, ale hlásí mi to iLO (či ekvivalent). Některé si postěžují řádově jednou ročně na opravitelnou chybu, to neřeším. Jakmile je jich víc, jde o vadný modul, a tam je otázka času, než to dospěje do stavu neopravitelných chyb - řádově měsíce. Zažil jsem řádově 10 vadných modulů. A víc než 400 mi jich rukama asi neprošlo.Tam se to pak chová tak, že je vadný patrně nějaký konkrétní čip (rozsah adres), a dokud ty adresy nevyužíváte, nevšimnete si toho. Takže se to pak projevuje tak, že v "nízké zátěži to funguje, a jakmile po tom chci něco náročnějšího, spadne to". Vadný samozřejmě nemusí být jen čip, může to způsobovat i deska nebo paměťový řadič, nezažil jsem. Tohle spolehlivě rozhodne memtest.AMD, nevím jestli i Intel, tam jsem to nezažil, reportuje i ECC chyby na procesorové cache. Zažil jsem pouze dvě opravitelné, tam jsem to našel náhodou v messages.Jinak Debian do messages hodí při neopravitelné chybě fakt vtipnou hlášku. Něco jako "bad memory checksum, little confused, trying to continue".Jak už mám všude ESXi, tak to reaguje díkybohu rebootem. Vědět mi to nedává, zjistím to přes to iLO.Je fakt, že mívám na techniku dost špatný vliv, už mi během jednoho měsíce umřelo 27 HDD (úplně různých, žádná vadná série) takže jsem k těmhle věcem hodně skeptický.Taky jsem slyšel názor (a nesouhlasím s ním), že paměti dříve na starších výrobních technologiích měly větší buňky, a proto byly na rušení náchylnější. Myslím, že je to obráceně, ale zase tolik tomu nerozumím.