Diese Seite soll Erfahrungen der immer noch vorhandenen Probleme mit SL6 & Sandy-Bridge Systemen zusammentragen.

Was geschieht?

Während des laufenden Betriebes verringert sich auf einzelnen Maschinen die Durchsatzrate des RAM dramatisch. Gemessen mit:

[root@jux53 ~]# dd if=/dev/zero of=/dev/null bs=1M count=8k
8192+0 records in
8192+0 records out
8589934592 bytes (8.6 GB) copied, 4.564424 s, 1.75 GB/s

Ebenso ist Maximalfrequenz aller CPUs im System reduziert und erreicht z.B. auf einem 2.2GHz System nur noch 1.3GHz:

[root@jux53 ~]# cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_max_freq
1300000

Dieser Effekt kann nach ein paar Stunden genauso spurenlos verschwinden (nichts im Syslog, etc.), wie er aufgetreten ist. Manchmal verschwindet das Problem auch gar nicht bis zu einer manuellen Intervention.

Der Nagios-Check "RAMSpeed" (ja, der ist noch nicht optimal...) sollte auf aktuell betroffene Systeme aufmerksam machen.

Welche Systeme sind betroffen?

Potentiell ist jedes SL6-System mit Sandy-Bridge CPUs betroffen. Aktuelle Firmware *scheint* die Wahrscheinlichkeit zu reduzieren. Es gibt jedoch aktuell zu wenig Statistik. SL5-Systeme scheinen *nicht* betroffen zu sein. Ebenso spielt die BIOS-Einstellung zur CPU-Performance (Performance, On-demand, etc.) keine Rolle.

Bisher wurde nur eine Meldung gefunden, die exakt unser Problem widerspiegelt: http://www.beowulf.org/pipermail/beowulf/2013-August/031962.html

Was heißt das?

Was wurde probiert?

Im laufenden System scheint das Problem nicht manuell fixbar zu sein.

Nur ein Cold-Boot des Systems führt reproduzierbar (vorläufig?) wieder zu einem System mit voller Leistung.

SandyBridge-Slowdown (last edited 2014-03-24 10:21:58 by AndreasHaupt)