Differences between revisions 1 and 2
Revision 1 as of 2014-03-24 10:20:16
Size: 2089
Editor: AndreasHaupt
Comment:
Revision 2 as of 2014-03-24 10:21:58
Size: 2089
Editor: AndreasHaupt
Comment:
Deletions are marked like this. Additions are marked like this.
Line 44: Line 44:
Nur ein Cold-Boot des Systems führt reproduzierbar (vorläufig?) zu einem wieder System mit voller Leistung. Nur ein Cold-Boot des Systems führt reproduzierbar (vorläufig?) wieder zu einem System mit voller Leistung.

Diese Seite soll Erfahrungen der immer noch vorhandenen Probleme mit SL6 & Sandy-Bridge Systemen zusammentragen.

Was geschieht?

Während des laufenden Betriebes verringert sich auf einzelnen Maschinen die Durchsatzrate des RAM dramatisch. Gemessen mit:

[root@jux53 ~]# dd if=/dev/zero of=/dev/null bs=1M count=8k
8192+0 records in
8192+0 records out
8589934592 bytes (8.6 GB) copied, 4.564424 s, 1.75 GB/s

Ebenso ist Maximalfrequenz aller CPUs im System reduziert und erreicht z.B. auf einem 2.2GHz System nur noch 1.3GHz:

[root@jux53 ~]# cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_max_freq
1300000

Dieser Effekt kann nach ein paar Stunden genauso spurenlos verschwinden (nichts im Syslog, etc.), wie er aufgetreten ist. Manchmal verschwindet das Problem auch gar nicht bis zu einer manuellen Intervention.

Der Nagios-Check "RAMSpeed" (ja, der ist noch nicht optimal...) sollte auf aktuell betroffene Systeme aufmerksam machen.

Welche Systeme sind betroffen?

Potentiell ist jedes SL6-System mit Sandy-Bridge CPUs betroffen. Aktuelle Firmware *scheint* die Wahrscheinlichkeit zu reduzieren. Es gibt jedoch aktuell zu wenig Statistik. SL5-Systeme scheinen *nicht* betroffen zu sein. Ebenso spielt die BIOS-Einstellung zur CPU-Performance (Performance, On-demand, etc.) keine Rolle.

Bisher wurde nur eine Meldung gefunden, die exakt unser Problem widerspiegelt: http://www.beowulf.org/pipermail/beowulf/2013-August/031962.html

Was heißt das?

  • Merken es andere nicht?
  • Nur DELL-Systeme betroffen?
  • Haben wir außergewöhnliche Einstellungen?

Was wurde probiert?

Im laufenden System scheint das Problem nicht manuell fixbar zu sein.

  • Ein Hochsetzen von z.B. /sys/devices/system/cpu/cpu0/cpufreq/scaling_max_freq hat keinen Effekt.
  • Andere CPU-Governors bewirken nichts.
  • Ein Reboot / Reset bewirkt meistens nichts
  • Aktuelle Firmware (Stand: März 2014) hilft nichts

Nur ein Cold-Boot des Systems führt reproduzierbar (vorläufig?) wieder zu einem System mit voller Leistung.

SandyBridge-Slowdown (last edited 2014-03-24 10:21:58 by AndreasHaupt)