Contents
LogSurfer meldet: "Fault Manager TYPE:Fault SEVERITY"
mit dmesg bekommt man Fault Nr.
- fmdump -v -u 7c5628cc-853f-44f4-e5b1-8ed444b00068
auch fmadm faulty -a
Anzeige: /opt/SUNWhd/hd/bin/hd -s -c
- da Platte nicht benutzt (nicht zpool, nicht slvm, war Reserve)
cfgadm -c unconfigure sata5/2::dsk/c5t2d0
fmadm repair 7c5628cc-853f-44f4-e5b1-8ed444b00068
- auch LED's an Maschine gehen wieder auf grün
Problem: zpool zeigt degraded Zustand an
Pool hat keine Spare Disk
zpool status pool3 pool: pool3 state: DEGRADED status: One or more devices could not be opened. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Attach the missing device and online it using 'zpool online'. see: http://www.sun.com/msg/ZFS-8000-D3 scrub: resilver completed with 0 errors on Wed Jul 4 15:46:04 2007 config: NAME STATE READ WRITE CKSUM pool3 DEGRADED 0 0 0 raidz2 DEGRADED 0 0 0 c0t2d0 UNAVAIL 0 0 0 cannot open c1t2d0 ONLINE 0 0 0 c4t2d0 ONLINE 0 0 0 c5t2d0 ONLINE 0 0 0 raidz2 DEGRADED 0 0 0 c0t4d0 ONLINE 0 0 0 c1t4d0 ONLINE 0 0 0 c5t1d0 ONLINE 0 0 0 c6t4d0 UNAVAIL 0 0 0 cannot open
- Problem: 2 Platten werden nicht mehr erkannt (1 Platte war erst ausgefallen, nach einem Reboot noch eine zweite) Vorgehen:
- Prüfen mit cfgtool, ob die Platten angezeigt werden
cfgadm -l[v] listet die verfügbaren Platten, man sieht ob Platten konfiguriert sind
cfgadm -l Ap_Id Type Receptacle Occupant Condition sata0/0::dsk/c0t0d0 disk connected configured ok sata0/1::dsk/c0t1d0 disk connected configured ok sata0/2::dsk/c0t2d0 disk connected configured ok sata0/3::dsk/c0t3d0 disk connected configured ok sata0/4::dsk/c0t4d0 disk connected configured ok sata0/5::dsk/c0t5d0 disk connected configured ok sata0/6::dsk/c0t6d0 disk connected configured ok sata0/7::dsk/c0t7d0 disk connected configured ok
In unserem Fall wurden beide Platten nicht mehr angezeigt. Auch das Kommando format kann dazu verwendet werden.
- Es hat sich herausgestellt, dass man 2 Verfahren testen sollte, bevor man einen Call aufmacht.
- zuerst versuchen, die Platte wieder zu konfigurieren
cfgadm -c configure sata0/2::dsk/c0t2d0 # hat funktioniert cfgadm -c configure sata4/4::dsk/c6t4d0 cfgadm: Configuration operation invalid: No device connected to ap_id: /devices/pci@2,0/pci1022,7458@7/pci11ab,11ab@1:4
- Platte ziehen und wieder stecken, dazu muß man die Topologie kennen, siehe nächster Punkt
- zuerst versuchen, die Platte wieder zu konfigurieren
hd tool für Anzeige und Abfrage der Platten /opt/SUNWhd/hd/bin/hd -s -c
- -c farbige Anzeige, Slot mit ausgefallener Platte wird root angezeigt
--------------------SunFireX4500------Rear--------------------- 36: 37: 38: 39: 40: 41: 42: 43: 44: 45: 46: 47: c5t3 c5t7 c4t3 c4t7 c7t3 c7t7 c6t3 c6t7 c1t3 c1t7 c0t3 c0t7 ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ 24: 25: 26: 27: 28: 29: 30: 31: 32: 33: 34: 35: c5t2 c5t6 c4t2 c4t6 c7t2 c7t6 c6t2 c6t6 c1t2 c1t6 c0t2 c0t6 ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22: 23: c5t1 c5t5 c4t1 c4t5 c7t1 c7t5 c6t1 c6t5 c1t1 c1t5 c0t1 c0t5 ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: c5t0 c5t4 c4t0 c4t4 c7t0 c7t4 c6t0 c6t4 c1t0 c1t4 c0t0 c0t4 ^b+ ^b+ ^++ ^++ ^++ ^++ ^++ ^-- ^++ ^++ ^++ ^++ -------*-----------*-SunFireX4500--*---Front-----*-----------*----------
ein weiteres Tool ist hilfreich: fmdump
man kann sich Events aus fault management error log anzeigen lassen: fmdump -e
fmdump [-v]
fmdump -e Jul 04 15:46:03.4541 ereport.fs.zfs.vdev.open_failed Jul 04 15:46:03.4540 ereport.fs.zfs.vdev.open_failed Jul 04 15:46:03.4541 ereport.fs.zfs.vdev.open_failed Jul 05 13:09:35.0170 ereport.fs.zfs.checksum Jul 05 13:09:35.0170 ereport.fs.zfs.checksum fmdump -v TIME UUID SUNW-MSG-ID Mar 19 10:39:27.5112 f173ff68-7582-44d3-d0bd-c2d4742112ad ZFS-8000-D3 100% fault.fs.zfs.device Problem in: zfs://pool=6f15db21fee71a59/vdev=d0e78bcee7eeae80 Affects: zfs://pool=6f15db21fee71a59/vdev=d0e78bcee7eeae80 FRU: -
Konnte die Platte mit cfgadm wieder konfiguriert werden, muß sie im ZFS online gesetzt werden
zpool online pool3 c0t2d0
danach Check mit zpool status pool3
- Muß die Platte ausgetauscht werden, nach dem Tausch auch wieder
cfgadm -c configure sata4/4::dsk/c6t4d0 zpool replace pool3 c6t4d0 c6t4d0 # das dauert einen Moment (2 Min) zpool status pool3
Pool mit Spare Disk (copia2, pool3, 29.12.2008)
- zpool status
NAME STATE READ WRITE CKSUM pool3 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 spare ONLINE 0 0 0 c0t2d0 ONLINE 113 75 0 c0t7d0 ONLINE 0 0 0 c1t2d0 ONLINE 0 0 0 c4t2d0 ONLINE 0 0 0 c5t2d0 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c0t4d0 ONLINE 0 0 0 c1t4d0 ONLINE 0 0 0 c5t1d0 ONLINE 0 0 0 c6t4d0 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c0t6d0 ONLINE 0 0 0 c1t6d0 ONLINE 0 0 0 c5t6d0 ONLINE 0 0 0 c6t6d0 ONLINE 0 0 0 spares c0t7d0 INUSE currently in use
- zpool detach pool3 c0t2d0 # hotspare wurde verwendet, Pool war nicht im "degraded" Zustand
- cfgadm -c unconfigure sata0/2 # Platte war wieder online, deshalb unconfigure
- Plattentausch, Position blinkt blau
- cfgadm -c unconfigure sata0/2
- zpool add pool3 spare c0t2d0 # ausgetauschte Platte wird hotspare
- wenn man kein detach gemacht hätte, wäre c0t7d0 hotspare geblieben