<> == LogSurfer meldet: "Fault Manager TYPE:Fault SEVERITY" == * mit ''dmesg'' bekommt man Fault Nr. * fmdump -v -u 7c5628cc-853f-44f4-e5b1-8ed444b00068 * auch ''fmadm faulty -a'' * Anzeige: ''/opt/SUNWhd/hd/bin/hd -s -c'' * da Platte nicht benutzt (nicht zpool, nicht slvm, war Reserve) * ''cfgadm -c unconfigure sata5/2::dsk/c5t2d0'' * ''fmadm repair 7c5628cc-853f-44f4-e5b1-8ed444b00068'' * auch LED's an Maschine gehen wieder auf grün == Problem: zpool zeigt degraded Zustand an == === Pool hat keine Spare Disk === {{{ zpool status pool3 pool: pool3 state: DEGRADED status: One or more devices could not be opened. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Attach the missing device and online it using 'zpool online'. see: http://www.sun.com/msg/ZFS-8000-D3 scrub: resilver completed with 0 errors on Wed Jul 4 15:46:04 2007 config: NAME STATE READ WRITE CKSUM pool3 DEGRADED 0 0 0 raidz2 DEGRADED 0 0 0 c0t2d0 UNAVAIL 0 0 0 cannot open c1t2d0 ONLINE 0 0 0 c4t2d0 ONLINE 0 0 0 c5t2d0 ONLINE 0 0 0 raidz2 DEGRADED 0 0 0 c0t4d0 ONLINE 0 0 0 c1t4d0 ONLINE 0 0 0 c5t1d0 ONLINE 0 0 0 c6t4d0 UNAVAIL 0 0 0 cannot open }}} Problem: 2 Platten werden nicht mehr erkannt (1 Platte war erst ausgefallen, nach einem Reboot noch eine zweite) Vorgehen: * Prüfen mit cfgtool, ob die Platten angezeigt werden ''' cfgadm -l[v]''' listet die verfügbaren Platten, man sieht ob Platten konfiguriert sind {{{ cfgadm -l Ap_Id Type Receptacle Occupant Condition sata0/0::dsk/c0t0d0 disk connected configured ok sata0/1::dsk/c0t1d0 disk connected configured ok sata0/2::dsk/c0t2d0 disk connected configured ok sata0/3::dsk/c0t3d0 disk connected configured ok sata0/4::dsk/c0t4d0 disk connected configured ok sata0/5::dsk/c0t5d0 disk connected configured ok sata0/6::dsk/c0t6d0 disk connected configured ok sata0/7::dsk/c0t7d0 disk connected configured ok }}} In unserem Fall wurden beide Platten nicht mehr angezeigt. Auch das Kommando '''format''' kann dazu verwendet werden. * Es hat sich herausgestellt, dass man 2 Verfahren testen sollte, bevor man einen Call aufmacht. 1. zuerst versuchen, die Platte wieder zu konfigurieren {{{ cfgadm -c configure sata0/2::dsk/c0t2d0 # hat funktioniert cfgadm -c configure sata4/4::dsk/c6t4d0 cfgadm: Configuration operation invalid: No device connected to ap_id: /devices/pci@2,0/pci1022,7458@7/pci11ab,11ab@1:4 }}} 1. Platte ziehen und wieder stecken, dazu muß man die Topologie kennen, siehe nächster Punkt * [[file:///afs/.ifh.de/project/Solaris/x4500/hdtool/hd.html|hd tool]] für Anzeige und Abfrage der Platten '''/opt/SUNWhd/hd/bin/hd -s -c''' -c farbige Anzeige, Slot mit ausgefallener Platte wird root angezeigt {{{ --------------------SunFireX4500------Rear--------------------- 36: 37: 38: 39: 40: 41: 42: 43: 44: 45: 46: 47: c5t3 c5t7 c4t3 c4t7 c7t3 c7t7 c6t3 c6t7 c1t3 c1t7 c0t3 c0t7 ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ 24: 25: 26: 27: 28: 29: 30: 31: 32: 33: 34: 35: c5t2 c5t6 c4t2 c4t6 c7t2 c7t6 c6t2 c6t6 c1t2 c1t6 c0t2 c0t6 ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22: 23: c5t1 c5t5 c4t1 c4t5 c7t1 c7t5 c6t1 c6t5 c1t1 c1t5 c0t1 c0t5 ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ ^++ 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: c5t0 c5t4 c4t0 c4t4 c7t0 c7t4 c6t0 c6t4 c1t0 c1t4 c0t0 c0t4 ^b+ ^b+ ^++ ^++ ^++ ^++ ^++ ^-- ^++ ^++ ^++ ^++ -------*-----------*-SunFireX4500--*---Front-----*-----------*---------- }}} * ein weiteres Tool ist hilfreich: '''fmdump''' * man kann sich Events aus fault management error log anzeigen lassen: ''' fmdump -e''' * '''fmdump [-v]''' {{{ fmdump -e Jul 04 15:46:03.4541 ereport.fs.zfs.vdev.open_failed Jul 04 15:46:03.4540 ereport.fs.zfs.vdev.open_failed Jul 04 15:46:03.4541 ereport.fs.zfs.vdev.open_failed Jul 05 13:09:35.0170 ereport.fs.zfs.checksum Jul 05 13:09:35.0170 ereport.fs.zfs.checksum fmdump -v TIME UUID SUNW-MSG-ID Mar 19 10:39:27.5112 f173ff68-7582-44d3-d0bd-c2d4742112ad ZFS-8000-D3 100% fault.fs.zfs.device Problem in: zfs://pool=6f15db21fee71a59/vdev=d0e78bcee7eeae80 Affects: zfs://pool=6f15db21fee71a59/vdev=d0e78bcee7eeae80 FRU: - }}} * Konnte die Platte mit cfgadm wieder konfiguriert werden, muß sie im ZFS '''online''' gesetzt werden {{{ zpool online pool3 c0t2d0 }}} danach Check mit ''zpool status pool3'' * Muß die Platte ausgetauscht werden, nach dem Tausch auch wieder {{{ cfgadm -c configure sata4/4::dsk/c6t4d0 zpool replace pool3 c6t4d0 c6t4d0 # das dauert einen Moment (2 Min) zpool status pool3 }}} === Pool mit Spare Disk (copia2, pool3, 29.12.2008) === * zpool status {{{ NAME STATE READ WRITE CKSUM pool3 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 spare ONLINE 0 0 0 c0t2d0 ONLINE 113 75 0 c0t7d0 ONLINE 0 0 0 c1t2d0 ONLINE 0 0 0 c4t2d0 ONLINE 0 0 0 c5t2d0 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c0t4d0 ONLINE 0 0 0 c1t4d0 ONLINE 0 0 0 c5t1d0 ONLINE 0 0 0 c6t4d0 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c0t6d0 ONLINE 0 0 0 c1t6d0 ONLINE 0 0 0 c5t6d0 ONLINE 0 0 0 c6t6d0 ONLINE 0 0 0 spares c0t7d0 INUSE currently in use }}} * zpool detach pool3 c0t2d0 # hotspare wurde verwendet, Pool war nicht im "degraded" Zustand * cfgadm -c unconfigure sata0/2 # Platte war wieder online, deshalb unconfigure * Plattentausch, Position blinkt blau * cfgadm -c unconfigure sata0/2 * zpool add pool3 spare c0t2d0 # ausgetauschte Platte wird hotspare * wenn man kein detach gemacht hätte, wäre c0t7d0 hotspare geblieben == Platten im ZFS verwalten == * siehe [[http://docs.sun.com/app/docs/doc/819-5461/gayrd?l=en&a=view&q="Managing+Devices+in+ZFS+Storage+Pools"|"Managing Devices in ZFS Storage Pools"]]