Differences between revisions 10 and 11
Revision 10 as of 2010-01-07 14:17:47
Size: 6924
Comment:
Revision 11 as of 2011-01-20 14:08:58
Size: 7385
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
== LogSurfer meldet: "Fault Manager TYPE:Fault SEVERITY" ==
 * mit ''dmesg'' bekommt man Fault Nr.
 * fmdump -v -u 7c5628cc-853f-44f4-e5b1-8ed444b00068
 * auch ''fmadm faulty -a''
 * Anzeige: ''/opt/SUNWhd/hd/bin/hd -s -c''
 * da Platte nicht benutzt (nicht zpool, nicht slvm, war Reserve)
  * ''cfgadm -c unconfigure sata5/2::dsk/c5t2d0''
 * ''fmadm repair 7c5628cc-853f-44f4-e5b1-8ed444b00068''
 * auch LED's an Maschine gehen wieder auf grün
  

LogSurfer meldet: "Fault Manager TYPE:Fault SEVERITY"

  • mit dmesg bekommt man Fault Nr.

  • fmdump -v -u 7c5628cc-853f-44f4-e5b1-8ed444b00068
  • auch fmadm faulty -a

  • Anzeige: /opt/SUNWhd/hd/bin/hd -s -c

  • da Platte nicht benutzt (nicht zpool, nicht slvm, war Reserve)
    • cfgadm -c unconfigure sata5/2::dsk/c5t2d0

  • fmadm repair 7c5628cc-853f-44f4-e5b1-8ed444b00068

  • auch LED's an Maschine gehen wieder auf grün

Problem: zpool zeigt degraded Zustand an

Pool hat keine Spare Disk

zpool status pool3
  pool: pool3
 state: DEGRADED
status: One or more devices could not be opened.  Sufficient replicas exist for
        the pool to continue functioning in a degraded state.
action: Attach the missing device and online it using 'zpool online'.
   see: http://www.sun.com/msg/ZFS-8000-D3
 scrub: resilver completed with 0 errors on Wed Jul  4 15:46:04 2007
config:

        NAME        STATE     READ WRITE CKSUM
        pool3       DEGRADED     0     0     0
          raidz2    DEGRADED     0     0     0
            c0t2d0  UNAVAIL      0     0     0  cannot open
            c1t2d0  ONLINE       0     0     0
            c4t2d0  ONLINE       0     0     0
            c5t2d0  ONLINE       0     0     0
          raidz2    DEGRADED     0     0     0
            c0t4d0  ONLINE       0     0     0
            c1t4d0  ONLINE       0     0     0
            c5t1d0  ONLINE       0     0     0
            c6t4d0  UNAVAIL      0     0     0  cannot open
  • Problem: 2 Platten werden nicht mehr erkannt (1 Platte war erst ausgefallen, nach einem Reboot noch eine zweite) Vorgehen:
  • Prüfen mit cfgtool, ob die Platten angezeigt werden
    • cfgadm -l[v] listet die verfügbaren Platten, man sieht ob Platten konfiguriert sind

cfgadm -l 
Ap_Id                          Type         Receptacle   Occupant     Condition
sata0/0::dsk/c0t0d0            disk         connected    configured   ok
sata0/1::dsk/c0t1d0            disk         connected    configured   ok
sata0/2::dsk/c0t2d0            disk         connected    configured   ok
sata0/3::dsk/c0t3d0            disk         connected    configured   ok
sata0/4::dsk/c0t4d0            disk         connected    configured   ok
sata0/5::dsk/c0t5d0            disk         connected    configured   ok
sata0/6::dsk/c0t6d0            disk         connected    configured   ok
sata0/7::dsk/c0t7d0            disk         connected    configured   ok
  • In unserem Fall wurden beide Platten nicht mehr angezeigt. Auch das Kommando format kann dazu verwendet werden.

  • Es hat sich herausgestellt, dass man 2 Verfahren testen sollte, bevor man einen Call aufmacht.
    1. zuerst versuchen, die Platte wieder zu konfigurieren
      •    cfgadm -c configure sata0/2::dsk/c0t2d0  # hat funktioniert
           cfgadm -c configure sata4/4::dsk/c6t4d0 
           cfgadm: Configuration operation invalid: No device connected to ap_id: /devices/pci@2,0/pci1022,7458@7/pci11ab,11ab@1:4
    2. Platte ziehen und wieder stecken, dazu muß man die Topologie kennen, siehe nächster Punkt
  • hd tool für Anzeige und Abfrage der Platten /opt/SUNWhd/hd/bin/hd -s -c

    • -c farbige Anzeige, Slot mit ausgefallener Platte wird root angezeigt

--------------------SunFireX4500------Rear---------------------

36:   37:   38:   39:   40:   41:   42:   43:   44:   45:   46:   47:   
c5t3  c5t7  c4t3  c4t7  c7t3  c7t7  c6t3  c6t7  c1t3  c1t7  c0t3  c0t7  
^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   
24:   25:   26:   27:   28:   29:   30:   31:   32:   33:   34:   35:   
c5t2  c5t6  c4t2  c4t6  c7t2  c7t6  c6t2  c6t6  c1t2  c1t6  c0t2  c0t6  
^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   
12:   13:   14:   15:   16:   17:   18:   19:   20:   21:   22:   23:   
c5t1  c5t5  c4t1  c4t5  c7t1  c7t5  c6t1  c6t5  c1t1  c1t5  c0t1  c0t5  
^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   ^++   
 0:    1:    2:    3:    4:    5:    6:    7:    8:    9:   10:   11:   
c5t0  c5t4  c4t0  c4t4  c7t0  c7t4  c6t0  c6t4  c1t0  c1t4  c0t0  c0t4  
^b+   ^b+   ^++   ^++   ^++   ^++   ^++   ^--   ^++   ^++   ^++   ^++   
-------*-----------*-SunFireX4500--*---Front-----*-----------*----------
  • ein weiteres Tool ist hilfreich: fmdump

    • man kann sich Events aus fault management error log anzeigen lassen: fmdump -e

    • fmdump [-v]

     fmdump -e
    Jul 04 15:46:03.4541 ereport.fs.zfs.vdev.open_failed 
    Jul 04 15:46:03.4540 ereport.fs.zfs.vdev.open_failed 
    Jul 04 15:46:03.4541 ereport.fs.zfs.vdev.open_failed 
    Jul 05 13:09:35.0170 ereport.fs.zfs.checksum         
    Jul 05 13:09:35.0170 ereport.fs.zfs.checksum         
    
     fmdump -v
    TIME                 UUID                                 SUNW-MSG-ID
    Mar 19 10:39:27.5112 f173ff68-7582-44d3-d0bd-c2d4742112ad ZFS-8000-D3
      100%  fault.fs.zfs.device
    
            Problem in: zfs://pool=6f15db21fee71a59/vdev=d0e78bcee7eeae80
               Affects: zfs://pool=6f15db21fee71a59/vdev=d0e78bcee7eeae80
                   FRU: -
  • Konnte die Platte mit cfgadm wieder konfiguriert werden, muß sie im ZFS online gesetzt werden

      zpool online pool3 c0t2d0

    danach Check mit zpool status pool3

  • Muß die Platte ausgetauscht werden, nach dem Tausch auch wieder
      cfgadm -c configure sata4/4::dsk/c6t4d0
      zpool replace pool3 c6t4d0 c6t4d0 # das dauert einen Moment (2 Min)                 
      zpool status pool3

Pool mit Spare Disk (copia2, pool3, 29.12.2008)

  • zpool status
           NAME          STATE     READ WRITE CKSUM
            pool3         ONLINE       0     0     0
              raidz1      ONLINE       0     0     0
                spare     ONLINE       0     0     0
                  c0t2d0  ONLINE     113    75     0
                  c0t7d0  ONLINE       0     0     0
                c1t2d0    ONLINE       0     0     0
                c4t2d0    ONLINE       0     0     0
                c5t2d0    ONLINE       0     0     0
              raidz1      ONLINE       0     0     0
                c0t4d0    ONLINE       0     0     0
                c1t4d0    ONLINE       0     0     0
                c5t1d0    ONLINE       0     0     0
                c6t4d0    ONLINE       0     0     0
              raidz1      ONLINE       0     0     0
                c0t6d0    ONLINE       0     0     0
                c1t6d0    ONLINE       0     0     0
                c5t6d0    ONLINE       0     0     0
                c6t6d0    ONLINE       0     0     0
            spares
              c0t7d0      INUSE     currently in use
  • zpool detach pool3 c0t2d0 # hotspare wurde verwendet, Pool war nicht im "degraded" Zustand
  • cfgadm -c unconfigure sata0/2 # Platte war wieder online, deshalb unconfigure
  • Plattentausch, Position blinkt blau
  • cfgadm -c unconfigure sata0/2
  • zpool add pool3 spare c0t2d0 # ausgetauschte Platte wird hotspare
  • wenn man kein detach gemacht hätte, wäre c0t7d0 hotspare geblieben

Platten im ZFS verwalten

Thumper (last edited 2011-01-20 14:08:58 by WaltrautNiepraschk)