Чиним pool, когда zfs сама выбросила диск

Тестовый стенд: Solaris 11.1, дисковый пул на 24 диска в RAID10.

Если у вас настроено smtp-notify для fmadm faulty, то вы получите на почту 2 сообщения:

SUNW-MSG-ID: ZFS-8000-NX, TYPE: Fault, VER: 1, SEVERITY: Major
EVENT-TIME: Mon Oct  7 05:29:40 UTC 2013
PLATFORM: X8DTH-i-6-iF-6F, CSN: 1234567890, HOSTNAME: fileserver01
SOURCE: zfs-diagnosis, REV: 1.0
EVENT-ID: 46778789-28c3-e6bf-acb2-f9a17c08abd6
DESC: Probe of ZFS device 'id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a' in pool 'data' has failed.
AUTO-RESPONSE: The device has been offlined and marked as faulted. An attempt will be made to activate a hot spare if available.
IMPACT: Fault tolerance of the pool may be compromised.
REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Run 'zpool status -lx' for more information. Please refer to the associated reference document at http://support.oracle.com/msg/ZFS-8000-NX for the latest service procedures and policies regarding this diagnosis.
SUNW-MSG-ID: ZFS-8000-FD, TYPE: Fault, VER: 1, SEVERITY: Major
EVENT-TIME: Mon Oct  7 05:29:43 UTC 2013
PLATFORM: X8DTH-i-6-iF-6F, CSN: 1234567890, HOSTNAME: fileserver01
SOURCE: zfs-diagnosis, REV: 1.0
EVENT-ID: edba3297-baef-e244-ed55-ac79e16175d3
DESC: The number of I/O errors associated with ZFS device 'id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a' in pool 'data' exceeded acceptable levels.
AUTO-RESPONSE: The device has been offlined and marked as faulted. An attempt will be made to activate a hot spare if available.
IMPACT: Fault tolerance of the pool may be compromised.
REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Run 'zpool status -lx' for more information. Please refer to the associated reference document at http://support.oracle.com/msg/ZFS-8000-FD for the latest service procedures and policies regarding this diagnosis.

Иногда случаются и другие виды ошибок, например такие:

A disk's temperature exceeded the limits established by its manufacturer.

Если посмотреть через iostat -En/cfgadm то диск нормальный, без ошибок. Просто в тот момент он слишком долго «отвечал». Если один и тот же диск очень часто будет «выпадать» — повод для замены.

Посмотрим состояние пула:

$ zpool status data
  pool: data
 state: DEGRADED
...
config:
        NAME         STATE     READ WRITE CKSUM
        data         DEGRADED     0     0     0
...
          mirror-2   DEGRADED     0     0     0
            c8t68d0  ONLINE       0     0     0
            c8t69d0  OFFLINE      0     0     0 
...
errors: No known data errors

Физически диск online, но фактически недоступны. Все попытки сделать onffline/online, replace (не физически, а логически) не приведут к успеху. А всё дело в fmadm. Нужно через него указать, что диск уже online и с ним всё в порядке. И так, для этого выполняем такую команду:

#fmadm repaired zfs://pool=name/vdev=guid

где zfs://pool=name/vdev=guid можно использовать из вывода fmadm faulty

# fmadm faulty -u edba3297-baef-e244-ed55-ac79e16175d3 | grep 'zfs://pool'
Affects : zfs://pool=2c76e97f159618c/vdev=128782eef38ede7/pool_name=data/vdev_name=id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a
Name : "zfs://pool=2c76e97f159618c/vdev=128782eef38ede7/pool_name=data/vdev_name=id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a"
# fmadm repaired "zfs://pool=2c76e97f159618c/vdev=128782eef38ede7/pool_name=data/vdev_name=id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a"

И всё, теперь пул начал сам перестраиваться, без стороннего вмешательства

PS.

В новых версиях SRU диск будет выглядеть так:

dev:///:devid=id1,sd@n5000c50057ce679b//pci@0,0/pci8086,e08@3/pci1000,3020@0/iport@f0/disk@w5000c50057ce6799,0

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *