Тестовый стенд: Solaris 11.1, дисковый пул на 24 диска в RAID10.
Если у вас настроено smtp-notify для fmadm faulty, то вы получите на почту 2 сообщения:
SUNW-MSG-ID: ZFS-8000-NX, TYPE: Fault, VER: 1, SEVERITY: Major EVENT-TIME: Mon Oct 7 05:29:40 UTC 2013 PLATFORM: X8DTH-i-6-iF-6F, CSN: 1234567890, HOSTNAME: fileserver01 SOURCE: zfs-diagnosis, REV: 1.0 EVENT-ID: 46778789-28c3-e6bf-acb2-f9a17c08abd6 DESC: Probe of ZFS device 'id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a' in pool 'data' has failed. AUTO-RESPONSE: The device has been offlined and marked as faulted. An attempt will be made to activate a hot spare if available. IMPACT: Fault tolerance of the pool may be compromised. REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Run 'zpool status -lx' for more information. Please refer to the associated reference document at http://support.oracle.com/msg/ZFS-8000-NX for the latest service procedures and policies regarding this diagnosis.
SUNW-MSG-ID: ZFS-8000-FD, TYPE: Fault, VER: 1, SEVERITY: Major EVENT-TIME: Mon Oct 7 05:29:43 UTC 2013 PLATFORM: X8DTH-i-6-iF-6F, CSN: 1234567890, HOSTNAME: fileserver01 SOURCE: zfs-diagnosis, REV: 1.0 EVENT-ID: edba3297-baef-e244-ed55-ac79e16175d3 DESC: The number of I/O errors associated with ZFS device 'id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a' in pool 'data' exceeded acceptable levels. AUTO-RESPONSE: The device has been offlined and marked as faulted. An attempt will be made to activate a hot spare if available. IMPACT: Fault tolerance of the pool may be compromised. REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Run 'zpool status -lx' for more information. Please refer to the associated reference document at http://support.oracle.com/msg/ZFS-8000-FD for the latest service procedures and policies regarding this diagnosis.
Иногда случаются и другие виды ошибок, например такие:
A disk's temperature exceeded the limits established by its manufacturer.
Если посмотреть через iostat -En/cfgadm то диск нормальный, без ошибок. Просто в тот момент он слишком долго “отвечал”. Если один и тот же диск очень часто будет “выпадать” – повод для замены.
Посмотрим состояние пула:
$ zpool status data pool: data state: DEGRADED ... config: NAME STATE READ WRITE CKSUM data DEGRADED 0 0 0 ... mirror-2 DEGRADED 0 0 0 c8t68d0 ONLINE 0 0 0 c8t69d0 OFFLINE 0 0 0 ... errors: No known data errors
Физически диск online, но фактически недоступны. Все попытки сделать onffline/online, replace (не физически, а логически) не приведут к успеху. А всё дело в fmadm. Нужно через него указать, что диск уже online и с ним всё в порядке. И так, для этого выполняем такую команду:
#fmadm repaired zfs://pool=name/vdev=guid
где zfs://pool=name/vdev=guid можно использовать из вывода fmadm faulty
# fmadm faulty -u edba3297-baef-e244-ed55-ac79e16175d3 | grep 'zfs://pool'
Affects : zfs://pool=2c76e97f159618c/vdev=128782eef38ede7/pool_name=data/vdev_name=id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a
Name : "zfs://pool=2c76e97f159618c/vdev=128782eef38ede7/pool_name=data/vdev_name=id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a"
# fmadm repaired "zfs://pool=2c76e97f159618c/vdev=128782eef38ede7/pool_name=data/vdev_name=id1,sd@TATA_____ST33000651AS________________________________________Z290GTHE/a"
И всё, теперь пул начал сам перестраиваться, без стороннего вмешательства
PS.
В новых версиях SRU диск будет выглядеть так:
dev:///:devid=id1,sd@n5000c50057ce679b//pci@0,0/pci8086,e08@3/pci1000,3020@0/iport@f0/disk@w5000c50057ce6799,0