Недавно в логах получил сообщение
The number of correctable errors associated with this memory module has exceeded acceptable levels.
Как точно определить сбойный модуль? Через fmadm faulty определяем UUID события и смотрим детали по нему:
# fmdump -v -u 3b94eb7c-598d-46ac-8667-a41a434bc8c5 TIME UUID SUNW-MSG-ID EVENT Feb 09 17:18:45.2744 3b94eb7c-598d-46ac-8667-a41a434bc8c5 GMCA-8000-YN Diagnosed 100% fault.memory.generic-x86.dimm_ce Problem in: hc://:chassis-mfg=Dell-Inc.:chassis-name=PowerEdge-R715:chassis-part=:chassis-serial=XXX/motherboard=0/chip=1/memory-controller=1/dram-channel=0/chip-select=2 Affects: hc://:chassis-mfg=Dell-Inc.:chassis-name=PowerEdge-R715:chassis-part=:chassis-serial=XXX/motherboard=0/chip=1/memory-controller=1/dram-channel=0/chip-select=2 FRU: hc://:chassis-mfg=Dell-Inc.:chassis-name=PowerEdge-R715:chassis-part=:chassis-serial=XXX/motherboard=0/chip=1 FRU Location: -
Ожидалось, что в поле FRU Location будет так же, как в ссылке документации:
Location: CPU 0 DIMM 0
Но ничего, давайте разбираться:
# prtdiag | grep DDR3 DDR3 in use 1 DIMM_A1 DDR3 in use 1 DIMM_A2 DDR3 in use 2 DIMM_A3 DDR3 in use 2 DIMM_A4 DDR3 empty 3 DIMM_A5 DDR3 empty 3 DIMM_A6 DDR3 empty 4 DIMM_A7 DDR3 empty 4 DIMM_A8 DDR3 in use 5 DIMM_B1 DDR3 in use 5 DIMM_B2 DDR3 in use 6 DIMM_B3 DDR3 in use 6 DIMM_B4 DDR3 empty 7 DIMM_B5 DDR3 empty 7 DIMM_B6 DDR3 empty 8 DIMM_B7 DDR3 empty 8 DIMM_B8
Видно, что у меня планки нумеруются с 1, а в fmdump’e с 0-ля. И так, нас интересуют поля chip=1 и chip-select=2 (почему? об этом ниже). Итого, делаем вывод, что chip => DIMM_B, а chip-select => 3, то есть планка DIMM_B3. Позже, я проверил своё предположение через логи iDRAC:
# ipmitool sel elist
...
43 | 02/10/2021 | 10:03:29 | Memory Mem ECC Warning | Transition to Non-critical from OK | Asserted
44 | 02/10/2021 | 10:10:11 | Memory Mem ECC Warning | Transition to Critical from less severe | Asserted
45 | 02/10/2021 | 10:15:31 | Event Logging Disabled SBE Log Disabled | Correctable memory error logging disabled (Corr Memory Log Disabled | DIMMB3) | Asserted | OEM Data-2 0xa1 OEM Data-3 0x04
Кто-то может сказать, что это всегда можно посмотреть через iDRAC/IPMI (но, что если у вас сервер без них или они не исправны?). Здесь важно использовать встроенные инструменты самой ОС и хорошо, когда они не зависят от марки вашего железа.