Контроль ошибок жёстких дисков и подвисания системы.

Есть замечательная статья http://habrahabr.ru/post/92701/ и в ней описаны моменты, о которых многие наверное и не слышали. Это касается контроля ошибок чтения/записи. Не буду пересказывать статью, а лишь добавлю от себя некоторые моменты:

SCT параметры можно выставить не на всех диска, даже если они «крутые» или Raid edition и даже если smart сказал вам, что поддерживается.
— Всегда выставляйте таймаут (если диск позволяет) чтения/записи (лучше пускай диск выпадет из raid’a, чем подвиснет сервер). Особенно это касается zfs
— Если smartctl ругается INVALID ARGUMENT TO -l то просто обновите версию smartctl хотя бы до 5.40

Я был свидетелем того, как из-за не установленных таймаутов, подвисали процессы, которые не убивались через kill -9.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *