hvostat: Jeeslaya (Default)
Очаровательная [livejournal.com profile] murav1ik недавно столкнулась с интересной ситуацией с HP-шными серверами.

Далее цитирую:
"Недавно столкнулась со странной ситуацией на сервере HP Gen6: он беспричинно выключился, а после включения поработал минут 30 и снова устал. И не просто сервер, а главный VM-хост. По законам жанра, случилось это в выходные, ровно в тот момент, когда я ехала в автобусе.

Прямо-таки ощущая, как седеют волосы, полезла в системные логи. Ничего объясняющего такое поведение не было. Проверила RAID-контроллер и диски, - всё отлично, все здоровые.
После очередной перезагрузки докопалась до iLo-логов и увидела странное:
System overheating (Temperature Sensor 29, Location System, Temperature 61C)

Описаний сенсоров для серверов HP - куча, еле нашла, что Sensor 29 - это вроде как северный мост. И что таким образом он сигнализирует о перегреве дисков. Что за мистика, я же своими глазами видела, что они в порядке!..

Первым делом отключила в BIOS автоматическую перезагрузку при перегреве. В нормальной ситуации так делать нельзя, конечно, но конкретно в моем случае сообщений от других термосенсоров не было.

Погуглила. На одной из страниц вышла на старенький сайт дядечки по имени David A. Soussan, который много работал с разным железом и с нетоповыми серверами HP в частности. Подытоживая свой опыт, он написал целую статью о проблеме, с которой я столкнулась.

Оказывается, "неродные" SATA-диски часто отправляют информацию о своём состоянии в формате, который датчик не может распознать. И поэтому он на всякий случай считает, что диски перегреваются. Охлаждение включается на полную мощность, но, естественно, не помогает, и через короткое время система получает сигнал о перегреве и аварийно отключается.
Дэвид подробно описал проблему и даже составил табличку совместимых/несовместимых дисков:
http://dascomputerconsultants.com/HPCompaqServerDrives.htm
Стоит ли говорить, что в табличке несовместимых купленные нами для бэкапов HGST диски стояли на первом месте. =)) Удивительно, как они вообще полгода проработали нормально.

У кого-то сервер с такими дисками может не включиться совсем:
https://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/HP-DL370-G6-Overheated-SATA-Drives/td-p/4581621

Понятно, что самое правильное решение проблемы - это покупать только "родные" HP диски. Но если хочется сэкономить, то будьте очень внимательны.

P.S.: Дэвид, спасибо тебе, мужик, где бы ты ни был. =)

Конец цитаты.

__
hvostat: Jeeslaya (Default)
На работе случился fail - один из внешних HDD "чот приуныл".
Сегодня съездил в лабораторию, забирать данные с восстановленного жесткого диска.
Слава Ривесту, Шамиру и Адлеману, диск был еще не совсем дохлый и все данные были успешно считаны.

Пока копировались данные, поговорил с местными инженерами.
Далее, тезисно:
- бэкапить нужно всё и всегда
- если у вас Seagate - утилизируйте его в окно немедленно. Изюминка в том, что эти поделия при отказе механики НАСМЕРТЬ запиливают поверхность "блинов", соответствующим образом уменьшая вероятность заполучить оттуда хоть что-нибудь и аналогично увеличивая стоимость работы.
- чаще всего приносят восстанавливать именно Seagate’ы
- если у вас SSD на контроллере SandForce - бэкаптесь почаще. Потому что в России НИ У КОГО НЕТ стендов для его восстановления и средняя цена за восстановление данных будет порядка ~150 000 р. Всстановление выглядит так: чипы отпаивают, затем с чипов читают сырые данные и через VPN передают в лабораторию где-то в Европе. Там это расшифровывают и передают обратно.
Почему? Изюминка этого контроллера в том, что он шифрует данные на низком уровне. Ключ и спецификация - закрыты и продаются только в комплексе со стендом за какие-то космические деньги.
- лучше всего себя проявили Hitachi, форматом 2.5". Особенно меня подкупила фраза "мы берем их для себя".

Берегите себя и да прибудут с вами Диффи и Хеллман.

__
hvostat: Jeeslaya (Default)
Seagate выпустила "домашнего" жесткий диск объемом аж 10 ТБ.

Детали тут:
http://www.seagate.com/ru/ru/about-seagate/news/seagate-unveils-the-industry-broadest-10tb-portfolio-master-pr/

Не знаю, как вы, а я насчёт Seagate "чота эээ".
Особенно, на 10 ТБ.

__
hvostat: Jeeslaya (Default)
Как известно, жОсткие диски существуют двух видов: обычные и "энтерпрайзные".

Основное(!) отличие простое - "обычные" призваны работать в standalone-режиме, "энтерпрайзные", в свою очередь, заточены под работу в RAID, и с плотным взаимодействим с RAID-контроллером. (прим. [livejournal.com profile] de_nada)

Никто вам не запрещает применять обычные в RAID и наоборот.
"Но есть нюанс!"©

У жестких дисков есть встроенный механизм обработки ошибок - SCT ERC (SMART Command Transport Error Recovery Control), у компании WD он называется TLER (time-limited error recovery).
Основой его работы является количество времени, которое диск может потратить на коррекцию ошибки чтения/записи.
Два основных параметра — таймаут операции чтения и таймаут операции записи.
Таймауты измеряются в секундах, причем "0" означает неограниченно долгое время обработки ошибки.

Опять же, есть нюансы: SCT ERC есть не на всех дисках, на некоторых есть, но выключен.

Зачем?

Всё просто: десктопный диск лучше подумает-подумает, потрещит, но ошибку не выдаст, а информацию в итоге таки считает.
А в RAID всегда есть запасной диск, и терпеть минутные тормоза на Hi-load системах - недопустимо. Не получилось прочитать? Читаем с запасных дисков, помечаем диск как сбойный, начинаем перестройку массива, а сбойный диск вынимаем из "полки" и утилизируем в окно.

Дефолтные значения таковы:
Десктопные HDD: Disabled либо Enabled со значениями Read=0s / Write=0s.
Энтерпрайзные HDD: Enabled со значениями Read=7s / Write=0s

Вот именно поэтому - НАСТОЯТЕЛЬНО НЕ РЕКОМЕНДУЕТСЯ использовать энтерпрайзные диски в десктопах и наоборот.

__
hvostat: Jeeslaya (Default)
Проблема: Диск WD3001FAEX, ёмкостью ~3 Тб виден в Disk Management, как имеющий ёмкость ~746 Гб.
Детали: В BIOS ёмкость видна нормально. Материнская плата: Intel DH55HC, операционная система: Windows 7 x64 Pro.
Причина: драйвер чипсета.
Решение:
1) На сайте Intel скачать Rapid Storage Technology Driver.
2) Распаковать архив.
3) Принудительно обновить драйвер SATA AHCI контроллера, указав для этого свежескачанный драйвер.
4) Перезагрузить систему.
5) PROFIT!
hvostat: Jeeslaya (Default)
Мой замечательный винчестер WD Black 2002FAEX, успешно проработал три года (был куплен 07.05.2011).
В SMART были странные параметры уже "из коробки" - параметр Write Error Rate был 2, потом вырос до 7. Через год до 12.
Потом пополз вверх параметр Read Error Rate и появилось два ремапа.
И позавчера он таки совершил наебновение™.
В AHCI работать отказывается, переключил на IDE Native. Взлетел.
Прогнал MHDD: показала 5 "бэдов".
Пока отключил, сниму данные как куплю подменный.


Вопрос к уважаемым читателям - а на что его сменить? Купить такой же WD Black, только 3 ТБ? Или купить WD RE?

PS: Бэкап есть.

Profile

hvostat: Jeeslaya (Default)
hvostat

June 2017

S M T W T F S
    123
45678910
11121314151617
181920212223 24
252627282930 

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated 23 July 2017 18:39
Powered by Dreamwidth Studios