Сбой жесткого диска - Hard disk drive failure

Сбой головы, один из видов сбоя диска

А отказ жесткого диска происходит, когда привод жесткого диска неисправности и сохраненная информация недоступна с правильно настроенного компьютера.

Отказ жесткого диска может произойти в процессе нормальной работы или из-за внешнего фактора, такого как воздействие огня, воды или высокой температуры. магнитные поля, или страдая от резкого влияние или загрязнения окружающей среды, что может привести к разбивается голова.

Информация, хранящаяся на жестком диске, также может стать недоступной в результате повреждение данных, нарушение работы или разрушение жесткого диска Главная загрузочная запись, или вредоносное ПО умышленное уничтожение содержимого диска.

Причины

Существует ряд причин отказа жестких дисков, в том числе: человеческий фактор, аппаратный сбой, повреждение прошивки, перегрев, повреждение водой, проблемы с питанием и сбои.[1] Производители дисков обычно указывают среднее время наработки на отказ (MTBF) или годовая частота отказов (AFR), которые представляют собой статистику населения, которая не может предсказать поведение отдельной единицы.[2] Они рассчитываются путем непрерывного выполнения выборок привода в течение короткого периода времени, анализа результирующего износа физических компонентов привода и экстраполяции для получения разумной оценки срока его службы. Отказы жесткого диска, как правило, следуют концепции изгиб ванны.[3] Как правило, диски выходят из строя в течение короткого времени, если имеется производственный дефект. Если диск окажется надежным в течение нескольких месяцев после установки, у него значительно больше шансов остаться надежным. Поэтому, даже если диск подвергается интенсивной ежедневной эксплуатации в течение нескольких лет, он может не показать каких-либо заметных признаков износа, если не будет тщательно осмотрен. С другой стороны, диск может выйти из строя в любой момент во многих различных ситуациях. Самая печально известная причина отказа диска - это разбивается голова, где внутренний головка для чтения и записи устройства, обычно просто парящего над поверхностью, касается блюдо или царапает магнитный хранилище данных поверхность. Головной удар обычно влечет за собой серьезные потери данных, и восстановление данных попытки могут вызвать дальнейший ущерб, если они не будут предприняты специалистом с надлежащим оборудованием. Пластины дисковода покрыты очень тонким слоем неэлектростатический смазки, чтобы головка чтения и записи просто соскользнула с поверхности диска в случае столкновения. Однако эта голова парит просто нанометры от поверхности диска, что делает столкновение признанным риском. Еще одна причина выхода из строя - неисправный воздушный фильтр. Воздушные фильтры современных приводов выравнивают атмосферное давление и влажность между корпусом диска и окружающей средой. Если фильтру не удается уловить частицу пыли, частица может приземлиться на опорный диск, что приведет к падению головы, если она пролетит над ним. После падения головки частицы поврежденного диска и носителя могут вызвать одно или несколько плохие сектора. Это, помимо повреждения диска, быстро сделает привод непригодным. В приводе также есть электроника контроллера, которая иногда выходит из строя. В таких случаях можно восстановить все данные.


Явление отказа диска не ограничивается только приводами, но также применимо к другим типам магнитных носителей. В конце 1990-х гг. Иомега 100-мегабайтные Zip-диски, используемые в Zip диски были затронуты щелчок смерти, названный так, потому что диски бесконечно щелкали при доступе, указывая на надвигающийся сбой. 3,5 дюйма дискеты также может стать жертвой отказа диска. Если диск или носитель загрязнены, пользователи могут столкнуться с проблемой жужжание смерти при попытке доступа к диску.

Признаки отказа диска

Выход из строя жесткого диска может быть катастрофическим или постепенным. Первый обычно представляет собой диск, который больше не может быть обнаружен Настройка CMOS, или это не проходит BIOS POST так что операционная система его никогда не увидит. Постепенный сбой жесткого диска бывает сложнее диагностировать, потому что его симптомы, такие как повреждение данных и замедление работы ПК (вызванные постепенным выходом из строя областей жесткого диска, требующими повторных попыток чтения перед успешным доступом), могут быть вызваны многими другими причинами. компьютерные проблемы, такие как вредоносное ПО. Растущее число сбойных секторов может быть признаком неисправности жесткого диска, но поскольку жесткий диск автоматически добавляет их в свою таблицу дефектов роста,[4] они могут не стать очевидными для таких коммунальных служб, как ScanDisk если только утилита не сможет их отловить до того, как это сделает система управления дефектами жесткого диска, или резервные секторы, удерживаемые управление внутренними дефектами жесткого диска система закончилась. Циклический повторяющийся шаблон активности поиска, такой как быстрые или более медленные шумы поиска до конца (щелчок смерти ) может указывать на проблемы с жестким диском.[5]

Зоны посадки и погрузочно-разгрузочная техника

Головка чтения / записи примерно 1998 г. Fujitsu Жесткий диск 3,5 дюйма (прибл. 2,0 x 3,0 мм)
Микрофотография головки жесткого диска и слайдера старого поколения (1990-е годы)
Шумы от старого жесткого диска при попытке чтения данных из поврежденных секторов

В нормальном режиме работы головки на жестких дисках летают над записанными на них данными. Современные жесткие диски предотвращают попадание головок в зону данных при перебоях в подаче электроэнергии или других неисправностях путем физического перемещения (стоянка) головы к специальному зона посадки на пластинах, которые не используются для хранения данных, или путем физической фиксации головок в подвешенном (выгружен) положение поднято с пластин. Некоторые ранние жесткие диски для ПК не парковали головки автоматически при преждевременном отключении питания, когда головки оказывались на данных. В некоторых других ранних устройствах пользователь запускал программу для ручной парковки головок.

Зоны приземления

А зона посадки - это область диска, обычно близкая к его внутреннему диаметру (ID), где не хранятся данные. Эта область называется зоной контактного запуска / остановки (CSS). Диски сконструированы таким образом, что либо весна или, в последнее время, ротационные инерция в пластинах используется для парковки головок в случае неожиданного отключения питания. В этом случае шпиндельный двигатель временно действует как генератор, обеспечивающий питание привода.

Пружина от крепления головки постоянно подталкивает головки к пластине. Во время вращения диска головки поддерживаются воздушным подшипником и не подвергаются физическому контакту или износу. В CSS приводы ползунков с датчиками головки (часто также называемые головы) спроектированы так, чтобы выдержать ряд посадок и взлетов с поверхности носителя, хотя износ этих микроскопических компонентов в конечном итоге берет свое. Большинство производителей конструируют ползунки так, чтобы выдержать 50 000 циклов контакта, прежде чем вероятность повреждения при запуске превысит 50%. Однако скорость распада не является линейной: когда диск моложе и имеет меньшее количество циклов старт-стоп, у него больше шансов выжить при следующем запуске, чем у старого диска с большим пробегом (поскольку головка буквально тащит за собой диск. поверхность до тех пор, пока не установится воздушный подшипник). Например, серия жестких дисков Seagate Barracuda 7200.10 для настольных ПК рассчитана на 50 000 циклов старт-стоп, иными словами, во время тестирования не было замечено никаких сбоев, связанных с интерфейсом «головка-пластина», по крайней мере до 50 000 циклов старт-стоп.[6]

Примерно в 1995 году IBM впервые разработала технологию, в которой зона посадки на диске создается с помощью прецизионной лазерной обработки (Текстура лазерной зоны = LZT), образуя массив гладких "неровностей" нанометрового масштаба в зоне приземления,[7] таким образом значительно улучшая прикол и износостойкость. Эта технология по-прежнему широко используется сегодня, преимущественно в дисках для настольных ПК и корпоративных (3,5-дюймовых) устройствах. В общем, технология CSS может быть подвержена повышенному прилипанию (тенденция прилипания пластиков к поверхности диска), например как следствие повышенной влажности. Чрезмерная липкость может привести к физическому повреждению подноса и ползуну или шпиндель двигателю.

Разгрузка

Загрузка / разгрузка Технология основана на том, что головки снимаются с пластин в безопасное место, что устраняет риски износа и прикол все вместе. Первый HDD RAMAC и большинство ранних дисководов использовали сложные механизмы для загрузки и разгрузки головок. Современные жесткие диски используют линейную загрузку, впервые представленную Memorex в 1967 г.[8] для загрузки / разгрузки на пластиковые «рампы» у внешнего края диска.

Решение проблемы устойчивости к ударам, IBM также создали технологию для своих ThinkPad Линия портативных компьютеров называется Система активной защиты. При обнаружении внезапного резкого движения встроенным акселерометр в Thinkpad головки внутренних жестких дисков автоматически выгружаются, чтобы снизить риск любой потенциальной потери данных или появления царапин. яблоко позже также использовали эту технологию в своих PowerBook, iBook, MacBook Pro, и MacBook линия, известная как Датчик внезапного движения. Sony,[9] HP со своим HP 3D DriveGuard[10] и Toshiba[11] выпустили аналогичную технологию в своих портативных компьютерах.

Режимы отказа

Жесткие диски могут выйти из строя по разным причинам. Неудача может быть немедленной и полной, прогрессирующей или ограниченной. Данные могут быть полностью уничтожены или частично или полностью восстановлены.

Ранее приводы имели тенденцию к развитию плохие сектора с использованием и износом; эти поврежденные секторы можно было «отобразить», чтобы они не использовались и не влияли на работу накопителя, и это считалось нормальным, если за короткий период времени не образовывалось много поврежденных секторов. Некоторые ранние диски даже имели таблицу, прикрепленную к корпусу диска, в которой должны были быть перечислены поврежденные сектора по мере их появления.[12] Более поздние диски автоматически отображают поврежденные сектора незаметно для пользователя; диск с переназначенными секторами можно продолжать использовать. Статистика и журналы доступны через УМНАЯ. (Технология самоконтроля, анализа и отчетности) предоставляет информацию о переназначении.

Другие отказы, которые могут быть прогрессирующими или ограниченными, обычно считаются причиной для замены диска; ценность данных, потенциально подверженных риску, обычно намного превышает затраты, сэкономленные за счет продолжения использования диска, который может выйти из строя. Предупреждающими знаками являются повторяющиеся, но исправимые ошибки чтения или записи, необычные шумы, чрезмерный и необычный нагрев и другие отклонения.

  • Разрушение головы: головка может коснуться вращающегося диска из-за механического удара или по другой причине. В лучшем случае это приведет к необратимому повреждению и потере данных там, где был установлен контакт. В худшем случае мусор, соскобленный с поврежденного участка, может загрязнить все пластинки и пластины, а также уничтожить все данные на всех пластинах. Если изначально повреждение было частичным, продолжение вращения привода может увеличить повреждение до полного.[13]
  • Плохие сектора: некоторые магнитные сектора могут выйти из строя, не приводя к невозможности использования всего диска. Это может быть ограниченное явление или признак неминуемой неудачи.
  • Stiction: через некоторое время головка может не «взлететь» при запуске, так как она имеет тенденцию прилипать к тарелке, явление, известное как прикол. Обычно это происходит из-за неподходящих смазывающих свойств поверхности диска, конструктивного или производственного дефекта, а не из-за износа. Иногда это происходило с некоторыми дизайнами до начала 1990-х годов.
  • Сбой цепи: компоненты электронной схемы могут выйти из строя, что приведет к неработоспособности привода.
  • Неисправность подшипников и двигателя: электродвигатели могут выйти из строя или перегореть, а подшипники могут износиться настолько, что нарушит нормальную работу.
  • Разные механические поломки: части, особенно движущиеся части любого механизма, могут сломаться или выйти из строя, что препятствует нормальной работе, с возможным дальнейшим повреждением, вызванным осколками.

Метрики отказов

Большинство основных производителей жестких дисков и материнских плат поддерживают протокол S.M.A.R.T, который измеряет такие характеристики дисков, как Рабочая Температура, время раскрутки, частота ошибок данных и т. д. Считается, что определенные тенденции и внезапные изменения этих параметров связаны с повышенной вероятностью отказа диска и потери данных. Однако S.M.A.R.T. одни только параметры могут быть бесполезны для прогнозирования сбоев отдельных дисков.[14] В то время как несколько S.M.A.R.T. параметры влияют на вероятность отказа, большая часть отказавших дисков не позволяет прогнозировать S.M.A.R.T. параметры.[14] Непредсказуемый сбой может произойти в любой момент при нормальной эксплуатации с потенциальной потерей всех данных. Восстановление некоторых или даже всех данных с поврежденного диска иногда, но не всегда возможно, и обычно стоит дорого.

Исследование 2007 г., опубликованное Google предположил очень слабую корреляцию между интенсивностью отказов и высокой температурой или уровнем активности. Действительно, исследование Google показало, что «одним из наших ключевых результатов было отсутствие последовательной схемы более высокой частоты отказов для дисков с более высокой температурой или для дисков с более высоким уровнем использования».[15] Жесткие диски со средней температурой ниже 27 ° C (81 ° F) по данным SMART имели более высокую частоту отказов, чем жесткие диски с самой высокой средней температурой, о которой сообщалось, 50 ° C (122 ° F), частота отказов как минимум вдвое превышала оптимальную По данным SMART, диапазон температур от 36 ° C (97 ° F) до 47 ° C (117 ° F).[14] Корреляция между производителями, моделями и частотой отказов была относительно сильной. Статистика по этому вопросу держится в строжайшей тайне большинством организаций; Google не связывает имена производителей с количеством отказов,[14] хотя выяснилось, что Google использует диски Hitachi Deskstar на некоторых своих серверах.[16]

Исследование Google 2007 года показало, что на основе большой выборки дисков в полевых условиях фактическая частота отказов в годовом исчислении (AFR ) для индивидуальных дисков колеблется от 1,7% для дисков первого года жизни до более 8,6% для дисков трехлетней давности.[17] Аналогичное исследование 2007 г. CMU на корпоративных дисках показало, что измеренная наработка на отказ в 3–4 раза ниже, чем в спецификации производителя, со средним значением AFR в 3% за 1–5 лет на основе журналов замены для большой выборки дисков, и что отказы жестких дисков сильно коррелировали в время.[18]

Исследование 2007 г. скрытые ошибки сектора (в отличие от вышеупомянутых исследований полных сбоев дисков) показали, что 3,45% из 1,5 млн дисков имели скрытые ошибки сектора в течение 32 месяцев (3,15% дисков ближнего действия и 1,46% дисков корпоративного класса имели по крайней мере одну скрытую ошибку сектора в течение 12 месяцев. даты отгрузки), при этом ежегодная частота ошибок в секторе увеличивается в период между первым и вторым годами. Корпоративные диски показали меньше ошибок сектора, чем потребительские диски. Фон чистка оказалось эффективным в исправлении этих ошибок.[19]

SCSI, SAS, и FC диски дороже, чем диски SATA потребительского уровня, и обычно используются в серверы и дисковые массивы, где диски SATA продавались домашний компьютер и рынок настольных компьютеров и устройств хранения данных ближнего действия, и были восприняты как менее надежные. Это различие сейчас стирается.

В среднее время наработки на отказ (MTBF) дисков SATA обычно составляет около 1,2 миллиона часов (некоторые диски, например Western Digital Raptor имеют наработку на отказ 1,4 миллиона часов),[20] в то время как диски SAS / FC рассчитаны на более чем 1,6 миллиона часов.[21] Однако независимые исследования показывают, что среднее время безотказной работы не является надежной оценкой срока службы накопителя (срок службы ).[22] Среднее время безотказной работы проводится в лабораторных условиях в испытательных камерах и является важным показателем для определения качества дискового накопителя, но предназначено только для измерения относительно постоянной частоты отказов в течение всего срока службы накопителя (середина "изгиб ванны ") перед окончательной фазой износа.[18][23][24] Более интерпретируемая, но эквивалентная метрика MTBF - годовая частота отказов (AFR). AFR - это ожидаемый процент отказов дисков в год. Как AFR, так и MTBF, как правило, измеряют надежность только в начальной части срока службы жесткого диска, тем самым занижая реальную вероятность отказа используемого диска.[25]

В облачное хранилище Компания Backblaze составляет годовой отчет о надежности жестких дисков. Однако компания заявляет, что в основном использует обычные потребительские диски, которые используются в корпоративных условиях, а не в их типичных условиях и по назначению. Потребительские диски также не тестируются для работы с корпоративными RAID карты того типа, которые используются в центре обработки данных, и могут не отвечать в срок, ожидаемый контроллером RAID; такие карты будут считаться неудачными, если это не так.[26] Результаты тестов такого рода могут иметь отношение к разным пользователям или не иметь отношения к ним, поскольку они точно отражают производительность потребительских дисков на предприятии или в условиях экстремальной нагрузки, но могут неточно отражать их производительность при нормальном или предполагаемом использовании.[нужна цитата ]

Примеры семейств дисков с высокой частотой отказов

  1. IBM 3380 DASD, 1984 ок.[27]
  2. Computer Memories Inc. Жесткий диск 20 МБ для ПК / AT, 1985 ок.[28]
  3. Fujitsu серий MPG3 и MPF3, 2002 г., ок.[29]
  4. IBM Deskstar 75GXP, 2001 ок.[30]
  5. Seagate ST3000DM001, 2012 ок.[31]

Смягчение

Чтобы избежать потери данных из-за сбоя диска, к общим решениям относятся:

Восстановление данных

Данные с неисправного диска иногда могут быть частично или полностью восстановлен если магнитное покрытие пластин не разрушено полностью. Специализированные компании проводят восстановление данных со значительными затратами. Возможно, можно будет восстановить данные, открыв диски в чистая комната и использование соответствующего оборудования для замены или восстановления вышедших из строя компонентов.[32] Если электроника вышла из строя, иногда можно заменить плату электроники, хотя часто приводы номинально одной и той же модели, изготовленные в разное время, имеют разные несовместимые платы. Более того, электронные платы современных приводов обычно содержат данные адаптации требуется для доступа к их системные области, поэтому соответствующие компоненты необходимо либо перепрограммировать (если возможно), либо распаять и перенести между двумя платами электроники.[33][34]

Иногда работа может быть восстановлена ​​достаточно долго, чтобы восстановить данные, возможно, требуя таких методов восстановления, как файл резьба. Рискованные приемы могут быть оправданы, если в противном случае двигатель мертв. Если диск запускается один раз, он может продолжать работать в течение более короткого или более длительного времени, но никогда не запускается снова, поэтому как можно больше данных восстанавливается при запуске диска.

Рекомендации

  1. ^ «7 основных причин сбоя жесткого диска». ADRECA. 2015-08-05. Получено 23 декабря, 2019.
  2. ^ Шайер, Роберт (2007-03-02). «Исследование: частота отказов жестких дисков намного выше, чем предполагают производители». Компьютерный мир. Получено 9 февраля 2016.
  3. ^ «Сколько на самом деле живут жесткие диски?». ExtremeTech. Получено 3 августа, 2015.
  4. ^ «Определение: управление дефектами жесткого диска». PC Mag.
  5. ^ Куирк, Крис. «Повреждение данных жесткого диска». Архивировано из оригинал 26 декабря 2014 г.
  6. ^ "Руководство по продукту Barracuda 7200.10 Serial ATA" (PDF). Получено 26 апреля 2012.
  7. ^ IEEE.org, Baumgart, P .; Krajnovich, D.J .; Nguyen, T.A .; Tam, A.G .; IEEE Trans. Magn.
  8. ^ Pugh et al .; «Системы IBM 360 и Early 370»; MIT Press, 1991, стр.270
  9. ^ "Sony | Для бизнеса | VAIO SMB". B2b.sony.com. Получено 13 марта 2009.
  10. ^ «HP.com» (PDF). Получено 26 апреля 2012.
  11. ^ «Меры по защите жестких дисков Toshiba» (PDF). Получено 26 апреля 2012.
  12. ^ Руководство по установке Adaptec ACB-2072 XT to RLL Список дефектов «может быть вставлен из файла или введен с клавиатуры».
  13. ^ "Жесткие диски". escotal.com. Получено 16 июля 2011.
  14. ^ а б c d Эдуардо Пиньейру, Вольф-Дитрих Вебер и Луис Андре Баррозу (февраль 2007 г.). Тенденции отказов при большом количестве накопителей (PDF). 5-я конференция USENIX по файловым технологиям и технологиям хранения (FAST 2007). Получено 15 сентября 2008.
  15. ^ Выводы: Тенденции отказов в большом количестве накопителей, п. 12
  16. ^ Шенкленд, Стивен (1 апреля 2009 г.). "CNet.com". News.cnet.com. Получено 26 апреля 2012.
  17. ^ AFR в разбивке по возрастным группам: Тенденции отказов в большом количестве накопителей, п. 4, рисунок 2 и последующие рисунки.
  18. ^ а б Бьянка Шредер и Гарт А. Гибсон. ""Отказы дисков в реальном мире: что для вас означает MTTF в 1 000 000 часов? ". Труды 5-й конференции USENIX по файловым технологиям и технологиям хранения. 2007".
  19. ^ "Л.Н. Байравасундарам, Г.Р. Гудсон, С. Пасупати, Дж. Шиндлер." Анализ скрытых секторных ошибок в дисковых накопителях ". Материалы SIGMETRICS'07, 12-16 июня 2007 г." (PDF).
  20. ^ "Спецификация накопителя WD VelociRaptor (PDF)" (PDF). Получено 26 апреля 2012.
  21. ^ Джей Уайт (май 2013 г.). «Технический отчет: Руководство по отказоустойчивости подсистемы хранения (TR-3437)» (PDF). NetApp. п. 5. Получено 6 января 2016.
  22. ^ «Все, что вы знаете о дисках, неверно». StorageMojo. 20 февраля 2007 г.. Получено 29 августа 2007.
  23. ^ «Один из аспектов отказов дисков, который нельзя уловить с помощью однозначных показателей, таких как MTTF и AFR, заключается в том, что в реальной жизни частота отказов не является постоянной. Показатели отказов аппаратных продуктов обычно следуют« кривой ванны »с высокой частотой отказов вначале (младенец смертность) и конец (износ) жизненного цикла ». (Schroeder et al. 2007)
  24. ^ Дэвид А. Паттерсон; Джон Л. Хеннесси (13 октября 2011 г.). Компьютерная организация и дизайн, переработанное четвертое издание: аппаратно-программный интерфейс. Раздел 6.12. Эльзевир. стр. 613–. ISBN  978-0-08-088613-8. - «... производители дисков утверждают, что расчет [MTBF] соответствует пользователю, который покупает диск и заменяет его каждые пять лет - запланированный срок службы диска».
  25. ^ «Расшифровка отказов жестких дисков - MTBF и AFR». snowark.com.
  26. ^ Это случай программного RAID и настольных дисков без настроенного ERC. Проблема известна как несоответствие тайм-аута.
  27. ^ Хенкель, Том (24 декабря 1984 г.). «Повреждение IBM 3380: подсказка более серьезной проблемы?». ComputerWorld. п. 41.
  28. ^ Берк, Стивен (18 ноября 1985 г.). «Проблемы с накопителем на ПК продолжаются». InfoWorld.
  29. ^ Кразит, Том (22 октября 2003 г.). «Мировое соглашение предлагается в Fujitsu Hard Disk Suit». PCWorld.
  30. ^ "IBM 75GXP: печально известная Звезда Смерти" (PDF). Музей истории компьютеров. 2000.
  31. ^ Хруска, Джоэл (2 февраля 2016 г.). «Seagate сталкивается с коллективным иском из-за количества отказов жестких дисков емкостью 3 ТБ». ExtremeTech.
  32. ^ «HddSurgery - Профессиональные инструменты для восстановления данных и компьютерной криминалистики». Получено 10 апреля, 2020.
  33. ^ «Руководство по замене печатной платы жесткого диска или как заменить печатную плату жесткого диска». donordrives.com. Архивировано из оригинал 27 мая 2015 г.. Получено 27 мая, 2015.
  34. ^ "Служба адаптации прошивки - замена ПЗУ". pcb4you.com. Архивировано из оригинал 18 апреля 2015 г.. Получено 27 мая, 2015.

Смотрите также

внешняя ссылка