Jump to content
XPEnology Community
  • 0

История о том что нужно менять диски вовремя или собирайте сервачок на норм железе


letarch

Question

Когда-то давно установил дома на тест данную интересную систему. Всё настроил, всё хорошо. С год назад стали прилетать алерты на почту, что на одном из дисков в raid 1 появились bad сектора. Но я их благополучно игнорил, так как всё вроде работало и другого диска под замену не было, да и системой пользовался только я один.

Это была первая ошибка - собирать сервер из хлама и старых дисков. Шло время, файлы закидывались, создавались виртуалки и сервер обрастал функционалом.

И вот на днях я запулил на него большой объём -  около 16 гигов медиафайлов с важного события и рассшарил ссылку близким для просмотра. 

В итоге, после наплыва около 20-30 пользователей, сбойный диск благополучно отключился, а в логи сыпались ошибки ввода вывода.

Ну ничего, система работала, файлы были доступны, всё хорошо. Но в следующий вечер, я всё-таки решил заменить сбойный диск.
И это была вторая ошибка - бездумно отключить устройство и воткнуть новый диск в raid1 собранный на btrfs . (Отключение было стандартным, через веб-интерфейс syno)

Но система загрузилась сразу, нормально (хотя прилетел алерт о некорректном отключении системы).

Но безвозвратно потерялись данные за последние два месяца - куча медиафайлов, виртуалки, логи и тд.

Мораль - собирайте домашний сервачок из норм дисков, с ИБП, с запасом избыточности и не давайте временному стенду стать продктивным сервачком)

Link to comment
Share on other sites

6 answers to this question

Recommended Posts

  • 0

В целом - правильная самокритика. Только вот потеря части данных при штатной замене диска в RAID выглядит странно. Наверное все же еще какие-то неверные действия были.

  • Like 1
Link to comment
Share on other sites

  • 0
Posted (edited)

Поучительно и злободневно. Я через подобное прошёл четыре года назад. Но ..... При одном, полностью сдохшем, харде и втором полусдохшем, в пятом райде (всего пять дисков было), я восстановил 95% данных. Система не грузилась, а сети файлы были видны

В 29.02.2024 в 08:54, letarch сказал:

Мораль - собирайте домашний сервачок из норм дисков

Не факт. Померли у меня как раз Хорошие (по общему заверению) диски, а сейчас куча разных и Б/У_шных. Живут прекрасно

 

В 01.03.2024 в 11:13, dj_nsk сказал:

Наверное все же еще какие-то неверные действия были.

А вот тут соглашусь. По опыту своему знаю, Хрень положить и уничтожить очень сложно

Edited by i926
Link to comment
Share on other sites

  • 0
В 01.03.2024 в 10:13, dj_nsk сказал:

Наверное все же еще какие-то неверные действия были.

А какие в данной ситуации, должны быть правильные действия? Например данный тезис у меня не вызвал приступа, так как я никогда не сталкивался еще с данной проблемой... но готовлюсь как вы уже поняли... ))) 

 

В 29.02.2024 в 07:54, letarch сказал:

И это была вторая ошибка - бездумно отключить устройство и воткнуть новый диск в raid1 собранный на btrfs . (Отключение было стандартным, через веб-интерфейс syno)

 

1. А как его выключать, выдернув из розетки или не выключать? Это же хрень... Или тут нужно было делать бекапы, которые не делались?

2. И какие помимо этого, нужно предпринять еще действия?

Link to comment
Share on other sites

  • 0
Posted (edited)
3 часа назад, garmoniya duha сказал:

1. А как его выключать, выдернув из розетки или не выключать? Это же хрень... Или тут нужно было делать бекапы, которые не делались?

Достаточно просто в веб-интерфейсе DSM нажать "Выключение" (как вариант - коротко нажать кнопку Power на корпусе). Но надо обязательно дождаться полного выключения сервера!

Это может длиться достаточно долго - несколько минут, DSM уже будет недоступна, но всё ещё будет "шуршать" дисками и завершать все текущие процессы, надо дождаться именно полного отключения.

Возможно, в этом и была ошибка @letarch - отключил питание, не дождавшись корректной остановки DSM, симптомы очень на это похожи: "Отключение было стандартным, через веб-интерфейс syno ... система загрузилась сразу, нормально (хотя прилетел алерт о некорректном отключении системы). Но безвозвратно потерялись данные за последние два месяца"

 

Ещё смущает вот это: " сбойный диск благополучно отключился, а в логи сыпались ошибки ввода вывода" - т.е. ошибки сыпались уже по одному оставшемуся в работе диску? Тогда выключать надо было сразу и заниматься ремонтом, а не продолжать использовать.

 

3 часа назад, garmoniya duha сказал:

2. И какие помимо этого, нужно предпринять еще действия?

Да никаких особых действий не требуется. Для замены одного из дисков RAID с избыточностью данных (RAID 1, 5, 6, SHR...) достаточно просто корректно остановить DSM, заменить диск, включить и добавить новый диск в RAID через Диспетчер хранения.

Ну, если сбойный диск ещё виден в Диспетчере хранения, то предварительно можно его "Деактивировать" (хотя это и не обязательно).

 

У меня после выхода из строя одного из двух дисков DSM совершенно нормально проработал около месяца, после чего именно таким простым способом неисправный диск был заменён на новый (даже не мной, а сыном "по инструкции"). Всё это время я понимал, что выход из строя или даже какие-то мелкие нарушения в работе единственного рабочего диска могут привести к потере данных - забэкапил важную информацию и более тщательно следил за работой DSM.

Edited by dj_nsk
  • Like 2
Link to comment
Share on other sites

  • 0

спасибо всем за отклик, скорее всего да, торопился, возможно и не дождался отключения. Но как помню, системник перестал шуметь, индикации не наблюдалось, посему и решил, что всё выключилось. Хотя у этого HP COMPAQ 6200 SFF есть прикол, когда внезапно отключается питание, он пищит несколько раз. Не помню, при штатном отключении пищит или нет. Вот этого звукового сигнала я и не дождался. Возмжно поэтому и было некорректное завершение работы. 

А вот сейчас другой прикол, "потерянные" syno файлы всё ещё остаются на телефоне. Но Moments упорно их не синхронизирует на syno, как будто эти файлы там ещё есть. Но вот как это проверить пока не понял. Проверку тома запускал пару раз, особо не помогло

Link to comment
Share on other sites

  • 0

и очередное дополнение, похоже всё-таки, что-то не так с syno, потому что сейчас просто перезагрузил систему через веб-интерфейс, на почту сразу прилетел алерт о некорректном завершении(

 

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Answer this question...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...