Nikit0s

Постоянные ошибки файловой системы File System Check :(

Recommended Posts

На самосборном NAS-е установлена DSM 5.2-5967, загрузка через XPEnoboot_DS3615xs_5.2-5967.1.

 

В системе 8 дисков по 4 ТБ, RAID6.

 

Единственное применение этого НАС-а -- ежедневные бэкапы с других серверов SYNOLOGY, больше на нем ничего не крутится, совсем.

 

В какой-то момент один диск отказал (Crashed), и том вошел в статус Degraded.

 

И тут же посыпались ошибки файловой системы :sad:

 

Появляется окно File System Check, перезагружаю систему, она довольно долго что-то делает, потом опять становится доступной, но почти сразу после загрузки опять появляется это окно.

И так продолжается уже довольно долго.

 

При этом все бэкапы кроме одного единственного продолжают нормально бэкапиться и добавляться (все бэкапы инкрементные).

 

И только с одним проблемы -- при очередной попытке сделать бэкап выдается ошибка, а на этом сервере бэкапов снова вылезает окно об ошибках файловой системы.

 

Кто с таким сталкивался? Что делать?

 

Может быть есть возможность как-то руками запустить полную проверку файловой системы из командной строки, залогинившись под админом?

 

P.S.

Немаловажное уточнение: этот проблемный бэкап -- это бэкап корпоративной почты.

Там есть папка с аттачами, в которой на данный момент находится более 250 тысяч файлов общим объемом 190 гигов.

Может быть дело в этой папке?

Но в то же время на другом аналогичном сервере она работает каждый день, и проблем с ней до сих пор (3*тьфу) не возникало.

 

P.P.S.

Примерно месяц назад такая же проблема была еще с одним бэкапом на этом же сервере, но тот бэкап был ничем не примечателен.

Дело кончилось тем, что пришлось грохнуть весь куст бэкапов за год (там было около 280 последовательных бэкапов), и начать все заново.

Но это же не выход?

 

Помогите пожалуйста решить проблему. Что-то непонятное творится :sad:

 

P.P.P.S.

В официальную техподдержку уже обращался, но там сразу затребовали серийник.

Давать им серийник от реально работающего другого нашего настоящего сервера Synology я что-то постеснялся,

поэтому переписку пришлось прервать и сказать что бэкапы грохнули и работаем дальше :sad:

Share this post


Link to post
Share on other sites

У кого-нибудь на XPenology вообще ошибки файловой системы устраняются или нет?

 

А то у меня такое ощущение что никакого исправления ошибок не происходит -- система что-то делает полчаса, потом загружается, и снова выдает сообщение о том что обнаружены файловые ошибки :sad:

 

Что с этим делать-то?

 

Заранее спасибо!

Share this post


Link to post
Share on other sites

Каждый раз после очередной перезагрузки для исправления ошибок происходит одно и то же.

 

Картинки движок форума не дает приложить, поэтому дам ссылки на скриншоты:

https://yadi.sk/i/DiGKgybi3EwQvE

https://yadi.sk/i/uki1a-tY3EwQzJ

Share this post


Link to post
Share on other sites

У меня были такие глюки когда сгорела планка оперативки. Проверить можно

http://www.memtest86.com

Ошибки файловой системы нужно проверять через установочный диск Ubuntu.

 

Отправлено с моего LYO-L21 через Tapatalk

Share this post


Link to post
Share on other sites
У меня были такие глюки когда сгорела планка оперативки. Проверить можно

http://www.memtest86.com

Ошибки файловой системы нужно проверять через установочный диск Ubuntu.

 

Отправлено с моего LYO-L21 через Tapatalk

 

Минутку, а как с загрузочного диска можно проверить ошибки файловой системы, если там программный RAID6?

 

Разве это RAID6 который реализован встроенными средствами Ubuntu?

 

Про планку спасибо, попробую.

 

Но тут обнаружилась новая вводная: скорее всего какая-то проблема в питании, потому что замена проблемного HDD на новый ничего не дала -- он продолжает периодически отваливаться :sad:

Поменял кабель питания (раньше менял только кабель данных), посмотрю что будет теперь.

Share this post


Link to post
Share on other sites

...купил новую память, заменил.

 

Понаблюдаю пару дней, пофиксятся ли ошибки и будут ли появляться новые.

 

Я правда до сих пор так и не понял -- то ли система ВООБЩЕ не фиксит никакие ошибки, а только делает вид :smile:

То ли все-таки она пытается их пофиксить, но тут же появляются новые.

 

...тем временем ВСЕ бэкапы на этом сервере стали непригодными для дальнейшего использования -- при попытке сделать новый инкрементный бэкап система выдает ошибку, и на этом все кончается :sad:

 

Хорошо что бэкапы у меня делаются на ДВА резервных сервера :smile:

Share this post


Link to post
Share on other sites

Чтобы решить проблему ее нужно локализовать. Память нужно проверить прогой которую я писал выше. Проверка занимает всего пару часов (вместо пару дней) и по результатам проверки можно судить о том что память, проц, северный мост материнки и кэши на проце живые.

 

RAID-6 в DSM это программный mdadm. Даже если это том SHR это mdadm+LVM.

 

Если есть проблемы с поверхностью диска, со шлейфом до диска или с питанием до диска - DSM будет писать, что есть ошибки на диске и будет degrade.

 

Зайди на сервер по SSH и запусти cat /proc/mdstat

Так ты посмотришь живой ли сам рейд. Ну и сюда не забудь выложить.

Потом проверяешь память. Если запускать проверку файловой системы с битой памятью - то можно вообще всё убить.

 

Если память живая, cat /proc/mdstat покажет что рейд видно, то расскажу как проверить файловую систему.

 

На чем работает DSM? Раз 8 дисков в системе - предполагаю наличие доп контроллера для дисков.

Share this post


Link to post
Share on other sites

Сейчас не могу сделать тест памяти, сделаю только в понедельник.

 

Но память заменил на новую, из магазина -- и пока ничего не изменилось :sad:

 

Материнка ASUS P8Z77-V, основной и доп контроллер размазаны на материнке, итого 8 штук SATA дырок, я специально подбирал такую мать чтобы не втыкать никаких плат.

Если что -- на замену у меня есть аналогичная мать, может быть заменю мать, если все будет вообще плохо :sad:

 

На данный момент имеем следующее: массив Degraded, диски 7 и 8 из восьми требуют обновления.

Это после неудачной загрузки с битым переходником питания Молекс=>2SATA, получилось так что один пин в молекс-колодке выскочил, и в итоге система загрузилась без двух винтов.

При следующей загрузке она попросила сделать ребилд, но сначала она хочет сделать чекдиск.

 

Сделал ребут один раз -- в админке после перезагрузки опять сообщение про File System Errors и предложение перезагрузиться и выполнить проверку.

 

Перезагрузился.

Почти час система опять что-то думала, потом админка стала доступной, и сразу при входе в админку опять появилось то же самое окно с предложением проверить файловую систему :sad:

 

Перезагрузился еще раз... Жду. Скорее всего будет то же самое.

 

ХЕЗ, может конечно материнка накрылась, не исключаю.

 

P.S.

В общем и целом у меня 6 (шесть) серверов на XPenology, из них два на мини-серверах HP, остальные самособрки,

и один оригинальный Synology на 12 дисков.

И все это хозяйство работает уже больше трех лет.

 

Всякое бывало, но такую хрень вижу в первый раз :sad:

Share this post


Link to post
Share on other sites

А не может ли так быть что просто версия DSM сырая????? ???

Ну вдруг ??

Share this post


Link to post
Share on other sites

Привет, antihrist2002!

 

Сделал все как Вы сказали (подключился через Putty, залогинился под рутом и ввел нужную команду).

 

Прилагаю скриншот того что получилось:

https://yadi.sk/i/QwQhOcL43F3GZn

 

Форум какой-то странный, не позволяет картинки прикладывать, поэтому только ссылка :sad:

Share this post


Link to post
Share on other sites

Загружаешь картинку на Яндекс, нажимаешь на нее (открывается в полный экран), копируешь ссылку и над окном ответа жмешь кнопку Img.

 

HtYd6N1-WTrY80iPYt24nderMN8Do1YFsaD1bLxPlK8AD7h4WjfDa-rGvYauXo2Rp-ipxNo-OOHRBoRIJTVb6g%3D%3D?uid=0&filename=2017-03-05_00-02-38.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=10055&hid=776d4603a5d06af963fea74af5212c7d&media_type=image&tknv=v2&etag=7c14acca3f709af115b62e6e9af5e152

 

Окно Putty нужно развернуть на весь экран. Половину не видно. Сейчас вижу что md0 (это сама система) в норме.

Странно то, что не вижу md1 (это swap).

md2 это твой RAID-6 живые 6 дисков из 8ми. Восстановление рэйда НЕ ИДЕТ!

 

Сейчас твой рэйд без 2х дисков это RAID-0!!! Любое неосторожное действие это потеря ВСЕХ данных!

Share this post


Link to post
Share on other sites

..развернул на весь экран.

 

По-моему то же самое :sad:

 

disk?display=normal&groupBy=none&order=1&selected=%2Fdisk%2F%D0%A1%D0%BA%D1%80%D0%B8%D0%BD%D1%88%D0%BE%D1%82%D1%8B%2F2017-03-05_01-39-11.png&sort=name&view=list&wasAsideAnimated=true&typeClustering=geo&action=null&idAlbum=undefined&selectionSource=recent%20files&idApp=client&dialog=slider&idDialog=%2Fdisk%2F%D0%A1%D0%BA%D1%80%D0%B8%D0%BD%D1%88%D0%BE%D1%82%D1%8B%2F2017-03-05_01-39-11.png

Share this post


Link to post
Share on other sites

То ли я туплю ночью, но не пойму как сюда валидные ссылки на картинки вставлять :sad:

Share this post


Link to post
Share on other sites

Понимаю что raid6 без двух дисков это голые данные :sad: Но самый прикол в том что система и не предлагает подтянуть другие два диска, хотя они и доступны.

 

Вместо этого она советует сделать проверку файловой системы, но это ничего не дает :sad:

 

https://yadi.sk/i/0RS8Msj63F3RMA

Share this post


Link to post
Share on other sites

Сразу предупреждаю: со звуком беда.

 

На картинке есть md1 и там тоже все в порядке.

Предлагаю сейчас ничего не трогать, проверить память. Если все ОК то ПЕРЕД загрузкой DSM проверить, что все 8 дисков определились нормально и с нормальным SMART прогой hdat2 (https://www.hdat2.com/).

Share this post


Link to post
Share on other sites

В общем эта штука с проверкой файловой системы вместо ремонта рэйда выскакивает только тогда, когда поврежден md0 (система) или md1(swap). Скорее всего проблема с md1. Иначе система бы не грузилась.

 

Нужно проверить память и если все ОК, то нажимать в интерфейсе починить.

Во время перезагрузки при подключенном мониторе можно зайти под root'ом и посмотреть cat /proc/mdstat и будет видно что он сейчас чинит.

md1 : active raid1 sdb3[1] sda3[0]
282535040 blocks [2/2] [uU]
[>....................] resync = 0.2% (674432/282535040) finish=5133.2min speed=913K/sec

unused devices:

Share this post


Link to post
Share on other sites

Перезагрузил для поиска файловых ошибок.

Подключился через Путти, несколько раз выполнил команду -- результаты ровно те же.

 

Не видно чтобы он что-то чинил :sad:

 

HtYd6N1-WTrY80iPYt24ncFH4-aBl2ycXzY76ablkqa0xHlV8sr-m0f2Kh5PsfPYejBUMkbyR6zFi9NgH8JXCA%3D%3D?uid=0&filename=2017-03-05_10-36-36.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=66162&hid=d38ad69df0b870e2c831d4191f73b8b6&media_type=image&tknv=v2&etag=8c1a807d6a96430f9ba54529fbbd0190

 

При этом Synology Assistant показывает что сервер находится в режиме "Проверка квоты". Непонятно.

HtYd6N1-WTrY80iPYt24nSl9FUz3lk7I2zu4KrX46Pn4ighW0lSZNr1tGcWOj--hu2280bk-uPD2FHEq35bO0A%3D%3D?uid=0&filename=2017-03-05_10-41-22.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=51330&hid=dbacf4da95622939e32a56d3b000e4a6&media_type=image&tknv=v2&etag=f66e85e6982c30c178207dfd646af863

Share this post


Link to post
Share on other sites

О! Наконец-то.

 

Удалось поймать момент когда она делала resync md1:

 

HtYd6N1-WTrY80iPYt24nS2K-psAauAP6-uqJaODSmlo7He1CdfZ9fRTziHL5Fd7cegnk2pC1seu2JzOh0NgXg%3D%3D?uid=0&filename=2017-03-05_11-03-51.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=93097&hid=297829fb0d04d4a8e3a3c42dfa31c6f4&media_type=image&tknv=v2&etag=531b193bdd07e784350a80161dc40789

Share this post


Link to post
Share on other sites

Теперь вообще странности какие-то начались: загрузка процессора 100%, при этом Disk Usage от 0 до 1%.

 

HtYd6N1-WTrY80iPYt24nRpRH8fMFa1LkkaJlwm5pYwbKUkSai7qYIgjl4NhY3qfGoV5K-Fezlj2-fyn3oD3ZA%3D%3D?uid=0&filename=2017-03-05_11-31-47.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=51298&hid=416dc0d712667c6f4804fbd3a520babc&media_type=image&tknv=v2&etag=baf155f7679c6b79e4a10133e74e99dd

Share this post


Link to post
Share on other sites
Перезагрузил для поиска файловых ошибок.

Подключился через Путти, несколько раз выполнил команду -- результаты ровно те же.

 

Не видно чтобы он что-то чинил :sad:

Ё-моё! Что с памятью-то?

 

Зато здесь видно, что md1 нет вообще.

Share this post


Link to post
Share on other sites

resize2fs это утилита для изменения размера разделов.

Обычно она работает до/после e2fsck - проверка ошибок файловой системы.

 

Если данные не нужны, может ну его нафиг? Накати заново систему, пересоздай рейд и нет проблем.

Share this post


Link to post
Share on other sites