Постоянные ошибки файловой системы File System Check :(


Recommended Posts

На самосборном NAS-е установлена DSM 5.2-5967, загрузка через XPEnoboot_DS3615xs_5.2-5967.1.

 

В системе 8 дисков по 4 ТБ, RAID6.

 

Единственное применение этого НАС-а -- ежедневные бэкапы с других серверов SYNOLOGY, больше на нем ничего не крутится, совсем.

 

В какой-то момент один диск отказал (Crashed), и том вошел в статус Degraded.

 

И тут же посыпались ошибки файловой системы :sad:

 

Появляется окно File System Check, перезагружаю систему, она довольно долго что-то делает, потом опять становится доступной, но почти сразу после загрузки опять появляется это окно.

И так продолжается уже довольно долго.

 

При этом все бэкапы кроме одного единственного продолжают нормально бэкапиться и добавляться (все бэкапы инкрементные).

 

И только с одним проблемы -- при очередной попытке сделать бэкап выдается ошибка, а на этом сервере бэкапов снова вылезает окно об ошибках файловой системы.

 

Кто с таким сталкивался? Что делать?

 

Может быть есть возможность как-то руками запустить полную проверку файловой системы из командной строки, залогинившись под админом?

 

P.S.

Немаловажное уточнение: этот проблемный бэкап -- это бэкап корпоративной почты.

Там есть папка с аттачами, в которой на данный момент находится более 250 тысяч файлов общим объемом 190 гигов.

Может быть дело в этой папке?

Но в то же время на другом аналогичном сервере она работает каждый день, и проблем с ней до сих пор (3*тьфу) не возникало.

 

P.P.S.

Примерно месяц назад такая же проблема была еще с одним бэкапом на этом же сервере, но тот бэкап был ничем не примечателен.

Дело кончилось тем, что пришлось грохнуть весь куст бэкапов за год (там было около 280 последовательных бэкапов), и начать все заново.

Но это же не выход?

 

Помогите пожалуйста решить проблему. Что-то непонятное творится :sad:

 

P.P.P.S.

В официальную техподдержку уже обращался, но там сразу затребовали серийник.

Давать им серийник от реально работающего другого нашего настоящего сервера Synology я что-то постеснялся,

поэтому переписку пришлось прервать и сказать что бэкапы грохнули и работаем дальше :sad:

Link to post
Share on other sites

У кого-нибудь на XPenology вообще ошибки файловой системы устраняются или нет?

 

А то у меня такое ощущение что никакого исправления ошибок не происходит -- система что-то делает полчаса, потом загружается, и снова выдает сообщение о том что обнаружены файловые ошибки :sad:

 

Что с этим делать-то?

 

Заранее спасибо!

Link to post
Share on other sites

Каждый раз после очередной перезагрузки для исправления ошибок происходит одно и то же.

 

Картинки движок форума не дает приложить, поэтому дам ссылки на скриншоты:

https://yadi.sk/i/DiGKgybi3EwQvE

https://yadi.sk/i/uki1a-tY3EwQzJ

Link to post
Share on other sites
У меня были такие глюки когда сгорела планка оперативки. Проверить можно

http://www.memtest86.com

Ошибки файловой системы нужно проверять через установочный диск Ubuntu.

 

Отправлено с моего LYO-L21 через Tapatalk

 

Минутку, а как с загрузочного диска можно проверить ошибки файловой системы, если там программный RAID6?

 

Разве это RAID6 который реализован встроенными средствами Ubuntu?

 

Про планку спасибо, попробую.

 

Но тут обнаружилась новая вводная: скорее всего какая-то проблема в питании, потому что замена проблемного HDD на новый ничего не дала -- он продолжает периодически отваливаться :sad:

Поменял кабель питания (раньше менял только кабель данных), посмотрю что будет теперь.

Link to post
Share on other sites

...купил новую память, заменил.

 

Понаблюдаю пару дней, пофиксятся ли ошибки и будут ли появляться новые.

 

Я правда до сих пор так и не понял -- то ли система ВООБЩЕ не фиксит никакие ошибки, а только делает вид :smile:

То ли все-таки она пытается их пофиксить, но тут же появляются новые.

 

...тем временем ВСЕ бэкапы на этом сервере стали непригодными для дальнейшего использования -- при попытке сделать новый инкрементный бэкап система выдает ошибку, и на этом все кончается :sad:

 

Хорошо что бэкапы у меня делаются на ДВА резервных сервера :smile:

Link to post
Share on other sites

Чтобы решить проблему ее нужно локализовать. Память нужно проверить прогой которую я писал выше. Проверка занимает всего пару часов (вместо пару дней) и по результатам проверки можно судить о том что память, проц, северный мост материнки и кэши на проце живые.

 

RAID-6 в DSM это программный mdadm. Даже если это том SHR это mdadm+LVM.

 

Если есть проблемы с поверхностью диска, со шлейфом до диска или с питанием до диска - DSM будет писать, что есть ошибки на диске и будет degrade.

 

Зайди на сервер по SSH и запусти cat /proc/mdstat

Так ты посмотришь живой ли сам рейд. Ну и сюда не забудь выложить.

Потом проверяешь память. Если запускать проверку файловой системы с битой памятью - то можно вообще всё убить.

 

Если память живая, cat /proc/mdstat покажет что рейд видно, то расскажу как проверить файловую систему.

 

На чем работает DSM? Раз 8 дисков в системе - предполагаю наличие доп контроллера для дисков.

Link to post
Share on other sites

Сейчас не могу сделать тест памяти, сделаю только в понедельник.

 

Но память заменил на новую, из магазина -- и пока ничего не изменилось :sad:

 

Материнка ASUS P8Z77-V, основной и доп контроллер размазаны на материнке, итого 8 штук SATA дырок, я специально подбирал такую мать чтобы не втыкать никаких плат.

Если что -- на замену у меня есть аналогичная мать, может быть заменю мать, если все будет вообще плохо :sad:

 

На данный момент имеем следующее: массив Degraded, диски 7 и 8 из восьми требуют обновления.

Это после неудачной загрузки с битым переходником питания Молекс=>2SATA, получилось так что один пин в молекс-колодке выскочил, и в итоге система загрузилась без двух винтов.

При следующей загрузке она попросила сделать ребилд, но сначала она хочет сделать чекдиск.

 

Сделал ребут один раз -- в админке после перезагрузки опять сообщение про File System Errors и предложение перезагрузиться и выполнить проверку.

 

Перезагрузился.

Почти час система опять что-то думала, потом админка стала доступной, и сразу при входе в админку опять появилось то же самое окно с предложением проверить файловую систему :sad:

 

Перезагрузился еще раз... Жду. Скорее всего будет то же самое.

 

ХЕЗ, может конечно материнка накрылась, не исключаю.

 

P.S.

В общем и целом у меня 6 (шесть) серверов на XPenology, из них два на мини-серверах HP, остальные самособрки,

и один оригинальный Synology на 12 дисков.

И все это хозяйство работает уже больше трех лет.

 

Всякое бывало, но такую хрень вижу в первый раз :sad:

Link to post
Share on other sites

Привет, antihrist2002!

 

Сделал все как Вы сказали (подключился через Putty, залогинился под рутом и ввел нужную команду).

 

Прилагаю скриншот того что получилось:

https://yadi.sk/i/QwQhOcL43F3GZn

 

Форум какой-то странный, не позволяет картинки прикладывать, поэтому только ссылка :sad:

Link to post
Share on other sites

Загружаешь картинку на Яндекс, нажимаешь на нее (открывается в полный экран), копируешь ссылку и над окном ответа жмешь кнопку Img.

 

HtYd6N1-WTrY80iPYt24nderMN8Do1YFsaD1bLxPlK8AD7h4WjfDa-rGvYauXo2Rp-ipxNo-OOHRBoRIJTVb6g%3D%3D?uid=0&filename=2017-03-05_00-02-38.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=10055&hid=776d4603a5d06af963fea74af5212c7d&media_type=image&tknv=v2&etag=7c14acca3f709af115b62e6e9af5e152

 

Окно Putty нужно развернуть на весь экран. Половину не видно. Сейчас вижу что md0 (это сама система) в норме.

Странно то, что не вижу md1 (это swap).

md2 это твой RAID-6 живые 6 дисков из 8ми. Восстановление рэйда НЕ ИДЕТ!

 

Сейчас твой рэйд без 2х дисков это RAID-0!!! Любое неосторожное действие это потеря ВСЕХ данных!

Link to post
Share on other sites

Понимаю что raid6 без двух дисков это голые данные :sad: Но самый прикол в том что система и не предлагает подтянуть другие два диска, хотя они и доступны.

 

Вместо этого она советует сделать проверку файловой системы, но это ничего не дает :sad:

 

https://yadi.sk/i/0RS8Msj63F3RMA

Link to post
Share on other sites

Сразу предупреждаю: со звуком беда.

 

На картинке есть md1 и там тоже все в порядке.

Предлагаю сейчас ничего не трогать, проверить память. Если все ОК то ПЕРЕД загрузкой DSM проверить, что все 8 дисков определились нормально и с нормальным SMART прогой hdat2 (https://www.hdat2.com/).

Link to post
Share on other sites

В общем эта штука с проверкой файловой системы вместо ремонта рэйда выскакивает только тогда, когда поврежден md0 (система) или md1(swap). Скорее всего проблема с md1. Иначе система бы не грузилась.

 

Нужно проверить память и если все ОК, то нажимать в интерфейсе починить.

Во время перезагрузки при подключенном мониторе можно зайти под root'ом и посмотреть cat /proc/mdstat и будет видно что он сейчас чинит.

md1 : active raid1 sdb3[1] sda3[0]
282535040 blocks [2/2] [uU]
[>....................] resync = 0.2% (674432/282535040) finish=5133.2min speed=913K/sec

unused devices:

Link to post
Share on other sites

Перезагрузил для поиска файловых ошибок.

Подключился через Путти, несколько раз выполнил команду -- результаты ровно те же.

 

Не видно чтобы он что-то чинил :sad:

 

HtYd6N1-WTrY80iPYt24ncFH4-aBl2ycXzY76ablkqa0xHlV8sr-m0f2Kh5PsfPYejBUMkbyR6zFi9NgH8JXCA%3D%3D?uid=0&filename=2017-03-05_10-36-36.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=66162&hid=d38ad69df0b870e2c831d4191f73b8b6&media_type=image&tknv=v2&etag=8c1a807d6a96430f9ba54529fbbd0190

 

При этом Synology Assistant показывает что сервер находится в режиме "Проверка квоты". Непонятно.

HtYd6N1-WTrY80iPYt24nSl9FUz3lk7I2zu4KrX46Pn4ighW0lSZNr1tGcWOj--hu2280bk-uPD2FHEq35bO0A%3D%3D?uid=0&filename=2017-03-05_10-41-22.png&disposition=inline&hash=&limit=0&content_type=image%2Fpng&fsize=51330&hid=dbacf4da95622939e32a56d3b000e4a6&media_type=image&tknv=v2&etag=f66e85e6982c30c178207dfd646af863

Link to post
Share on other sites
Перезагрузил для поиска файловых ошибок.

Подключился через Путти, несколько раз выполнил команду -- результаты ровно те же.

 

Не видно чтобы он что-то чинил :sad:

Ё-моё! Что с памятью-то?

 

Зато здесь видно, что md1 нет вообще.

Link to post
Share on other sites

resize2fs это утилита для изменения размера разделов.

Обычно она работает до/после e2fsck - проверка ошибок файловой системы.

 

Если данные не нужны, может ну его нафиг? Накати заново систему, пересоздай рейд и нет проблем.

Link to post
Share on other sites