Nikit0s Posted February 23, 2017 #1 Posted February 23, 2017 На самосборном NAS-е установлена DSM 5.2-5967, загрузка через XPEnoboot_DS3615xs_5.2-5967.1. В системе 8 дисков по 4 ТБ, RAID6. Единственное применение этого НАС-а -- ежедневные бэкапы с других серверов SYNOLOGY, больше на нем ничего не крутится, совсем. В какой-то момент один диск отказал (Crashed), и том вошел в статус Degraded. И тут же посыпались ошибки файловой системы Появляется окно File System Check, перезагружаю систему, она довольно долго что-то делает, потом опять становится доступной, но почти сразу после загрузки опять появляется это окно. И так продолжается уже довольно долго. При этом все бэкапы кроме одного единственного продолжают нормально бэкапиться и добавляться (все бэкапы инкрементные). И только с одним проблемы -- при очередной попытке сделать бэкап выдается ошибка, а на этом сервере бэкапов снова вылезает окно об ошибках файловой системы. Кто с таким сталкивался? Что делать? Может быть есть возможность как-то руками запустить полную проверку файловой системы из командной строки, залогинившись под админом? P.S. Немаловажное уточнение: этот проблемный бэкап -- это бэкап корпоративной почты. Там есть папка с аттачами, в которой на данный момент находится более 250 тысяч файлов общим объемом 190 гигов. Может быть дело в этой папке? Но в то же время на другом аналогичном сервере она работает каждый день, и проблем с ней до сих пор (3*тьфу) не возникало. P.P.S. Примерно месяц назад такая же проблема была еще с одним бэкапом на этом же сервере, но тот бэкап был ничем не примечателен. Дело кончилось тем, что пришлось грохнуть весь куст бэкапов за год (там было около 280 последовательных бэкапов), и начать все заново. Но это же не выход? Помогите пожалуйста решить проблему. Что-то непонятное творится P.P.P.S. В официальную техподдержку уже обращался, но там сразу затребовали серийник. Давать им серийник от реально работающего другого нашего настоящего сервера Synology я что-то постеснялся, поэтому переписку пришлось прервать и сказать что бэкапы грохнули и работаем дальше
Nikit0s Posted February 23, 2017 Author #2 Posted February 23, 2017 Кстати да, это тот же самый сервер, с которым до этого уже были проблемы: viewtopic.php?f=5&t=22729
Nikit0s Posted March 3, 2017 Author #3 Posted March 3, 2017 У кого-нибудь на XPenology вообще ошибки файловой системы устраняются или нет? А то у меня такое ощущение что никакого исправления ошибок не происходит -- система что-то делает полчаса, потом загружается, и снова выдает сообщение о том что обнаружены файловые ошибки Что с этим делать-то? Заранее спасибо!
Nikit0s Posted March 3, 2017 Author #4 Posted March 3, 2017 Каждый раз после очередной перезагрузки для исправления ошибок происходит одно и то же. Картинки движок форума не дает приложить, поэтому дам ссылки на скриншоты: https://yadi.sk/i/DiGKgybi3EwQvE https://yadi.sk/i/uki1a-tY3EwQzJ
antihrist2002 Posted March 3, 2017 #5 Posted March 3, 2017 У меня были такие глюки когда сгорела планка оперативки. Проверить можно http://www.memtest86.com Ошибки файловой системы нужно проверять через установочный диск Ubuntu. Отправлено с моего LYO-L21 через Tapatalk
Nikit0s Posted March 4, 2017 Author #6 Posted March 4, 2017 У меня были такие глюки когда сгорела планка оперативки. Проверить можно http://www.memtest86.com Ошибки файловой системы нужно проверять через установочный диск Ubuntu. Отправлено с моего LYO-L21 через Tapatalk Минутку, а как с загрузочного диска можно проверить ошибки файловой системы, если там программный RAID6? Разве это RAID6 который реализован встроенными средствами Ubuntu? Про планку спасибо, попробую. Но тут обнаружилась новая вводная: скорее всего какая-то проблема в питании, потому что замена проблемного HDD на новый ничего не дала -- он продолжает периодически отваливаться Поменял кабель питания (раньше менял только кабель данных), посмотрю что будет теперь.
Nikit0s Posted March 4, 2017 Author #7 Posted March 4, 2017 ...купил новую память, заменил. Понаблюдаю пару дней, пофиксятся ли ошибки и будут ли появляться новые. Я правда до сих пор так и не понял -- то ли система ВООБЩЕ не фиксит никакие ошибки, а только делает вид То ли все-таки она пытается их пофиксить, но тут же появляются новые. ...тем временем ВСЕ бэкапы на этом сервере стали непригодными для дальнейшего использования -- при попытке сделать новый инкрементный бэкап система выдает ошибку, и на этом все кончается Хорошо что бэкапы у меня делаются на ДВА резервных сервера
antihrist2002 Posted March 4, 2017 #8 Posted March 4, 2017 Чтобы решить проблему ее нужно локализовать. Память нужно проверить прогой которую я писал выше. Проверка занимает всего пару часов (вместо пару дней) и по результатам проверки можно судить о том что память, проц, северный мост материнки и кэши на проце живые. RAID-6 в DSM это программный mdadm. Даже если это том SHR это mdadm+LVM. Если есть проблемы с поверхностью диска, со шлейфом до диска или с питанием до диска - DSM будет писать, что есть ошибки на диске и будет degrade. Зайди на сервер по SSH и запусти cat /proc/mdstat Так ты посмотришь живой ли сам рейд. Ну и сюда не забудь выложить. Потом проверяешь память. Если запускать проверку файловой системы с битой памятью - то можно вообще всё убить. Если память живая, cat /proc/mdstat покажет что рейд видно, то расскажу как проверить файловую систему. На чем работает DSM? Раз 8 дисков в системе - предполагаю наличие доп контроллера для дисков.
Nikit0s Posted March 4, 2017 Author #9 Posted March 4, 2017 Сейчас не могу сделать тест памяти, сделаю только в понедельник. Но память заменил на новую, из магазина -- и пока ничего не изменилось Материнка ASUS P8Z77-V, основной и доп контроллер размазаны на материнке, итого 8 штук SATA дырок, я специально подбирал такую мать чтобы не втыкать никаких плат. Если что -- на замену у меня есть аналогичная мать, может быть заменю мать, если все будет вообще плохо На данный момент имеем следующее: массив Degraded, диски 7 и 8 из восьми требуют обновления. Это после неудачной загрузки с битым переходником питания Молекс=>2SATA, получилось так что один пин в молекс-колодке выскочил, и в итоге система загрузилась без двух винтов. При следующей загрузке она попросила сделать ребилд, но сначала она хочет сделать чекдиск. Сделал ребут один раз -- в админке после перезагрузки опять сообщение про File System Errors и предложение перезагрузиться и выполнить проверку. Перезагрузился. Почти час система опять что-то думала, потом админка стала доступной, и сразу при входе в админку опять появилось то же самое окно с предложением проверить файловую систему Перезагрузился еще раз... Жду. Скорее всего будет то же самое. ХЕЗ, может конечно материнка накрылась, не исключаю. P.S. В общем и целом у меня 6 (шесть) серверов на XPenology, из них два на мини-серверах HP, остальные самособрки, и один оригинальный Synology на 12 дисков. И все это хозяйство работает уже больше трех лет. Всякое бывало, но такую хрень вижу в первый раз
Nikit0s Posted March 4, 2017 Author #10 Posted March 4, 2017 А не может ли так быть что просто версия DSM сырая????? ??? Ну вдруг ??
Nikit0s Posted March 4, 2017 Author #11 Posted March 4, 2017 Привет, antihrist2002! Сделал все как Вы сказали (подключился через Putty, залогинился под рутом и ввел нужную команду). Прилагаю скриншот того что получилось: https://yadi.sk/i/QwQhOcL43F3GZn Форум какой-то странный, не позволяет картинки прикладывать, поэтому только ссылка
antihrist2002 Posted March 4, 2017 #12 Posted March 4, 2017 Загружаешь картинку на Яндекс, нажимаешь на нее (открывается в полный экран), копируешь ссылку и над окном ответа жмешь кнопку Img. Окно Putty нужно развернуть на весь экран. Половину не видно. Сейчас вижу что md0 (это сама система) в норме. Странно то, что не вижу md1 (это swap). md2 это твой RAID-6 живые 6 дисков из 8ми. Восстановление рэйда НЕ ИДЕТ! Сейчас твой рэйд без 2х дисков это RAID-0!!! Любое неосторожное действие это потеря ВСЕХ данных!
Nikit0s Posted March 4, 2017 Author #13 Posted March 4, 2017 ..развернул на весь экран. По-моему то же самое
Nikit0s Posted March 4, 2017 Author #16 Posted March 4, 2017 То ли я туплю ночью, но не пойму как сюда валидные ссылки на картинки вставлять
Nikit0s Posted March 4, 2017 Author #17 Posted March 4, 2017 Понимаю что raid6 без двух дисков это голые данные Но самый прикол в том что система и не предлагает подтянуть другие два диска, хотя они и доступны. Вместо этого она советует сделать проверку файловой системы, но это ничего не дает https://yadi.sk/i/0RS8Msj63F3RMA
antihrist2002 Posted March 4, 2017 #19 Posted March 4, 2017 Сразу предупреждаю: со звуком беда. На картинке есть md1 и там тоже все в порядке. Предлагаю сейчас ничего не трогать, проверить память. Если все ОК то ПЕРЕД загрузкой DSM проверить, что все 8 дисков определились нормально и с нормальным SMART прогой hdat2 (https://www.hdat2.com/).
antihrist2002 Posted March 4, 2017 #20 Posted March 4, 2017 В общем эта штука с проверкой файловой системы вместо ремонта рэйда выскакивает только тогда, когда поврежден md0 (система) или md1(swap). Скорее всего проблема с md1. Иначе система бы не грузилась. Нужно проверить память и если все ОК, то нажимать в интерфейсе починить. Во время перезагрузки при подключенном мониторе можно зайти под root'ом и посмотреть cat /proc/mdstat и будет видно что он сейчас чинит. md1 : active raid1 sdb3[1] sda3[0] 282535040 blocks [2/2] [uU] [>....................] resync = 0.2% (674432/282535040) finish=5133.2min speed=913K/sec unused devices:
Nikit0s Posted March 5, 2017 Author #21 Posted March 5, 2017 Перезагрузил для поиска файловых ошибок. Подключился через Путти, несколько раз выполнил команду -- результаты ровно те же. Не видно чтобы он что-то чинил При этом Synology Assistant показывает что сервер находится в режиме "Проверка квоты". Непонятно.
Nikit0s Posted March 5, 2017 Author #22 Posted March 5, 2017 О! Наконец-то. Удалось поймать момент когда она делала resync md1:
Nikit0s Posted March 5, 2017 Author #23 Posted March 5, 2017 Теперь вообще странности какие-то начались: загрузка процессора 100%, при этом Disk Usage от 0 до 1%.
antihrist2002 Posted March 5, 2017 #24 Posted March 5, 2017 Перезагрузил для поиска файловых ошибок.Подключился через Путти, несколько раз выполнил команду -- результаты ровно те же. Не видно чтобы он что-то чинил Ё-моё! Что с памятью-то? Зато здесь видно, что md1 нет вообще.
antihrist2002 Posted March 5, 2017 #25 Posted March 5, 2017 resize2fs это утилита для изменения размера разделов. Обычно она работает до/после e2fsck - проверка ошибок файловой системы. Если данные не нужны, может ну его нафиг? Накати заново систему, пересоздай рейд и нет проблем.
Recommended Posts