Jump to content
XPEnology Community
  • 0

Restauration DSM suite bug MàJ


Alandil

Question

Bonjour @nicoueron @EVOTk

 

Bon j'ai fait le noob... Je n'ai pas regardé le forum avant de tenter l'upgrade en 6.2.4.25556... Résultat ? DSM innaccessible... Comment je peux restaurer mon DSM sans perdre mes données ? J'ai tenté de restaurer une sauvegarde de ma clé USB. J'ai réussi à détecter la restauration avec Synology Assistant. Celui-ci a tenté de rétablir le système mais cela a échoué. Depuis le redémarrage, je ne détecte plus rien...

 

Je le sens mal ce coup-là...

Link to comment
Share on other sites

Recommended Posts

  • 0

Il n'y a pas d'autres commandes pour configurer le raid soft.

Le risque est de perdre les données du raid... ce qui n'est pas rien.

On va commencer par vérifier que les données sont toujours présentes :

mount -t brtfs -o ro /dev/mapper/vg1000-lv /mnt/nas

et ensuite le résultat de la commande :

ls -l /mnt/nas

Si tu y trouves les répertoires de tes données (en principe /volume1) on est à peu près tranquille pour y accéder ensuite.

Ensuite, démonte le volume :

umount /mnt/nas

Et la question qui tue ? as-tu une sauvegarde de ta configuration du DSM ?

Link to comment
Share on other sites

  • 0

Le coup des doigts dyslexiques est sympa 😁

 

root@ubuntu:/# mount -t btrfs -o ro /dev/mapper/vg1000-lv /mnt/dsm
mount: /mnt/dsm: wrong fs type, bad option, bad superblock on /dev/mapper/vg1000-lv, missing codepage or helper program, or other error.

Cette erreur commence à être agaçante... On la retrouve à chaque tentative... 

Link to comment
Share on other sites

  • 0

Tu peux donner le résultat de :

vg

lv

Je pense que ton volume de données est intact, mais j'aurais aimé en être certain, d'où l'essai pour le monter.

Sinon, selon que tu possède ou non une sauvegarde de ta configuration (tout n'est pas enregistré, il manque pas mal de paramètres sur les autorisations d'accès si je me souviens bien, j'ai restauré un DS110j il y a peu et j'ai du utiliser mes copies d'écran pour récupérer le tout). Depuis, je me fait un fichier PDF avec les copies de chaque écran important), on peut :

- soit réinstaller le DSM en refusant bien entendu de formater la partition de données si on le propose

- soit tenter de retirer le disque dsa1 du raid md0 pour accéder au raid et faire les corrections de la mise à jour.

Ce qui m'ennuie beaucoup dans ce cas, c'est qu'il manque un disque à priori (/dev/sdg1 qui est listé dans le superblock et ne semble pas correspondre à sdh1). Si 2 disques manquent, on commence à prendre des risques, même si pour le DSM on est sur du raid 1 (mirrorring) et que les données sont donc dupliquées sur tous les disques.

Link to comment
Share on other sites

  • 0

Bon, en ce cas on peut tenter de retirer sda1 de la configuration du raid md0.

Personnellement j'essaierai de faire ça :

- Déclarer le disque /dev/sda1 de /dev/md0 comme défectueux

mdadm --manage /dev/md0 --faulty /dev/sda1

- Enlever ce disque du raid

mdadm --manage /dev/md0 --remove /dev/sda1

Ensuite voir l'état du raid avec :

cat /proc/mdstat

Et si le raid semble être OK avec les disques présents pour md0, tenter de le remonter une nouvelle fois

mount /dev/md0 /mnt/nas

Link to comment
Share on other sites

  • 0

Bon cela semble avoir fonctionné :

root@ubuntu:/# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4] 
md2 : active raid5 sda5[0] sdh5[7] sdf5[5] sde5[4] sdd5[3] sdc5[2] sdb5[1]
      35134148736 blocks super 1.2 level 5, 64k chunk, algorithm 2 [7/7] [UUUUUUU]
      
md4 : active raid1 sdi1[0] sdj1[1]
      488381952 blocks super 1.2 [2/2] [UU]
      
md0 : active raid1 sdf1[5] sde1[4] sdd1[3] sdc1[2] sdb1[1]
      2490176 blocks [16/5] [_UUUUU__________]
      
md3 : active raid1 sda6[0] sdb6[1]
      3905898432 blocks super 1.2 [2/2] [UU]
      
unused devices: <none>
root@ubuntu:/# mount /dev/md0 /mnt/dsm

Qu'en penses-tu ?

Link to comment
Share on other sites

  • 0
Il y a 4 heures, JacquesF a dit :

Si la commande mount éventuelle ne retourne pas d'erreur, tu devrais pouvoir afficher ton fichier VERSION avec la commande :

cat /mnt/nas/etc/VERSION             ou cat /chemin/vers/point/de/montage/de/md0/etc/VERSION

Si le contenu semble correct (entre autre le productversion=6.X.X qui doit être la version que tu as installée), on va modifier la racine du système pour que les commandes des tutos ne soient pas à transposer à chaque fois (pour trouver les fichiers qui ne sont plus positionnés depuis la racine du DSM mais depuis le point de montage (/mnt/nas + le chemin DSM)) avec la commande :

chroot /mnt/nas

Si il n'y a pas d'erreur, tu peux maintenant te placer dans le répertoire etc du DSM avec la commande :

cd /etc

Vérifier le fichier VERSION avec :

cat VERSION

Si tout est OK (même contenu qu'avant), applique la procédure de nettoyage (fichier VERSION et répertoires de stockage des mises à jour à nettoyer).

Ensuite, sort de l'environnement "chrooté" avec la commande :

exit

Démonte le DSM avec :

umount /mnt/nas

Croise les doigts et redémarre le tout... puis réinstalle le DSM que tu avais avant la migration (et bien entendu ne pas répondre OK si on propose de formater la partition de données !).

alors voilà ce que j'ai :

root@ubuntu:/# cat /mnt/dsm/etc/VERSION
majorversion="6"
minorversion="2"
productversion="6.2.3"
buildphase="GM"
buildnumber="25426"
smallfixnumber="3"
builddate="2020/12/14"
buildtime="06:14:27"
root@ubuntu:/# chroot /mnt/dsm
bash-4.3# cat VERSION
cat: VERSION: No such file or directory
bash-4.3#

Je n'ai rien dans la VERSION de mnt/dsm ?!

Link to comment
Share on other sites

  • 0
Citation

Je n'ai rien dans la VERSION de mnt/dsm ?!

Ça c'est normal, il n'y a pas de fichier VERSION à la racine du disque...

Je ne crois pas avoir écrit de lire ce fichier à la racine mais dans le dossier /etc (après avoir fait le chroot).

De toute manière, le DSM est accessible et monté sous /mnt/dsm qui devient donc la base du chemin à ajouter devant toutes les commandes du tuto de récupération (les commandes étant indiquées en SSH directement sur le NAS), ou alors faire auparavant un chroot /mnt/nas pour que ce répertoire deviennent la nouvelle racine du shell, et donc les chemins sont à ce moment conformes à ceux indiqués pour SSH. Je te conseille cette option, ça évite des erreurs.

Il n'y a pas de raison que le chroot échoue (sauf si tu te trouves déjà dans le dossier /mnt/nas peut-être, auquel cas il suffit de taper cd /mnt pour revenir un cran plus haut.

Ensuite, le fichier VERSION est à modifier, si tu n'as pas l'habitude des éditeurs comme nano ou vi, ça peut être un peu compliqué.

La solution serait en ce cas, une fois les dossiers xpenoboot supprimé de quitter le chroot (par exit) et de lancer un éditeur de texte graphique (je n'utilise pas gnome, mais de mémoire gedit doit être présent), en faisant un clic droit sur l’icône du menu, il y a peut-être l'option pour le lancer sous root. Sinon, en tant que root dans la console, taper gedit /mnt/nas/etc/VERSION pour éditer directement le fichier (nano n'est pas non plus un éditeur compliqué, les menus sont lisibles en bas).

Et si ça marche, je te conseille de remettre la migration à demain, il n'est jamais bon de faire une intervention à risque après pas mal de stress.

 

Je te laisse chercher et suivre le tuto, je repasserai plus tard ou demain matin.

Bons tests, et surtout ne te hâte pas...

 

Jacques

Edited by JacquesF
Link to comment
Share on other sites

  • 0

Bon le fichier VERSION est le même via chroot.

 

Je n'ai rien d'autre à faire c'est bien ça ? C'est quand même curieux. J'ai bien la même version que celle que j'ai remise sur ma clé USB. Et ça n'avait pas marché...

 

Quand tu dis de réinstaller le DSM, comment je m'y prends ?

Edited by Alandil
Link to comment
Share on other sites

  • 0

Il faut supprimer les traces de linstallation :

Si tu est dans le chroot : rm -rf /.xpenoboot

Si tu est dans le shell ubuntu : rm -rf /mnt/nas/.xpenoboot

Ensuite, comme je l'ai dit dans mon message, exit du chroot, démonter le /mnt/nas et redémarrer.

Au reboot, voir si Synology assistant trouve le NAS et dans quel état il le voit, ensuite on peut en principe le réinstaller depuis l'assistant, ou depuis l'interface Web, sans formater la partition de données bien entendu.

Bonne nuit

 

Jacques

Link to comment
Share on other sites

  • 0

Bonjour  @JacquesF

Avec Synology Assistant, j'ai obtenu ce que j'obtenais avant que nous regardions ensemble :

image.png.b7fda43d7ce335ff53bbc4c26a7a21d1.png

En cliquant sur récupérable, j'arrive sur la fenêtre web de récupération. La récupération fait 1% puis se met en redémarrage et n'est plus détecté du tout après la pseudo récupération.

 

Du coup je refais les étapes suivantes :

1 - Remettre sur ma clé USB Xpenology mon backup précédent

2 - Lancer Ubuntu USB Live

3 - Installer mdam et lvm2

4 - Utiliser la commande 

mdadm -Asf && vgchange -ay

5 - Utiliser la commande 

mdadm -Ee0.swap /dev/sda1 /dev/sdb1 /dev/sdc1 /dev/sdd1 /dev/sde1 /dev/sdf1 /dev/sdh1

6 - Le disque A n'ayant pas de superblock, j'ai fait comme on a fait hier, à savoir démonter le disque A avec la commande :

mdadm --manage /dev/md0 --faulty /dev/sda1

et là nouvelle erreur :

mdadm : error opening /dev/md0: no such file or directory

7 - il va donc falloir recontrôler je suppose... j'attends donc ton retour

Edited by Alandil
Link to comment
Share on other sites

  • 0

Bonjour,

Je pense qu'on est arrivé aux limites des possibilités de l'installeur de Synology.

Il y a un disque en faute pour le DSM (sda1) et on ne peux pas retirer le disque sans risque pour les données (en raid5 donc avec 1 seuil disque en tolérance de panne).

Si tu as une sauvegarde complète de tes données (et des packages installés éventuellement), tu peux tenter directement de réinstaller le DSM (sans passer par la phase récupération), cela forcera le système à formater la partition sda1 et à refaire le raid md0.

Si tu n'as pas de sauvegarde, alors le plus urgent est d'en faire une au cas où, et pour celà il te faut un LiveCD avec les outils LVM.

Dans les essais hier, les commandes lv et vg semblaient ne pas exister, aussi je te suggère de récupérer l'iso de RescueCD et de suivre le tuto surleur sitepour créer une clef USB avec.

Ce CD offre quasiment tous les outils de récupération indispensables pour les situations de crise et entre autre mdadm et LVM.

De cette façon, en suivant les tutos précédents, tu pourras remonter le raid SHR des données.

Ce dernier est (d'après les infos données) composé avec les raids md2 et md3 dans un même volume (vg1 en principe).

Le risque est que les données du disque SDA empêchent de remonter le md3 et donc de reconstruire le volume, d'où le fait qu'il vaut mieux conserver le disque sda présent lors des tentatives de réinstallation du DSM (sauf erreur de ma part, je ne suis pas expert dans l'architecture du NAS syno).

De toutes façons, il serait plus qu'intéressant de connaître l'état réel du disque SDA, et avec RescueCD, tu peux utiliser ces commandes :

smartctl -d sat -a /dev/sda

Tu vas obtenir un affichage des caractéristiques du disque et l'état des différents compteurs d'erreur ou d'informations, ainsi que les résultats des derniers tests SMART.

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     28131         -
# 2  Short offline       Completed without error       00%     27461         -
# 3  Short offline       Completed without error       00%     26724         -

Ceci est la sortie d'un de mes disques sur mon NAS.

Si les derniers tests affichent des erreurs, je te conseille de relancer un test court pour avoir le résultat, puis un long (et là sur 9To ce sera long...

- Test court : smartctl -d sat -t short /dev/sda

- Test long : smartctl -d sat -t long /dev/sda

La commande retourne le temps nécessaire pour obtenir le résultat (visible aussi dans la sortie faite avec -i dans la section START OF READ SMART DATA SECTION

Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 472) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.

Les résultats du test sont lisibles avec l'option -a par exemple (commande du début). ou -H (health = santé).

Si le disque SDA est en faute, il est préférable de le remplacer maintenant.

En regardant les structure des raids md2 et md3 je viens de voir que md3 (partions sda6 et sdb6) est de tye raid1, donc du mirroring, ce qui fait qu'on peut récupérer les données aussi bien sda1 (type raid1 aussi pour md0) et sda6 depuis le disque SDB, ce qui est plutôt bon signe.

Comme md3 est de type raid1, le disque SDA ne devrait pas empêcher de monter les raids md0 et md3 (en le déclarant en faute (option -f de mdadm) et ensuite de remonter le volume pour finalement monter le tout dans un point de montage (ex : mkdir /mnt/data suivi du mount indiqué pour les datas dans mes messages précédents en utilisant /mnt/data plutôt que /mnt/nas ce qui permettra d'avoir accès aux deux DSM et DATA).

 

Si le disque ne sort pas de faute, alors on avisera pour recréer le raid et reinstaller le DSM dessus.

Mais pour le moment, je considère que la priorité est de récupérer les données.

Pendant le temps des tests SMART, tu auras le temps de chercher à te documenter sur mdadm, lvm et smart... que ce problème serve ainsi à te faire grinmper en compétences sous Linux et les disques durs. Ça peut toujours servir... à toi ou à d'autres par la suite.

 

Jacques

Link to comment
Share on other sites

  • 0

Bon... Alors faire une sauvegarde de mes données ne va pas être faisable... J'ai près de 20To et je n'ai aucun disque pour faire une sauvegarde...

 

Je suppose donc que je ne plus rien y faire...

 

Comment je m'y prends pour tout réinstaller ?

Link to comment
Share on other sites

  • 0

Déjà vérifier l'état du disque SDA avec les commandes smartctl, pour savoir s'il faut remplacer le disque ou non.

On verra après le résultat du test. Si le disque est suffisamment en état, on peut tenter de retirer le disque du raid md0, puis de le rajouter en le déclarant sain, ou de forcer son état en sain même sans le retirer, faudra que je révise les commandes mdadm pour ça.

Ensuite, si le raid md0 est complet, le reformater en ext4 et refaire une installation (ne devrait plus proposer de récupérer le DSM).

Ça c'est dit de tête, à confirmer avant de faire !

 

Jacques

Link to comment
Share on other sites

  • 0

Voilà ce que j'obtiens :

root@ubuntu:~# smartctl -d sat -a /dev/sda
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.8.0-43-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST10000VN0004-1ZD101
Serial Number:    ZA27MR2M
LU WWN Device Id: 5 000c50 0b1ad1b20
Firmware Version: SC60
User Capacity:    10 000 831 348 736 bytes [10,0 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Apr 10 09:17:11 2021 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  567) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 841) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x50bd)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   078   064   044    Pre-fail  Always       -       70639695
  3 Spin_Up_Time            0x0003   090   086   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       134
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   096   060   045    Pre-fail  Always       -       4290801989
  9 Power_On_Hours          0x0032   076   076   000    Old_age   Always       -       21445 (20 33 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       132
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   001   001   000    Old_age   Always       -       136
190 Airflow_Temperature_Cel 0x0022   063   048   040    Old_age   Always       -       37 (Min/Max 37/38)
191 G-Sense_Error_Rate      0x0032   082   082   000    Old_age   Always       -       37453
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       102
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       177
194 Temperature_Celsius     0x0022   037   052   000    Old_age   Always       -       37 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   018   001   000    Old_age   Always       -       70639695
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0023   100   100   001    Pre-fail  Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       21358 (228 220 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       162112540620
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       543724373150

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     21341         -
# 2  Short offline       Completed without error       00%     21173         -
# 3  Short offline       Completed without error       00%     21006         -
# 4  Short offline       Completed without error       00%     20838         -
# 5  Short offline       Completed without error       00%     20670         -
# 6  Short offline       Completed without error       00%     20502         -
# 7  Short offline       Completed without error       00%     20334         -
# 8  Short offline       Completed without error       00%     20166         -
# 9  Short offline       Completed without error       00%     19998         -
#10  Short offline       Completed without error       00%     19830         -
#11  Short offline       Completed without error       00%     19662         -
#12  Short offline       Completed without error       00%     19494         -
#13  Short offline       Completed without error       00%     19326         -
#14  Short offline       Completed without error       00%     19158         -
#15  Short offline       Completed without error       00%     18990         -
#16  Short offline       Completed without error       00%     18822         -
#17  Short offline       Completed without error       00%     18654         -
#18  Short offline       Completed without error       00%     18486         -
#19  Short offline       Completed without error       00%     18318         -
#20  Short offline       Completed without error       00%     18150         -
#21  Short offline       Completed without error       00%     17982         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je n'ai donc aucune erreur sur le disque... je ne comprends plus rien du coup et je ne sais plus quoi faire...

Edited by Alandil
Link to comment
Share on other sites

  • 0

Le disque ne semble pas être en faute (pas de secteurs réalloués entre autre (Reallocated_Sector_Ct à 0) mais il y a un paquet d'erreurs de lecture rattrapées (Raw_Read_Error_Rate et Hardware_ECC_Recovered à 70639695) et c'est probablement lié à des erreurs de positionnement du disque (Seek_Error_Rate à 4290801989). Peut-être des erreurs de cache ?

Donc, on peut tenter de reconstruire le raid en sortant le disque et en le remettant.

Le lien suivant donne une procédure qu'on va adapter puisqu'on ne va pas remplacer physiquement le disque :

Replacing a Failed Mirror Disk in a Software RAID Array (mdadm)

1) Sortir le disque du raid md0 :

mdadm --manage /dev/md0 --fail /dev/sda1

mdadm --manage /dev/md0 --remove /dev/sda1

2) Le réinsérer

mdadm --manage /dev/md0 --add /dev/sda1

3) Vérifier l'état du raid

mdadm --detail /dev/md0

4) Suivre la progression de la reconstruction (devrait être assez rapide : 2,4 Go seulment)

cat /proc/mdstat

5 opur l'afficher toutes les 30s par exemple :

watch -n 30 "cat /proc/mdstat"

 

A suivre ensuite

Jacques

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Answer this question...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...