Volumen 1 abgestürzt, was nun?


Recommended Posts

Hallo,

 

bei mir kam gestern die Meldung das Volumen 1 (Systemplatte) abgestürzt ist. System besteht aus 3 Platten, kein RAID. Daten habe ich nochmals auf einem separaten Laufwerk.

Habe beim betreffenden Volume einen kurzen SMART Test gemacht, zeigt Normal an.

 

Wie gehe ich jetzt vor wenn ich die Platte tauschen will? Einfach neue Platte rein und das System installiert sich neu auf Volume 1? Was ist mit meinen Daten auf Vol 2 & 3?

 

Generell: Könnten die Daten auf Vol 2& 3 notfalls auch in einem anderen System ausgelesen werden? Keine Synology Verschlüsselung aktiv.

 

Danke für Unterstützung.

 

Stefan

Link to post
Share on other sites
13 hours ago, hokaido said:

System besteht aus 3 Platten,... Volume 1? Was ist mit meinen Daten auf Vol 2 & 3?

Deine Frage ist nicht XPENology-spezifisch, das gilt für einen normale Synology ebenso.

 

Ich habe verstanden, dass du drei Platten hast.
Du hast drei Volumes, schreibst du.

 

Dazwischen gibt es noch die Ebene "Speicherpool", was ist damit?

Im einfachsten Fall hast du drei physische Platten.
Du hast drei Speicherpools mit je einer Platte.
Du hast drei Volumes auf je einem der Speicherpools.
 

Wenn die SMART-Parameter in Ordnung sind hat die HDD auch den Status "in Ordnung". Richtig?
Welchen Status hat der Speicherpool? Wenn der nur eine Platte beinhaltet, ist der vielleicht auch "in Ordnung".
Der Status des Volumes ist "abgestürzt", schreibst du.

 

Im einfachsten Fall kann ein simpler Reboot helfen.

 

Die Daten auf den anderen Volumes sind - wenn meine Vermutungen zum Setup oben so stimmen - davon überhaupt nicht tangiert.
 

13 hours ago, hokaido said:

Generell: Könnten die Daten auf Vol 2& 3 notfalls auch in einem anderen System ausgelesen werden?

 

Ja.
Bei einem Plattenverbund kann das sehr aufwendig sein.
Wenn es - gemäß Setup-Vermutung oben - einfache Platten sind ist es deutlich einfacher.

 

Aus eigener Erfahrung ist der allersimpelste Weg (wenn das Dateisystem ext4 ist), die Platte an einen Windowsrechner zu hängen und den "Sysinternals Linuxreader" zu verwenden (kostenfrei).
https://www.diskinternals.com/linux-reader/
Da brauchst du dich nicht mit dem Mounten von Partitionen zu befassen.
Damit kann man ganz einfach auf die Platten zugriefen wie auf jede andere Festplatte auch und fertig.

 

Das habe ich als Notfallszenario geübt. Einfacher geht es nicht.

 

Edited by Chili
Link to post
Share on other sites

Ich hatte auch schon einige Male das die Systempartition als korrupt angezeigt wird.

 

Die Systempartionen werden auf ALLEN Platten gespielt, unabhängig vom Speicherpool und Volume.

Solange eine von denen heil ist kann DSM starten und man kann Korrupte ggf. reparieren lassen.

 

Falls es wirklich nur die Systempartitionen sind, kann man das direkt aus dem Speicher-Manager reparieren.

 

 

Edited by haydibe
Link to post
Share on other sites

Abgesehen davon:
Wenn das öfter passiert und immer dieselbe Platte betrifft, dann hilft nur Plattentausch.
Ich hatte das auch mal mit einer WD-Red.
Die SMART-Parameter waren alle in Ordnung, ausgebaut an einem Windowsrechner mit CrystalDisk war auch alles in Ordnung.
Und trotzdem war der Speicherpool und damit das Volume immer wieder agestürzt.
Mutmaßlich hat die Platte bei mir bei einem Start oder dem Aufwachen aus Hibernate einfach für ihren SpinUp einen Moment zu lange gebraucht.
Das ist zwar auch einer der SMART Parameter, der wie gesagt eigentlich in Ordnung war.
Aber da steckt man nicht drin. Wenn die Platte ihren SpinUp selber misst heisst das ja nicht, dass sie vielleicht viel zu spät reagiert und ansprechbar ist.
Der Teufel ist ein Eichhörnchen...

Edited by Chili
Link to post
Share on other sites

So hier mal die Screenshots, es handelt sich um eine WD RED WD30EFRX..

Meine Frage:

Wie bekomme ich das System mit einer neuen Platte wieder auf Volume 1? Einfach alte Platte 1 raus, neue rein? Oder welche Prozedur ist notwendig?

 

Danke

s2.jpg

s1.jpg

s3.jpg

Link to post
Share on other sites

Ah, da ist nicht nur die Systempartition kaputt, sondern das Volume is "gekippt". Mit einem Austausch des Laufwerks bekommt man zwar die Systempartitionen wieder auf die neue gespielt, aber die Daten vom Volume bekomme man so nicht wieder. Wie Chili schon geschrieben hat: am besten die Daten auslesen und kopieren.

 

Die Modellbezeichnung deutet auf eine Platte mit Shingled Magnetic Recording (SMR) hin.

Die sind nicht sonderlich gut für NAS Systeme ausgelegt, siehe: https://www.heise.de/news/NAS-Festplatten-Western-Digital-fuehrt-WD-Red-Plus-fuer-CMR-Garantie-ein-4794455.html

 

Die SMART-Werte sehen für mich okay aus. Ich würde trotzdem einen SMART Langzeittest durchlaufen lassen.

 

Magst Du mal die Ausgabe von `sudo mdadm --detail /dev/md2` pasten (falls die Array Size nicht passt, schau dir auch mal md3, md4 und md5 an).

 

 

 

Edited by haydibe
Link to post
Share on other sites

Da das ein einzelnes Volume ohne RAID ist kannst Du die HDD relativ einfach austauschen. Wenn Du die Daten davon gesichert hast das Volume in DSM entfernen, runterfahren, alte HDD raus, neue HDD rein und booten lassen. DSM muss die Platte dann einmal initialisieren (Systempartitionen erstellen). Danach kannst Du ein neues Volume erstellen.

Link to post
Share on other sites

Ich würde das Volume nicht entfernen und später neu anlegen.
Zumal zwischen der physischen Platte und dem Volume noch die Ebene Speicherpool liegt.
Alte Platte raus, neue Platte rein und dem Speicherpool!! das neue Laufwerk hinzuügen.

Dann sollte der Speicherpool wieder in Ordnung sein.
Und das Volume (was auf dem Speicherpool liegt) damit auch.

Gut, die Nutzdaten sind natürlich weg, das ist klar...

Link to post
Share on other sites
12 hours ago, Chili said:

Die WD30EFAX sind die berüchtigten SMR.
Die WD30EFRX sollten immer CMR sein...

https://pics.computerbase.de/9/2/4/4/8/3-1080.b8d6dea0.jpg

Ohja, steht im Heise Artikel auch so drin. Da war ich unaufmerksam.

 

Meint ihr nicht das man erstmal versuchen sollte das Volume zu retten? Ich halte es nicht für ausgeschlossen, dass man die Platte mit mdadm wieder in das md "reinzwingen" kann.

Im Worst-Case hat man Zeit verloren. Im Best-Case sein Volume wiederbelebt....

 

 

Link to post
Share on other sites

Danke für die Antworten.

 

Die Platte ist auf 2014, ok. Aber sie hatte erst 714 Std auf dem Buckel. Und das NAS ist nur Backupstation. Läuft aso quasi nur on Demand

 

@haydibe:

`sudo mdadm --detail /dev/md2` => hab kein Linux

 

@Chili:

Du sprichst immer von einem Speicherpool. Entweder hab ich Tomaten auf den Augen... Ich kann bei mir nix von Speicherpool finden.

 

 

Link to post
Share on other sites
13 hours ago, hokaido said:

@Chili:

Du sprichst immer von einem Speicherpool. Entweder hab ich Tomaten auf den Augen... Ich kann bei mir nix von Speicherpool finden.

Wenn du den Speichermanager des DSM öffnest, sieht das normal so aus:

speicherpool.thumb.jpg.8d095df2c331b3ee8be7bf6588f27de8.jpg

 

Links im Menü ist die Logik von unten nach oben, also die Abstraktionsebenen:
Es gibt physische Laufwerke (HDD/SSD).
Aus einem oder mehreren phyischen Laufwerken wird ein Speicherpool gebildet.
Auf den Speicherpools werden die Volumes aufgesetzt.

Im einfachsen Fall ist das eine 1:1:1 Beziehung.
Mein Speicherpool 2 z.B. hat nur eine Platte. Und auf Speicherpool 2 gibt es ein einzelnes Volume.

Link to post
Share on other sites
13 hours ago, haydibe said:

Meint ihr nicht das man erstmal versuchen sollte das Volume zu retten? Ich halte es nicht für ausgeschlossen, dass man die Platte mit mdadm wieder in das md "reinzwingen" kann.

Im Worst-Case hat man Zeit verloren. Im Best-Case sein Volume wiederbelebt....

ich hatte tatsächlich mit einer WD30EFRX ein identisches Problem (wie oben schon beschrieben), auch bei mir hatte die Platte ganz wenig Betriebsstunden.

Was ich komkret machen würde:
1. Das Platten-Hibernate ("Ruhezustand") deaktivieren, damit die Platte - wenn sie läuft - auch durchläuft.
2. Neustart
3. Im Fall von XPENology in's Bios gehen und schauen, ob die Platte physisch vorhanden ist.
4. In's DSM booten und im Speichermanager bei den HDD kucken.
Wenn die SMART Parameter in Ordnung sind, könnte die Platte als einwandfrei stehen.
5. Darauf aufbauend Speicherpool und Volume checken.
6. Daten runterziehen.

Dann - wie oben beschrieben - Platte raus.
Speicherpool und Volume stürzen ab.
Neue Platte rein. Die neue Platte dem abgestürzten Speicherpool hinzufügen.

Link to post
Share on other sites

ich habe bisher hier kein ergebnis von cat /proc/mdstat gesehen aber wenn man im jetzigen zustand sichert was geht und dann die herausgefallene platte wieder in das raid zwingt kann man zumindest nichts schlimmer machen, denn die alternative wäre ja das volume (dem daten fehlen) zu löschen

wenn man die platte wieder drin hat (mal vorausgesetzt es gibt mit der platte keine anderen probleme) kann man noch mal sichern und vergleichen ob man mehr raus bekommen hat als vorher, danach würde man halt volume und pool löschen und neu anlegen

aber im moment fehlen hier noch angaben, u.a. habe ich keine bilder vom speicherpool gesehen

Link to post
Share on other sites

So...

Wie in Post 1 geschrieben habe ich KEIN RAID

Bei mir gibst es keinen Speicherpool, siehe Post 6 Screenshot 1

 

Für sudo mdadm --detail /dev/md2 hatte ich noch keine Gelegenheit, die NAS ist aus und steht an einem anderen Ort. Mache ich aber die Tage noch

Link to post
Share on other sites
5 hours ago, hokaido said:

Bei mir gibst es keinen Speicherpool, siehe Post 6 Screenshot 1

das sind die smart informationen

 

5 hours ago, hokaido said:

sudo mdadm --detail /dev/md2

wenn es kein raid gibt gibts auch kein /dev/md2

aber

in dem bild mit der übersicht ist nur bei volume3 zu sehen das es basic disk ist, 1 und 2 haben da nur einen strich, was ja irgendwie anzeigt das es was anderes ist

auf dem letzen bild kann man sehen das es ein SHR Raid volume ist, das ist zwar im ausfall ereignis dann gleich weil es ein shr ohne redundanz ist aber es wird im system (linux) anders angelegt und lauf dem was da als fehlermeldung beim volume1 steht müsste es was im storage pool geben (aka raid gruppeneinstellungen)

ich bin eher für klare verhältnisse und nutze kein shr, da werden mehrere raid sets über mehrere platten angelgt und die dann mit lvm zusammengefügt

ich habe noch nie nachgesehen was eigenltich bei shr mit nur einer disk angelegt wird aber mal kein hypothetisch könnte man ein raid0 mit einer disk anlegen und dann ein lvm volume darauf, dann hat man das erweiterbare grundkonstrukt eines raids das man mit platten erweiter und migrieren kann und ein lvm in dem man den dazu gewonnenen platz hizufügen kann

das wäre gegenüber einer basic disk was völlig anderes, auch wenn es auf den ersten blick beides ein volume mit einer disk ist

ich bin mir ziemlich sicher das es mindestens ein lvm volume ist das es bei basic disk nicht geben wird

 

davon abgesehen sind immer raid's auf den platten im spiel das das dsm system und swap je ein raid1 über alle platten sind, /dev/md0, /dev/md1

mach einfach mal ein

cat /proc/mdstat

und sieh nach was du findest, wenn es nur /dev/md0, /dev/md1 gibt hast du keine eigenen raid's bei deinen volumes, wenn es mehr gibt hast du raid's

 

edit: zusätlich kannst du ja mal nachsehen welche logical volumes es gibt

lvdisplay

und mit

pvdisplay

nachsehen wie die volumes aufgebaut sind

Edited by IG-88
Link to post
Share on other sites

Also anbei nochmal ein Screenshot:

Ich habe definitiv keinen Speicherpool und auch kein RAID. Auch wenn Ihr es gerne so hättet :) Ist leider nicht.

 

Kann ich also unter diesen Voraussetzungen System runterfahren, Platte raus, Platte rein, System an.  => Es wird mir wieder ein Volume 1 erstellt ohne die Daten auf meinen anderen Platten zu killen?

Achja Volume 3 ist ne WD40EFRX von 2018, somit wahrscheinlich auch SMR. Mal schaun, wie lange es die macht.

Kann nach wie vor auf das System zugreifen, aber es dauert ca. 10 min bis ich DSM im Browser aufrufen und mich einloggen kann


Danke

 

 

 

Screenshot 2020-10-14 205026.jpg

Edited by hokaido
Link to post
Share on other sites
1 hour ago, hokaido said:

Ich habe definitiv keinen Speicherpool und auch kein RAID. Auch wenn Ihr es gerne so hättet :) Ist leider nicht.

 

laut deinem screenshot is dein volume1 ein SHR

s3.jpg

und wenn ich auf einer 918+ Test VM (dsm 6.2,) ein SHR mit einer disk anlege endet das in einem raid1 mit einer disk und einem lv über die disk - wie siehts bei dir denn aus wenn du die drei befehle auf der console absetzt?

 

aber prizipiell sollte es keine probleme machen wenn volume/raid-set der betreffenden platte in der webgui gelöscht werden und dann die platte ausgebaut wird, bzw. kann man das ganze nachher wieder neu anlegen

 


cat /proc/mdstat

Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md3 : active raid1 sdc5[0]
      47591488 blocks super 1.2 [1/1] [U]

lvdisplay

  --- Logical volume ---
  LV Path                /dev/vg1000/lv
  LV Name                lv
  VG Name                vg1000
  LV UUID                juWCgw-9UQW-5T2y-alvU-RtkU-M70Z-AeCBIp
  LV Write Access        read/write
  LV Creation host, time ,
  LV Status              available
  # open                 1
  LV Size                45.38 GiB
  Current LE             11618
  Segments               1
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     4096
  Block device           252:0

pvdisplay

  --- Physical volume ---
  PV Name               /dev/md3
  VG Name               vg1000
  PV Size               45.39 GiB / not usable 4.06 MiB
  Allocatable           yes (but full)
  PE Size               4.00 MiB
  Total PE              11618
  Free PE               0
  Allocated PE          11618
  PV UUID               zpQTuJ-US5c-oy3R-0CVh-jLwo-TIgy-pGE5dk

 

Link to post
Share on other sites

Bisher zeigt hokaido eine vehemente Resistenz gegen alle Ratschläge...

Ihm sind die Daten auf dem Volume scheinbar nicht wichtig genug um "so komplizierte Sachen" zu machen oder ordentlich nachzusehen.

 

Man kann niemanden zwingen sich helfen zu lassen ;)

Edited by haydibe
Link to post
Share on other sites
13 hours ago, hokaido said:

Achja Volume 3 ist ne WD40EFRX von 2018, somit wahrscheinlich auch SMR. Mal schaun, wie lange es die macht.

Die WD Red ...EFRX sind CMR, deine auch.
Die WD Red ...EFAX sind SMR.
Ist doch ganz einfach.

Edited by Chili
Link to post
Share on other sites

Ich bin nicht resistent gegen Ratschläge,aber:

Es war dauernd die Rede von Speicherpool und RAID was ich lt. DSM NICHT habe. Ich habe angenommen die Befehle bezogen sich darauf, das festzustellen.

Was aber durch die Screenshots nicht nötig war.

Aber gut. Hier die Ergebnisse (durchgeführt als admin User, einen anderen gibt es nicht, was der nicht darf, darf niemand):

 

/$ cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [raidF                                                                                                                                                             1]
md2 : active raid1 sda5[0](E)
      2925435264 blocks super 1.2 [1/1] [E]

md3 : active raid1 sdb5[0]
      971931264 blocks super 1.2 [1/1] [U]

md4 : active raid1 sdc3[0]
      3902196544 blocks super 1.2 [1/1] [U]

md1 : active raid1 sda2[0] sdb2[1] sdc2[2]
      2097088 blocks [12/3] [UUU_________]

md0 : active raid1 sda1[0] sdb1[1] sdc1[2]
      2490176 blocks [12/3] [UUU_________]

unused devices: <none>

 

----

 

lvdisplay
  --- Logical volume ---
  LV Path                /dev/vg1001/lv
  LV Name                lv
  VG Name                vg1001
  LV UUID                ZCoY7Q-rikX-zMCg-ya8S-yvL3-SPLe-6mzFmZ
  LV Write Access        read/write
  LV Creation host, time ,
  LV Status              available
  # open                 1
  LV Size                926.90 GiB
  Current LE             237287
  Segments               1
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     4096
  Block device           253:1

  --- Logical volume ---
  LV Path                /dev/vg1000/lv
  LV Name                lv
  VG Name                vg1000
  LV UUID                F5rH9R-T1dE-15yM-4Aen-hsiQ-YhIl-wdOtRQ
  LV Write Access        read/write
  LV Creation host, time ,
  LV Status              available
  # open                 1
  LV Size                2.72 TiB
  Current LE             714217
  Segments               1
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     512
  Block device           253:0
 

 

----

pvdisplay
  --- Physical volume ---
  PV Name               /dev/md3
  VG Name               vg1001
  PV Size               926.91 GiB / not usable 3.62 MiB
  Allocatable           yes (but full)
  PE Size               4.00 MiB
  Total PE              237287
  Free PE               0
  Allocated PE          237287
  PV UUID               RyVuZw-xxxx-1kSG-xxxx-aRGn-xxxx-xxxxB

  --- Physical volume ---
  PV Name               /dev/md2
  VG Name               vg1000
  PV Size               2.72 TiB / not usable 2.38 MiB
  Allocatable           yes (but full)
  PE Size               4.00 MiB
  Total PE              714217
  Free PE               0
  Allocated PE          714217
  PV UUID               iB0Ets-xxxx-C1Ka-xxxx-SpJm-xxxx-Bxxxk

 

---

 

sudo mdadm --detail /dev/md2
/dev/md2:
        Version : 1.2
  Creation Time : Sat Aug  1 18:40:49 2015
     Raid Level : raid1
     Array Size : 2925435264 (2789.91 GiB 2995.65 GB)
  Used Dev Size : 2925435264 (2789.91 GiB 2995.65 GB)
   Raid Devices : 1
  Total Devices : 1
    Persistence : Superblock is persistent

    Update Time : Thu Oct 15 21:16:25 2020
          State : clean
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           Name : xxxx:2  (local to host xxxxx)
           UUID : 9be098ea:xxxxxxxxx:xxxxxxxxxxx:8aedd817
         Events : 13

    Number   Major   Minor   RaidDevice State
       0       8        5        0      active sync   /dev/sda5
 

 

Falls ich mich falsch ausgedrückt habe, ich will diese Platte nicht mehr einsetzen. Die fliegt in den Müll. Ich habe eine neue. Diese soll als Volume 1 ihren Dienst tun.

Wie wird mir wieder ein Volume 1 erstellt ohne die Daten auf meinen anderen Platten zu killen?

Danke
 

Link to post
Share on other sites
6 hours ago, hokaido said:

Schade, nachdem keine Antworten kommen,

 

ich habe deine frage schon beantwortet bevor du sie gestellt hast

 

On 10/14/2020 at 11:11 PM, IG-88 said:

aber prizipiell sollte es keine probleme machen wenn volume/raid-set der betreffenden platte in der webgui gelöscht werden und dann die platte ausgebaut wird, bzw. kann man das ganze nachher wieder neu anlegen

 

Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.