Disk går sönder i NAS

Hur funkar tekniken bakom bra hifi?

Moderator: Redaktörer

Användarvisningsbild
peterh
 
Inlägg: 3482
Blev medlem: 2016-04-15
Ort: Göteborg förstås !

Disk går sönder i NAS

Inläggav peterh » 2022-12-22 20:53

En liten redivisning av driftstörning och dess korrigering i en billig NAS

Bakgrund :
Jag har en NAS i en hp proliant microserver med xigmanas som os.

I dag fick jag ett mail från NAS-en :
This message was generated by the smartd daemon running on:

host name: nynas
DNS domain: hk.ipsec.se

The following warning/error was logged by the smartd daemon:

Device: /dev/ada2, FAILED SMART self-check. BACK UP DATA NOW!

Device info:
Hitachi HUA723020ALA640, S/N:MK0273YGJS164C, WWN:5-000cca-224e6a80a, FW:MK7OAA10, 2.00 TB

For details see host's SYSLOG.


En närmare koll visade att smartctl uppger :
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

( smart är en mjukvara som kan polla diskar och leta efter fel )
ZFS hade inte detekterat något ännu :
# zpool status
pool: pool
state: ONLINE
scan: scrub repaired 0 in 0 days 02:14:55 with 0 errors on Thu Dec 1 03:19:55 2022
config:

NAME STATE READ WRITE CKSUM
pool ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
ada0 ONLINE 0 0 0
ada1 ONLINE 0 0 0
ada2 ONLINE 0 0 0
ada3 ONLINE 0 0 0

errors: No known data errors

( inte konstigt, smart kollar diskarnas egen status, zfs kollar använda diskblock för problem )
Data är alltså fortfarande ok.
Jag letar reda på en 2TB disk, hittade ett par WD green.

För att ersätta disken gör man :
# zpool offline pool ada2
resultatet blir :
# zpool status
pool: pool
state: DEGRADED
status: One or more devices has been taken offline by the administrator.
Sufficient replicas exist for the pool to continue functioning in a
degraded state.
action: Online the device using 'zpool online' or replace the device with
'zpool replace'.
scan: scrub repaired 0 in 0 days 02:14:55 with 0 errors on Thu Dec 1 03:19:55 2022
config:

NAME STATE READ WRITE CKSUM
pool DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ada0 ONLINE 0 0 0
ada1 ONLINE 0 0 0
15101769609551431426 OFFLINE 0 0 0 was /dev/ada2
ada3 ONLINE 0 0 0

errors: No known data errors

Dvs zfs tar den aktuella disken ur drift.

Här stänger jag av NAS-en då diskhållarna inte är gjorda för hotswap.

Efter att monterat ur ada2 kollar jag serienumret med det som smart rapporterat så att jag tar ur rätt disk.
Skruvar in min WD i diskhållaren, monterat disken och startar upp NAS-en

Efter omboot loggar jag in som root och kollar status :
# zpool status
pool: pool
state: DEGRADED
status: One or more devices has been taken offline by the administrator.
Sufficient replicas exist for the pool to continue functioning in a
degraded state.
action: Online the device using 'zpool online' or replace the device with
'zpool replace'.
scan: scrub repaired 0 in 0 days 02:14:55 with 0 errors on Thu Dec 1 03:19:55 2022
config:

NAME STATE READ WRITE CKSUM
pool DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ada0 ONLINE 0 0 0
ada1 ONLINE 0 0 0
15101769609551431426 OFFLINE 0 0 0 was /dev/ada2
ada3 ONLINE 0 0 0

errors: No known data errors

En disk saknas. F.ö. fungerar NAS-en som vanligt, filsystem kan monteras av andra maskiner.

Nu är det dags att koppla in bytesdisken, detgörs med ett zpool kommando :

# zpool replace pool 15101769609551431426 ada2

och resultatet visas med zpoll status:
# zpool status
pool: pool
state: DEGRADED
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Thu Dec 22 11:18:17 2022
67.8G scanned at 3.77G/s, 950M issued at 52.8M/s, 2.33T total
0 resilvered, 0.04% done, 0 days 12:51:01 to go
config:

NAME STATE READ WRITE CKSUM
pool DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ada0 ONLINE 0 0 0
ada1 ONLINE 0 0 0
replacing-2 OFFLINE 0 0 0
15101769609551431426 OFFLINE 0 0 0 was /dev/ada2/old
ada2 ONLINE 0 0 0
ada3 ONLINE 0 0 0

errors: No known data errors

Lite pessimistiskt gissar ZFS att det kommer att ta 12:51:01 att "synca upp" ( eller som zfs säger "resilver" )
Men syncningen har startat. NAS-en fungerar fortfarande normalt.

Några timmar senare kollar jag :
# zpool status
pool: pool
state: ONLINE
scan: resilvered 596G in 0 days 03:48:40 with 0 errors on Thu Dec 22 15:06:57 2022
config:

NAME STATE READ WRITE CKSUM
pool ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
ada0 ONLINE 0 0 0
ada1 ONLINE 0 0 0
ada2 ONLINE 0 0 0
ada3 ONLINE 0 0 0

errors: No known data errors

Dvs allt klart.

xigmanas är en "open source" mjukvara och har allt som behövs redan vid installation, smart zfs etc samt
möjligheten att sända email vid problem. xigmanas kan installeras i allt som liknar en PC-hårdvara och är
inte särskilt krävande. Denna NAS går i en cpu :
CPU: AMD Turion(tm) II Neo N54L Dual-Core Processor (2196.39-MHz K8-class CPU)
och 16GB minne
Som systemdisk använder jag något jag hade över :
Samsung SSD 840 EVO 120GB EXT0BB6Q> ACS-2 ATA SATA 3.x device
samt 4 st 2TB diskar numera blandade fabrikat.

När jag stängde av den hade den varit igång ung. 720 dagar.
Rättning den hade varit igång 896 dagar utan omboot . Nu sitter den på ett UPS vilket förklarar uptime.
Älskar musik, driver numera Tubular-well, välljud med garanti.

Användarvisningsbild
Chris71
 
Inlägg: 794
Blev medlem: 2012-07-15

Re: Disk går sönder i NAS

Inläggav Chris71 » 2022-12-22 22:20

En väldokumenterad berättelse men jag har lite svårt att koppla konsensus, är det tänkt som en bruksanvisning eller finns det något jag missat?

Användarvisningsbild
peterh
 
Inlägg: 3482
Blev medlem: 2016-04-15
Ort: Göteborg förstås !

Re: Disk går sönder i NAS

Inläggav peterh » 2022-12-22 22:28

Chris71 skrev:En väldokumenterad berättelse men jag har lite svårt att koppla konsensus, är det tänkt som en bruksanvisning eller finns det något jag missat?

Nej du har inte missat något.

Det är helt enkelt en berättelse när det går bra, inga dataförluster. Det hela går bra därför att det finns en
aktiv övervekning och agerande innan något data riskeras. En sedelärande berättelse om man så önskar.

Men visst en beskrivning hur man byter en trasig disk om man kör zfs. Med enkla kommandon utan att behöva
hemliga mjukvaror eller propetära hårdvaror.
Älskar musik, driver numera Tubular-well, välljud med garanti.

Användarvisningsbild
idea
 
Inlägg: 771
Blev medlem: 2010-12-14
Ort: Gbg

Re: Disk går sönder i NAS

Inläggav idea » 2022-12-22 23:46

Med en Synology NAS är det mycket enklare. Fick samma meddelande att S.M.A.R.T-analysen visade på ett stigande antal dåliga sektorer och disken behövde bytas. Köpte en ny disk, stängde ner NASen , bytte disk, startade om och NASen började omedelbart att konfigurera och återskapa systemet med hjälp av de kvarvarande diskarna. Tog visserligen ett tag innan den var färdig men det var väntat med en 12 TB-disk.
Lika enkelt var det när jag tidigare bytte upp mig från 6 TB-diskar (även där började det med att en var dålig) till 12 TB, bara att plocka ut diskarna en efter en och vänta tills systemet var återskapat mellan varje disk.
Idea what a great ID

Användarvisningsbild
peterh
 
Inlägg: 3482
Blev medlem: 2016-04-15
Ort: Göteborg förstås !

Re: Disk går sönder i NAS

Inläggav peterh » 2022-12-26 19:32

idea skrev:Med en Synology NAS är det mycket enklare. Fick samma meddelande att S.M.A.R.T-analysen visade på ett stigande antal dåliga sektorer och disken behövde bytas. Köpte en ny disk, stängde ner NASen , bytte disk, startade om och NASen började omedelbart att konfigurera och återskapa systemet med hjälp av de kvarvarande diskarna. Tog visserligen ett tag innan den var färdig men det var väntat med en 12 TB-disk.
Lika enkelt var det när jag tidigare bytte upp mig från 6 TB-diskar (även där började det med att en var dålig) till 12 TB, bara att plocka ut diskarna en efter en och vänta tills systemet var återskapat mellan varje disk.


Det är bara att vara tacksam att det är enklare .

Nu har jag kollat resultatet :
ec 26 09:29:25 nynas 2022-12-26T09:29:25.366578+01:00 nynas.hk.ipsec.se smartd 9880 - - Device: /dev/ada2, previous self-test completed without error


Lärdomen är att om man har en vettig övervakning, alltså inte "install and forget" , så har man mycket goda chanser att
behålla sitt data. Vanligaste sättet är att NAS-en sänder mail till en adress som läses dagligen.
Älskar musik, driver numera Tubular-well, välljud med garanti.

Användarvisningsbild
kimmen
 
Inlägg: 46
Blev medlem: 2008-10-16

Re: Disk går sönder i NAS

Inläggav kimmen » 2023-01-04 19:45

Vad var det för SMART-parameter som den klagade på?

Ena disken i min NAS började rapportera först 8 och sedan 16 st CurrentPendingSector och OfflineUncorrectableSector men blev aldrig värre än så och disken sitter i och kör fortfarande.
Det var nog ca ett år sedan.
Jag kör två 4 TB Ironwolf i den om jag inte minns fel och Ubuntu på ZFS med diskarna speglade.

Maskinen är en HP Proliant N36L Microserver (gen 7).
Förutom den ohyggligt långsamma processorn är det en trevlig maskin.

Jag satte upp den för att skicka mail via SMTP direkt till mottagaren men det är ganska så skakigt om de kommer fram eller inte.
Vilken mailkonfiguration använder du? Har du satt upp att den loggar in med ett mailkonto någonstans och skickar via deras servrar?

Användarvisningsbild
pLudio
 
Inlägg: 2399
Blev medlem: 2003-06-17
Ort: Stockholm

Re: Disk går sönder i NAS

Inläggav pLudio » 2023-01-04 20:19

kimmen skrev:Ena disken i min NAS började rapportera först 8 och sedan 16 st CurrentPendingSector och OfflineUncorrectableSector men blev aldrig värre än så och disken sitter i och kör fortfarande.
Det var nog ca ett år sedan.
Jag kör två 4 TB Ironwolf i den om jag inte minns fel och Ubuntu på ZFS med diskarna speglade.

Skrubba, skrubba...

Några sektorfel kan vara början på att en disk snart kommer att gå sönder, eller så händer inget mer alls. När man skriver över en felaktig sektor så omallokeras den och sektorn är reparerad (ersatt).

Kör shred -vn 1 och smartctl -t long innan ni kasserar diskar.
Caveat auditor. If bass was "faster" it would be "treble."

Användarvisningsbild
peterh
 
Inlägg: 3482
Blev medlem: 2016-04-15
Ort: Göteborg förstås !

Re: Disk går sönder i NAS

Inläggav peterh » 2023-01-04 22:08

kimmen skrev:Vad var det för SMART-parameter som den klagade på?

Ena disken i min NAS började rapportera först 8 och sedan 16 st CurrentPendingSector och OfflineUncorrectableSector men blev aldrig värre än så och disken sitter i och kör fortfarande.
Det var nog ca ett år sedan.
Jag kör två 4 TB Ironwolf i den om jag inte minns fel och Ubuntu på ZFS med diskarna speglade.

Maskinen är en HP Proliant N36L Microserver (gen 7).
Förutom den ohyggligt långsamma processorn är det en trevlig maskin.

Jag satte upp den för att skicka mail via SMTP direkt till mottagaren men det är ganska så skakigt om de kommer fram eller inte.
Vilken mailkonfiguration använder du? Har du satt upp att den loggar in med ett mailkonto någonstans och skickar via deras servrar?

Jag minns inte vilken parameter det var ( currentpendingsector?)
Det mailet jag fick säger allt, se post #1
Nu är diskar tilräckligt billiga för att man kan byta dem vid minsta problem, hellre det än att riskera data. Om
en andra disk börjar strula är risken att rebuild av en disk misslyckas eller stöter på problem. Alltså byt vid
första klagomål ! ( sedan skadar det inte med en backup, fast det kan ta mycket längre tid att återlagra
ett antal TB än att rebuilda en disk.)

Nu kör jag xigmanas ( freebsd i förpackning) med en väldigt enkel metod att skicka mail, det finns dessutom
en funktion i GUI att testa mail ) . Jag skickar mailet till min egen mailserver , där all annnan inkommande mail samlas.

N36 är långsam javisst, men som fileserver speciellt om man kör NFS så bottnar den 1G porten i alla fall för läsning.
Älskar musik, driver numera Tubular-well, välljud med garanti.

Användarvisningsbild
kimmen
 
Inlägg: 46
Blev medlem: 2008-10-16

Re: Disk går sönder i NAS

Inläggav kimmen » 2023-01-06 17:22

Tack tack.

Jag funderar på att installera om den för just nu kör jag också diskkryptering med LUKS (så är det inte så kritiskt vad som händer om man blir av med/slänger diskarna).
På grund av detta blir läsningen väldigt CPU-intensiv och N36 kroknar före nätverksporten - särskilt för skrivning då den skriver till båda diskarna.
Scrubhastigheten blir också CPU-dominerad.

edit: eller egentligen borde jag inte behöva installera om. Att byta ut den suspekta disken till en ny utan att konfigurera kryptering mellan och låta den göra resilver borde räcka.

Användarvisningsbild
peterh
 
Inlägg: 3482
Blev medlem: 2016-04-15
Ort: Göteborg förstås !

Re: Disk går sönder i NAS

Inläggav peterh » 2023-01-06 18:54

kimmen skrev:Tack tack.

Jag funderar på att installera om den för just nu kör jag också diskkryptering med LUKS (så är det inte så kritiskt vad som händer om man blir av med/slänger diskarna).
På grund av detta blir läsningen väldigt CPU-intensiv och N36 kroknar före nätverksporten - särskilt för skrivning då den skriver till båda diskarna.
Scrubhastigheten blir också CPU-dominerad.

edit: eller egentligen borde jag inte behöva installera om. Att byta ut den suspekta disken till en ny utan att konfigurera kryptering mellan och låta den göra resilver borde räcka.

Kryptering och för all del deduplication råder det åsikter om. Dvs avstå. Speciellt om man har ont om cpu. Deduplicering
gör slut på allt minne man har och sedan går det bara utför ( med ZFS ) undvik absolut.
Älskar musik, driver numera Tubular-well, välljud med garanti.


Återgå till Teknikforum


Vilka är online

Användare som besöker denna kategori: Inga registrerade användare och 10 gäster