View previous topic :: View next topic |
Author |
Message |
Chr0nos Apprentice
Joined: 26 Feb 2010 Posts: 205
|
Posted: Fri Dec 05, 2014 11:35 am Post subject: [smart] disque hs ? (Résolu) |
|
|
bonjour,
je rencontre actuelement quelques menus problemes avec l'un de mes disques durs sata sous ma chère gentoo:
les copies de fichier échouent avec une erreur d'entrée/sortie, les logs sont truphées de:
Code: | déc. 05 00:15:21 StarK kernel: ata16: EH complete
déc. 05 00:15:21 StarK kernel: ata16.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
déc. 05 00:15:21 StarK kernel: ata16.00: irq_stat 0x40000001
déc. 05 00:15:21 StarK kernel: ata16.00: failed command: FLUSH CACHE EXT
déc. 05 00:15:21 StarK kernel: ata16.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 3
res 61/04:00:00:00:00/00:00:00:00:00/a0 Emask 0x1 (device error)
déc. 05 00:15:21 StarK kernel: ata16.00: status: { DRDY DF ERR }
déc. 05 00:15:21 StarK kernel: ata16.00: error: { ABRT }
déc. 05 00:15:21 StarK kernel: ata16.00: failed to enable AA (error_mask=0x1)
déc. 05 00:15:21 StarK kernel: ata16.00: failed to enable AA (error_mask=0x1)
déc. 05 00:15:21 StarK kernel: ata16.00: configured for UDMA/133 (device error ignored)
|
voila ce que smartctl me dis:
Code: | StarK adamaru # smartctl /dev/sdc --all
smartctl 6.3 2014-07-26 r3976 [x86_64-linux-3.17.4-gentoo] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green (AF)
Device Model: WDC WD20EARS-00MVWB0
Serial Number: WD-WMAZA1689599
LU WWN Device Id: 5 0014ee 0027f2803
Firmware Version: 51.0AB51
User Capacity: 2 000 398 934 016 bytes [2,00 TB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS (minor revision not indicated)
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Fri Dec 5 00:20:53 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x85) Offline data collection activity
was aborted by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 121) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: (36660) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 354) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 184 184 051 Pre-fail Always - 733
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1133
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1518
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 15
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 22633
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1511
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 448
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 677838
194 Temperature_Celsius 0x0022 112 087 000 Old_age Always - 38
196 Reallocated_Event_Count 0x0032 185 185 000 Old_age Always - 15
197 Current_Pending_Sector 0x0032 196 196 000 Old_age Always - 1450
198 Offline_Uncorrectable 0x0030 200 198 000 Old_age Offline - 41
199 UDMA_CRC_Error_Count 0x0032 200 195 000 Old_age Always - 15
200 Multi_Zone_Error_Rate 0x0008 149 001 000 Old_age Offline - 13627
SMART Error Log Version: 1
ATA Error Count: 262 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 262 occurred at disk power-on lifetime: 22633 hours (943 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 02 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 10 02 00 00 00 a0 08 00:05:29.703 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.699 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 08 00:05:29.699 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 08 00:05:29.698 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.694 IDENTIFY DEVICE
Error 261 occurred at disk power-on lifetime: 22633 hours (943 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 46 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 46 00 00 00 a0 08 00:05:29.699 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 08 00:05:29.698 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.694 IDENTIFY DEVICE
ef 10 02 00 00 00 a0 08 00:05:29.692 SET FEATURES [Enable SATA feature]
Error 260 occurred at disk power-on lifetime: 22633 hours (943 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 02 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 10 02 00 00 00 a0 08 00:05:29.698 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.694 IDENTIFY DEVICE
ef 10 02 00 00 00 a0 08 00:05:29.692 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.688 IDENTIFY DEVICE
Error 259 occurred at disk power-on lifetime: 22633 hours (943 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 02 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 10 02 00 00 00 a0 08 00:05:29.692 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.688 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 08 00:05:29.688 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 08 00:05:29.688 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.684 IDENTIFY DEVICE
Error 258 occurred at disk power-on lifetime: 22633 hours (943 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 46 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 46 00 00 00 a0 08 00:05:29.688 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 08 00:05:29.688 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 08 00:05:29.684 IDENTIFY DEVICE
ef 10 02 00 00 00 a0 08 00:05:29.682 SET FEATURES [Enable SATA feature]
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 90% 22633 1414151984
# 2 Extended offline Completed without error 00% 7088 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
|
du coup je ne sais pas trop quoi faire et surtout si il existe un moyen de pouvoir continuer à utiliser ce disque de 2To, est il possible par exemple de blacklister les blocs defectueux ou un truc du genre ?
un disque qui lache à 22000h c'est quand meme bizard non ?
Last edited by Chr0nos on Sat Dec 06, 2014 6:49 pm; edited 2 times in total |
|
Back to top |
|
|
Leander256 l33t
Joined: 05 Jul 2003 Posts: 910 Location: Singapour
|
Posted: Fri Dec 05, 2014 1:51 pm Post subject: Re: [smart] disque hs ? |
|
|
Chr0nos wrote: | Code: | ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 15
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 677838
196 Reallocated_Event_Count 0x0032 185 185 000 Old_age Always - 15
197 Current_Pending_Sector 0x0032 196 196 000 Old_age Always - 1450
198 Offline_Uncorrectable 0x0030 200 198 000 Old_age Offline - 41
| (c'est plus lisible avec une balise code)
du coup je ne sais pas trop quoi faire et surtout si il existe un moyen de pouvoir continuer à utiliser ce disque de 2To, est il possible par exemple de blacklister les blocs defectueux ou un truc du genre ?
un disque qui lache à 22000h c'est quand meme bizard non ? |
Entre nous, ça sent le sapin. Ce n'est pas tant le nombre d'heures que le "load cycle count", je lis sur wikipedia (anglais) que les WD green sont concųs pour 600 000 cycles et ton disque dur est au-delà. C'est un problème récurrent avec leurs disques durs qui se mettent en veille et parquent les têtes de lecture très (trop) souvent. Les secteurs défectueux ne sont probablement qu'une conséquence de cette usure des moteurs des têtes de lecture. |
|
Back to top |
|
|
El_Goretto Moderator
Joined: 29 May 2004 Posts: 3169 Location: Paris
|
Posted: Sat Dec 06, 2014 9:41 am Post subject: |
|
|
Aaaaah, le fameux LLC sur les WD... C'est une vraie honte.
Pour info, il y a un utilitaire opensource (sys-apps/idle3-tools) qui permet de désactiver cette stupidité sans nom sur les disques WD.
On perd en économe d'énergie (vaguement) mais ça évite un cycle de veille/réveil du disque toutes les 8 secs...
Sur un vieux green première génération (j'ai dû mettre des années avant de me rendre compte du problème... sur d'autres disques dans un NAS avant de voir que c'était généralisé à peu près à tous les WD):
Code: | # idle3ctl -g /dev/sdb
Idle3 timer is disabled
[...]
# smartctl /dev/sdb --all
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green
Device Model: WDC WD10EACS-00ZJB0
[...]
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
[...]
SMART Error Log Version: 1
No Errors Logged
[...]
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 41822 -
# 2 Short offline Completed without error 00% 41817 -
# 3 Short offline Completed without error 00% 41793 -
# 4 Short offline Completed without error 00% 41769 -
# 5 Short offline Completed without error 00% 41745 -
# 6 Short offline Completed without error 00% 41721 -
# 7 Short offline Completed without error 00% 41697 -
# 8 Short offline Completed without error 00% 41673 -
# 9 Extended offline Completed without error 00% 41655 -
#10 Short offline Completed without error 00% 41650 -
#11 Short offline Completed without error 00% 41626 -
#12 Short offline Completed without error 00% 41602 -
#13 Short offline Completed without error 00% 41578 -
#14 Short offline Completed without error 00% 41554 -
#15 Short offline Completed without error 00% 41530 -
#16 Short offline Completed without error 00% 41506 -
#17 Extended offline Completed without error 00% 41487 -
#18 Short offline Completed without error 00% 41482 -
#19 Short offline Completed without error 00% 41458 -
#20 Short offline Completed without error 00% 41434 -
#21 Short offline Completed without error 00% 41410 -
[...]
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 758093 |
Il fonctionne toujours sans erreur SMART, mais dans ton cas, c'est moins heureux. Par contre, tu n'as pas l'air d'avoir lancé de self test du disque (aucune entrée dans ton cas).
Cf Leander256, et surtout, backup tout ce que tu peux etc. _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
|
boozo Advocate
Joined: 01 Jul 2004 Posts: 3193
|
|
Back to top |
|
|
Chr0nos Apprentice
Joined: 26 Feb 2010 Posts: 205
|
Posted: Sat Dec 06, 2014 12:31 pm Post subject: |
|
|
Quote: | Aaaaah, le fameux LLC sur les WD... C'est une vraie honte.
Pour info, il y a un utilitaire opensource (sys-apps/idle3-tools) qui permet de désactiver cette stupidité sans nom sur les disques WD.
On perd en économe d'énergie (vaguement) mais ça évite un cycle de veille/réveil du disque toutes les 8 secs... |
ah je ne savais pas ça, je l'emerge dans plus tarder !
c'est quand meme n'importe quoi ce LLC :/
je vais donc de ca pas enterer ce pauvre hdd, et paix à son âme...
merci pour le tuyeau ^ ca m'évitera de perdre mes autres hdd
edit: j'ai finis d'emerger la chose
mais quand je m'en sers j'ai:
Quote: |
StarK home # idle3ctl -d /dev/sdc
Idle3 timer disabled
Please power cycle your drive off and on for the new setting to be taken into account. A reboot will not be enough!
|
du coup je me suis dis que faire:
Quote: | udisksctl power-off /dev/sdc |
serais suffisant mais que néni: cela ne fonctione que pour les disques durs usb |
|
Back to top |
|
|
xaviermiller Bodhisattva
Joined: 23 Jul 2004 Posts: 8709 Location: ~Brussels - Belgique
|
Posted: Sat Dec 06, 2014 1:31 pm Post subject: |
|
|
et ceci ?
Code: | === START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 176 172 021 Pre-fail Always - 6191
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 379
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 092 092 000 Old_age Always - 6100
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 211
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 21
193 Load_Cycle_Count 0x0032 145 145 000 Old_age Always - 166041
194 Temperature_Celsius 0x0022 125 100 000 Old_age Always - 25
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0 |
_________________ Kind regards,
Xavier Miller |
|
Back to top |
|
|
El_Goretto Moderator
Joined: 29 May 2004 Posts: 3169 Location: Paris
|
Posted: Sat Dec 06, 2014 6:16 pm Post subject: |
|
|
Raah, à chaque fois je me plante, ce n'est pas LLC mais LCC.
L'idée derrière c'est que c'est un comportement aberrant propre aux WD (entrée en veille trop agressive couplés à des accès fréquents sous linux), ce n'est qu'une métrique comme les autres sinon.
Pour détecter que "vous êtes dedans", faîtes le calcul du nombre de LCC (Load_Cycle_Count soit l'attribut 193) divisé par le nombre d' "heures d'uptime" (Power_On_Hours soit l'attribut 9) du disque. Si vous avez un chouette ratio, banco, vous avez gagnez le droit d'utiliser idle3
Exemple de xaviermiller: 166041 / 6100 = 27,21... Soit Un peu moins d'un cycle toutes les 2 mins. Pas bon
(le mien est à un ratio de 18, mais il a mangé sévère pendant ses premières années).
--
edit: le disque de Chr0nos est à 29.94, félicitations, tu as gagné le droit de pleurer
D'ailleurs l'article wikipedia cité par Leander256 tape pile dedans, cf l'attribut LCC 193. _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
|
Chr0nos Apprentice
Joined: 26 Feb 2010 Posts: 205
|
Posted: Sat Dec 06, 2014 6:49 pm Post subject: |
|
|
et bien maintenan je le saurais hein
j'imagine que ça le fais aussi sur les WD green dans des boitiers USB ^
dans le doute je passe aussi avec ca par idle3 sur mes green/black/red (j'ai un peu toutes les couleurs de chez WD xD)
je passe le topic en resolu puisqu'il n'y à plus rien à faire pour mes 2To défunts, merci encore^ |
|
Back to top |
|
|
xaviermiller Bodhisattva
Joined: 23 Jul 2004 Posts: 8709 Location: ~Brussels - Belgique
|
Posted: Sat Dec 06, 2014 7:43 pm Post subject: |
|
|
Ouch ! Je suis en train d'utiliser ce disque pour un NAS
C'est de la récup (fourni avec un nouveau laptop de janvier, que j'ai remplacé par un SSD). Je vais le remplacer illico !
Quelles marques ne posent pas ce souci ?
Et désoler de squatter ce sujet _________________ Kind regards,
Xavier Miller |
|
Back to top |
|
|
Chr0nos Apprentice
Joined: 26 Feb 2010 Posts: 205
|
Posted: Sat Dec 06, 2014 10:57 pm Post subject: |
|
|
squate squate plus on est de fous ^
si j'ai bien compris tu peu juste changer le parametre dans le disque avec idle3 et le remetre dans ton NAS ^ |
|
Back to top |
|
|
El_Goretto Moderator
Joined: 29 May 2004 Posts: 3169 Location: Paris
|
Posted: Sat Dec 06, 2014 11:24 pm Post subject: |
|
|
Ha, mais ils marchent bien, hein pour le reste, faut juste leur faire un coup de idle3 pour désactiver le machin/truc de veille pourri dans leur firmware et après tu peux remettre ces disques dans un NAS ou une machine dépourvue de idle3.
Pour info, Synology utilise déjà idle3 en série dans ses images d'OS, et quand ils détectent un WD, ils l'activent (mais comme pour la méthode manuelle, il faut un redémarrage électrique pour que ce soit actif).
--
edit: j'ai pris tellement de temps pour rédiger mon poste que je me suis fait griller par Chr0nos _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
|
xaviermiller Bodhisattva
Joined: 23 Jul 2004 Posts: 8709 Location: ~Brussels - Belgique
|
Posted: Sun Dec 07, 2014 5:52 pm Post subject: |
|
|
Merci pour le conseil idle3, ça m'a économisé un disque, transféré en un petit restau en famille _________________ Kind regards,
Xavier Miller |
|
Back to top |
|
|
xaviermiller Bodhisattva
Joined: 23 Jul 2004 Posts: 8709 Location: ~Brussels - Belgique
|
Posted: Tue Dec 09, 2014 8:23 am Post subject: |
|
|
C'est résolu chez moi.
Bonne nouvelle, je vois que ce paramètre est persistant _________________ Kind regards,
Xavier Miller |
|
Back to top |
|
|
pti-rem Guru
Joined: 14 Oct 2011 Posts: 472
|
Posted: Sat Dec 13, 2014 7:15 am Post subject: |
|
|
Bonjour,
J'ai des "Load Cycle Count" très élevés pour mes deux ST1000LM024 qui forment le raid1 de mon portable ; https://www.seagate.com/files/staticfiles/support/docs/samsung-ds/100698122c.pdf où il est précisé:
Controlled Ramp Load/Unload 600,000
Code: | gazeau ~ # smartctl /dev/sda --all
smartctl 6.3 2014-07-26 r3976 [x86_64-linux-3.16.5-gentoo] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Seagate Momentus SpinPoint M8 (AF)
Device Model: ST1000LM024 HN-M101MBB
Serial Number: S2RQJ9EBC08170
LU WWN Device Id: 5 0004cf 2069f04c1
Firmware Version: 2AR10001
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 5400 rpm
Form Factor: 2.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 6
SATA Version is: SATA 3.0, 3.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Dec 13 08:09:38 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (13140) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 219) minutes.
SCT capabilities: (0x003f) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 303
2 Throughput_Performance 0x0026 252 252 000 Old_age Always - 0
3 Spin_Up_Time 0x0023 089 089 025 Pre-fail Always - 3459
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1742
5 Reallocated_Sector_Ct 0x0033 252 252 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 252 252 051 Old_age Always - 0
8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 17380
10 Spin_Retry_Count 0x0032 252 252 051 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1538
181 Program_Fail_Cnt_Total 0x0022 100 100 000 Old_age Always - 6300565
191 G-Sense_Error_Rate 0x0022 100 100 000 Old_age Always - 148
192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Always - 0
194 Temperature_Celsius 0x0002 062 051 000 Old_age Always - 38 (Min/Max 14/51)
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 252 252 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 252 252 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Always - 1925
223 Load_Retry_Count 0x0032 092 092 000 Old_age Always - 8455
225 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1236785
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Completed [00% left] (0-65535)
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
Le deuxième présente à quelque chose près les mêmes valeurs. Ce ne sont pas des WD mais des Seagate Momentus 2.5"
idle3 me demande de forcer la commande et j'hésite grave :! Je ne connais pas l'utilité de idle3 pour un ordinateur.
Il y a t'il quelque chose à faire pour ces disques ?
Merci
ps : j'ai un petit clic audible venant d'un disque dur de temps à autre , pas souvent.
Code: | gazeau ~ # idle3ctl -g /dev/sda
The drive /dev/sda does not seem to be a Western Digital Drive but a ST1000LM024 HN-M101MBB
Use the --force option if you know what you're doing
gazeau ~ # idle3ctl --force -g /dev/sda
sg16(VSC_ENABLE) failed: Input/output error
gazeau ~ # idle3ctl --force -g100 /dev/sda
sg16(VSC_ENABLE) failed: Input/output error
gazeau ~ # idle3ctl --force -g103 /dev/sda
sg16(VSC_ENABLE) failed: Input/output error
gazeau ~ # idle3ctl --force -g105 /dev/sda
sg16(VSC_ENABLE) failed: Input/output error |
Code: | gazeau ~ # idle3ctl --force -d /dev/sda
sg16(VSC_ENABLE) failed: Input/output error
gazeau ~ # idle3ctl --force -d /dev/sdb
sg16(VSC_ENABLE) failed: Input/output error
gazeau ~ # idle3ctl --force -d /dev/sdb |
set idle3 timer raw value ne fonctionne pas non plus.
En lisant http://www.thinkwiki.org/wiki/Problem_with_hard_drive_clicking
Je me contente de désactiver l'APM pour le moment.
Code: | gazeau ~ # hdparm -B 255 /dev/sda; hdparm -I /dev/sda | grep Advanced
/dev/sda:
setting Advanced Power Management level to disabled
APM_level = off
Advanced power management level: disabled
Advanced Power Management feature set
gazeau ~ # hdparm -B 255 /dev/sdb; hdparm -I /dev/sdb | grep Advanced
/dev/sdb:
setting Advanced Power Management level to disabled
APM_level = off
Advanced power management level: disabled
Advanced Power Management feature set |
Et du dernier lien, j'ai suivi les instructions pour le Laptop-mode. J'ai aussi désactivé le SUSPEND_TO_RAM du noyau.
édition du 15 décembre : surtout pas de laptop-mode pour mon portable ; il ne doit comporter aucune veille, il fonctionne h24 en basse consommation. J'ai encore l'impression d'entendre des éveils des disques aussitôt après une - tentative ? - de repos. Le bruit est nouveau, comme un démarrage de plateau pas tout à fait arrêté.
http://www.thinkwiki.org/wiki/Problem_with_hard_drive_clicking#Possible_cause_and_speculation
Quote: | Another possible cause is the drive firmware running a low level surface media check periodically during idle time.
It is not known whether the problem is a sign of impending drive failure. The root cause of the problem is not yet known. It is quite likely to be a normal mode of drive operation. The problem is very prevalent. |
En gros, je ne sais pas si je dois envisager de changer mes disques qui datent de juillet 2012 ...
Par prudence, j'ai été remplir un panier d'une paire de Disque dur interne 2.5 pouces HGST Travelstar 7K1000 - SATA III 6 Gb/s - 1 To
Je souhaite simplement que ce problème de LCC ne se produise pas avec ...
En complément, mes deux disques sata avaient un link_power_management_policy (https://www.kernel.org/doc/Documentation/scsi/link_power_management_policy.txt) positionné à 'max_performance' ; somme toute agressif amha. J'ai passé ce paramètre à 'min_power'.
La lecture en français de la page Ubuntu Parcage des têtes de lecture et gestion d'énergie : disques durs en danger ? n'est peut-être pas tout à fait exacte ni complète mais elle a le mérite d'exister et d'apporter un certain nombre d'informations compréhensibles. |
|
Back to top |
|
|
El_Goretto Moderator
Joined: 29 May 2004 Posts: 3169 Location: Paris
|
Posted: Tue Dec 16, 2014 7:42 pm Post subject: |
|
|
Ne pas utiliser idle3 pour autre chose que des disques WD.
Au départ cette histoire de LCC est vraiment spécifique à WD et Linux. Je n'ai pas connaissance d'autres marques ayant les mêmes symptômes.
D'ailleurs, tu vois que le soit-disant LCC de tes disques n'a pas le même n° d'attribut smart que ceux des WD, donc je serais toi, je ne paniquerais pas sur ce point précis, peut être est-ce une autre métrique/façon de compter (mais à confirmer par une recherche plus poussée). _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
|
pti-rem Guru
Joined: 14 Oct 2011 Posts: 472
|
Posted: Wed Dec 17, 2014 5:10 am Post subject: |
|
|
El_Goretto wrote: | D'ailleurs, tu vois que le soit-disant LCC de tes disques n'a pas le même n° d'attribut smart que ceux des WD |
C'est un point assez curieux que je n'avais pas encore précisé ; ce sont les mêmes disques, pour la référence exacte (*) et le sda numérote LCC en 225 comme je l'ai écrit mais le sdb lui le numérote en 193 ;
* une petite différence de référence : ST1000LM024 HN-M 0001 pour sda & ST1000LM024 HN-M 0002 pour sdb
Code: | gazeau ~ # date && smartctl -a /dev/sda | grep -e '^ 9' -e ^225 && smartctl -a /dev/sdb | grep -e '^ 9' -e ^193
mer. déc. 17 06:38:32 CET 2014
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 17464
225 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1247438
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 16458
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1241456 |
Code: | gazeau ~ # date && smartctl -a /dev/sda | grep -e '^ 9' -e ^225 && smartctl -a /dev/sdb | grep -e '^ 9' -e ^193
mer. déc. 17 06:48:30 CET 2014
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 17464
225 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1247460
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 16458
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1241480 |
Avec des ratios de plus de 71 et de plus de 75 (bien dépassés sur les dix minutes) et une paire de "001 001" je le sens pas trop. Sans compter le 600,000 passé du double.
Je n'ai plus le petit clic mais un petit "muump" qui revient souvent. Surtout quand le portable ne sert pas - une impression.
De toute manière, le l'y laisse et qu'il crashe si ça lui chante : je ne sors pas des disques suspects. Et ça m'intéresse de voir ça
Autrement, alors oui, c'est le plus facile pour un ordi d'afficher n'importe quoi
Dans le fond, le noyau (anonymous / dmesg_n73sm-tz124v_3.16.5-gentoo) râle après le bios et je ne crois pas que ce soit pour rien
J'ai lu mon Gist (heureusemenent pour moi )
Code: | [ 8057.637549] ata2.00: exception Emask 0x0 SAct 0x1e00000 SErr 0x40000 action 0x0
[ 8057.637561] ata2.00: irq_stat 0x40000008
[ 8057.637567] ata2: SError: { CommWake }
[ 8057.637574] ata2.00: failed command: READ FPDMA QUEUED
[ 8057.637586] ata2.00: cmd 60/08:a8:f0:0f:c0/00:00:27:00:00/40 tag 21 ncq 4096 in
res 41/40:00:f0:0f:c0/00:00:27:00:00/40 Emask 0x409 (media error) <F>
[ 8057.637592] ata2.00: status: { DRDY ERR }
[ 8057.637597] ata2.00: error: { UNC }
[ 8057.650399] ata2.00: configured for UDMA/133
[ 8057.650409] sd 1:0:0:0: [sdb] Unhandled sense code
[ 8057.650411] sd 1:0:0:0: [sdb]
[ 8057.650412] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 8057.650413] sd 1:0:0:0: [sdb]
[ 8057.650414] Sense Key : Medium Error [current] [descriptor]
[ 8057.650416] Descriptor sense data with sense descriptors (in hex):
[ 8057.650417] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[ 8057.650423] 27 c0 0f f0
[ 8057.650425] sd 1:0:0:0: [sdb]
[ 8057.650427] Add. Sense: Unrecovered read error - auto reallocate failed
[ 8057.650428] sd 1:0:0:0: [sdb] CDB:
[ 8057.650429] Read(10): 28 00 27 c0 0f f0 00 00 08 00
[ 8057.650434] end_request: I/O error, dev sdb, sector 666898416
[ 8057.650436] md/raid1:md2: sdb2: rescheduling sector 624953328
[ 8057.650447] ata2: EH complete
[ 8062.268269] ata2.00: exception Emask 0x0 SAct 0x20 SErr 0x0 action 0x0
[ 8062.268281] ata2.00: irq_stat 0x40000008
[ 8062.268288] ata2.00: failed command: READ FPDMA QUEUED
[ 8062.268301] ata2.00: cmd 60/08:28:f0:0f:c0/00:00:27:00:00/40 tag 5 ncq 4096 in
res 41/40:00:f0:0f:c0/00:00:27:00:00/40 Emask 0x409 (media error) <F>
[ 8062.268307] ata2.00: status: { DRDY ERR }
[ 8062.268311] ata2.00: error: { UNC }
[ 8062.286898] ata2.00: configured for UDMA/133
[ 8062.286933] sd 1:0:0:0: [sdb] Unhandled sense code
[ 8062.286937] sd 1:0:0:0: [sdb]
[ 8062.286940] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 8062.286943] sd 1:0:0:0: [sdb]
[ 8062.286945] Sense Key : Medium Error [current] [descriptor]
[ 8062.286951] Descriptor sense data with sense descriptors (in hex):
[ 8062.286953] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[ 8062.286967] 27 c0 0f f0
[ 8062.286973] sd 1:0:0:0: [sdb]
[ 8062.286976] Add. Sense: Unrecovered read error - auto reallocate failed
[ 8062.286980] sd 1:0:0:0: [sdb] CDB:
[ 8062.286982] Read(10): 28 00 27 c0 0f f0 00 00 08 00
[ 8062.287002] end_request: I/O error, dev sdb, sector 666898416
[ 8062.287024] ata2: EH complete
[ 8062.287548] md/raid1:md2: read error corrected (8 sectors at 624953328 on sdb2)
[ 8062.287573] md/raid1:md2: redirecting sector 624953328 to other mirror: sda2 |
Je crois qu'il est temps de changer ata2 ; Sans trop devoir me tromper
Je n'ai que ça à faire
Je coupe direct
édition du 18 décembre à 11h
J'ai remplacé mes deux Momentus par des Travelstar 7K1000 et en utilisant un autre Momentus neuf au préalable pour sauver mon raid. Ce dernier a pris un millier de LCC en moins de dix heures d'usage pour la reconstruction temporaire avec ata1 (sda) ; Ces Momentus n'étaient pas du tout adaptés pour du 7/24 et de surcroît en max_performance - je dirai même plus : complètement inadaptés à ma bec et j'ai loupé l'occasion de bien les écrabouiller sous garantie, car le petit "clic" se produisait depuis longtemps. Dommage.
Je vois déjà au taux de transfert de la reconstruction du miroir avec le deuxième Travelstar 7K1000 que ces disques sont bien plus performants. Et garantis trois ans, j'aime bien. Et notés 7/24 par le fabricant. Je les laisse en low_power sans hésiter. |
|
Back to top |
|
|
pti-rem Guru
Joined: 14 Oct 2011 Posts: 472
|
Posted: Fri Feb 20, 2015 2:39 pm Post subject: |
|
|
Je réanime un poil le sujet
Avec les deux disques neufs HGST Travelstar 7K1000 des SATA 6Gb/s en 2,5" de 1TB qui forment le raid1 de mon portable Asus n73sm, j'ai adopté une méthode particulière pour qu'ils ne se prennent pas des p.... de "rafales" de LCC
J'ai passé récemment le portable sous systemd et j'ai bien du mal à customiser comme je pouvais le faire un peu sous openrc avec les scripts sous /etc/init.d/
Pour pouvoir déclarer un /sys/class/scsi_host/host[012]/link_power_management_policy à min_power (en comptant aussi mon ssd en place du dvd) j'ai été obligé de passer par une ouverture automatique d'un tty en root (/usr/lib/systemd/system/getty@.service) et d'utiliser son .bashrc ; Autrement, même avec un .start dans /etc/local.d/ je me retrouvais en max_performance dès arrivé sur MATE par Slim.
Également, il me FAUT appliquer un hdparm -B 255 pour les deux disques mécaniques depuis .bashrc encore ; Et là, le compte LCC des disques mécaniques ne bouge plus d'un chouilla.
Le hdparm -i donne "AdvancedPM=yes: mode=0x80 (128) WriteCache=enabled" (128) mais si j'applique un hdparm -B 128 ou autre que 255, c'est les rafales.
Je n'ai pas trouvé autre chose à faire. Prendre des rafales de LCC sur des disques neufs n'est pas à mon goût ; c'est vraiment trop déplaisant. Pas cool ...
Je ne sais même pas encore si les anciens disques que j'avais ne sont que marqués d'une "métrique" ou alors plutôt en fin de vie.
Je ne relance que rarement mon portable et je crois (?) que les LCC doivent avancer un peu dans ce cas.
Je touch un fichier témoin depuis le .bashrc de root pour savoir si la manoeuvre est à faire ou si elle est déjà faite ;
Je ne sais pas comment faire pour que ce fichier témoin soit effacé à l'arrêt ou au redémarrage (demandé depuis MATE ou sous Bash) donc pour le moment je supprime mon fichier témoin à la main - quand j'y pense.
Je ne dois pas du tout utiliser la bonne méthode ; mon contenu .bashrc fait échouer la commande scp par exemple. J'ose même pas penser à le produire ici
édition : je me suis surpris à le remanier bien comme il faut ; Et je me passe de fichier témoin : j'applique systématiquement mes commandes dans le .bashrc
El_Goretto wrote: | Au départ cette histoire de LCC est vraiment spécifique à WD et Linux. Je n'ai pas connaissance d'autres marques ayant les mêmes symptômes. |
Là maintenant je dis mon portable et le Linux qui est dessus avant tout ; preuve par deux disques différents.
Je n'ai pas envie de provoquer des rafales pour les compter ou les évaluer ; j'ai eu trop la frousse avec 1,2M LCC pour les anciens disques - je l'ai encore même - et j'ai pas les moyens ;
J'ai un Journal des LCC (>19/12/14)
Finalement, trois années de galère avec l'Optimus me donnent très forte envie de laisser tomber en OffTopic pour cette machine - pour un 7. La vidéo fait vraiment trop suer, pour parler correct.
Je ne suis pas assez compétent pour gérer l'hybride avec les trois affichages potentiels. |
|
Back to top |
|
|
pti-rem Guru
Joined: 14 Oct 2011 Posts: 472
|
Posted: Mon Feb 23, 2015 3:49 pm Post subject: |
|
|
Est-ce que un bas niveau de chez bas niveau peut mettre les données SMART à zéro ? |
|
Back to top |
|
|
xaviermiller Bodhisattva
Joined: 23 Jul 2004 Posts: 8709 Location: ~Brussels - Belgique
|
Posted: Mon Feb 23, 2015 6:36 pm Post subject: |
|
|
Non, et ce n'est pas une bonne idée, vu que les infos SMART contiennent l'état de santé du disque. Lui faire croire qu'il est en bonne santé alors que certains paramètres sont en pré-alerte n'est pas très sain _________________ Kind regards,
Xavier Miller |
|
Back to top |
|
|
|
|
You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum
|
|