Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
[CHIUSO] dmesg: BUG: Bad page state in process kswapd0
View unanswered posts
View posts from last 24 hours
View posts from last 7 days

 
Reply to topic    Gentoo Forums Forum Index Forum italiano (Italian)
View previous topic :: View next topic  
Author Message
funkoolow
Guru
Guru


Joined: 21 Sep 2004
Posts: 545
Location: er paese delle anguille

PostPosted: Thu Nov 20, 2014 7:44 pm    Post subject: [CHIUSO] dmesg: BUG: Bad page state in process kswapd0 Reply with quote

Salve a tutti,
sto notando ora di avere in dmesg un buon numero di messaggi del genere:
Code:
[nov20 20:33] BUG: Bad page state in process kswapd0  pfn:4bcb1
[  +0,000007] page:f7577620 count:0 mapcount:0 mapping:c3865370 index:0x2eb4
[  +0,000003] page flags: 0x80020000(mappedtodisk)
[  +0,000005] page dumped because: non-NULL mapping
[  +0,000002] Modules linked in: fuse iptable_mangle iptable_nat nf_nat_ipv4 nf_nat ipt_REJECT xt_tcpudp nf_conntrack_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack iptable_filter ip_tables x_tables nouveau snd_mpu401 snd_mpu401_uart snd_rawmidi snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm microcode snd_timer snd_seq_device wmi ttm video fbcon bitblit softcursor font snd ohci_pci ohci_hcd soundcore drm_kms_helper ehci_pci ehci_hcd i2c_sis96x sis_agp
[  +0,000057] CPU: 0 PID: 18 Comm: kswapd0 Tainted: G    B         3.16.5-gentoo #1
[  +0,000002] Hardware name: Olidata S.p.A. MS-6567/MS-6567, BIOS Version 07.00T 04/06/02
[  +0,000003]  00000000 f7577620 f6563cc0 c13f9ded f6563ce0 c105fb0a c14d115a f650a9e4
[  +0,000008]  0004bcb1 f7577620 f7577620 00000000 f6563cfc c105fbab 00000001 00000000
[  +0,000007]  f7577620 f6bfe000 80020000 f6563d18 c1060a17 00000000 00000000 f6563d34
[  +0,000008] Call Trace:
[  +0,000015]  [<c13f9ded>] dump_stack+0x16/0x18
[  +0,000007]  [<c105fb0a>] bad_page+0xb0/0xd1
[  +0,000005]  [<c105fbab>] free_pages_prepare+0x80/0xeb
[  +0,000004]  [<c1060a17>] free_hot_cold_page+0x1d/0xc4
[  +0,000004]  [<c1060d3c>] free_hot_cold_page_list+0x25/0x34
[  +0,000005]  [<c1062f4a>] release_pages+0xf5/0x132
[  +0,000005]  [<c10634de>] __pagevec_release+0x1e/0x27
[  +0,000004]  [<c1064057>] invalidate_mapping_pages+0x106/0x11f
[  +0,000007]  [<c108fd1b>] inode_lru_isolate+0x77/0xf2
[  +0,000004]  [<c108fca4>] ? iput+0xca/0xca
[  +0,000007]  [<c106c4b2>] list_lru_walk_node+0x48/0xca
[  +0,000005]  [<c1090072>] prune_icache_sb+0x2a/0x3c
[  +0,000006]  [<c1081772>] super_cache_scan+0xc9/0x110
[  +0,000005]  [<c1064257>] shrink_slab_node+0xf8/0x13b
[  +0,000004]  [<c10645fb>] shrink_slab+0x5a/0xb7
[  +0,000005]  [<c1066464>] kswapd+0x4bd/0x619
[  +0,000005]  [<c1065fa7>] ? try_to_free_pages+0x3dc/0x3dc
[  +0,000007]  [<c10324e1>] kthread+0x9e/0xa3
[  +0,000006]  [<c13fc5c0>] ret_from_kernel_thread+0x20/0x30
[  +0,000004]  [<c1032443>] ? kthread_worker_fn+0xbd/0xbd
[nov20 20:34] BUG: Bad page state in process kswapd0  pfn:4bcb1
[  +0,000008] page:f7577620 count:0 mapcount:0 mapping:c3865370 index:0x2eb4
[  +0,000003] page flags: 0x80020000(mappedtodisk)
[  +0,000005] page dumped because: non-NULL mapping
[  +0,000002] Modules linked in: fuse iptable_mangle iptable_nat nf_nat_ipv4 nf_nat ipt_REJECT xt_tcpudp nf_conntrack_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack iptable_filter ip_tables x_tables nouveau snd_mpu401 snd_mpu401_uart snd_rawmidi snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm microcode snd_timer snd_seq_device wmi ttm video fbcon bitblit softcursor font snd ohci_pci ohci_hcd soundcore drm_kms_helper ehci_pci ehci_hcd i2c_sis96x sis_agp
[  +0,000054] CPU: 0 PID: 18 Comm: kswapd0 Tainted: G    B         3.16.5-gentoo #1
[  +0,000003] Hardware name: Olidata S.p.A. MS-6567/MS-6567, BIOS Version 07.00T 04/06/02
[  +0,000003]  00000000 f7577620 f6563cc0 c13f9ded f6563ce0 c105fb0a c14d115a f650a9e4
[  +0,000008]  0004bcb1 f7577620 f7577620 00000000 f6563cfc c105fbab 00000001 00000000
[  +0,000007]  f7577620 f6bfe000 80020000 f6563d18 c1060a17 00000000 00000000 f6563d34
[  +0,000008] Call Trace:
[  +0,000015]  [<c13f9ded>] dump_stack+0x16/0x18
[  +0,000007]  [<c105fb0a>] bad_page+0xb0/0xd1
[  +0,000005]  [<c105fbab>] free_pages_prepare+0x80/0xeb
[  +0,000004]  [<c1060a17>] free_hot_cold_page+0x1d/0xc4
[  +0,000004]  [<c1060d3c>] free_hot_cold_page_list+0x25/0x34
[  +0,000005]  [<c1062f4a>] release_pages+0xf5/0x132
[  +0,000005]  [<c10634de>] __pagevec_release+0x1e/0x27
[  +0,000004]  [<c1064057>] invalidate_mapping_pages+0x106/0x11f
[  +0,000008]  [<c1224364>] ? radix_tree_lookup+0xc/0xe
[  +0,000006]  [<c10029f1>] ? do_IRQ+0x76/0x89
[  +0,000005]  [<c108fca4>] ? iput+0xca/0xca
[  +0,000006]  [<c13fccac>] ? common_interrupt+0x2c/0x34
[  +0,000004]  [<c108fca4>] ? iput+0xca/0xca
[  +0,000004]  [<c108fd1b>] inode_lru_isolate+0x77/0xf2
[  +0,000003]  [<c108fca4>] ? iput+0xca/0xca
[  +0,000007]  [<c106c4b2>] list_lru_walk_node+0x48/0xca
[  +0,000004]  [<c1090072>] prune_icache_sb+0x2a/0x3c
[  +0,000007]  [<c1081772>] super_cache_scan+0xc9/0x110
[  +0,000005]  [<c1064257>] shrink_slab_node+0xf8/0x13b
[  +0,000004]  [<c10645fb>] shrink_slab+0x5a/0xb7
[  +0,000005]  [<c1066464>] kswapd+0x4bd/0x619
[  +0,000005]  [<c1065fa7>] ? try_to_free_pages+0x3dc/0x3dc
[  +0,000007]  [<c10324e1>] kthread+0x9e/0xa3
[  +0,000005]  [<c13fc5c0>] ret_from_kernel_thread+0x20/0x30
[  +0,000004]  [<c1032443>] ? kthread_worker_fn+0xbd/0xbd
[nov20 20:35] BUG: Bad page state in process kswapd0  pfn:4bcb1
[  +0,000008] page:f7577620 count:0 mapcount:0 mapping:c3865370 index:0x2eb4
[  +0,000002] page flags: 0x80020000(mappedtodisk)
[  +0,000006] page dumped because: non-NULL mapping
[  +0,000001] Modules linked in: fuse iptable_mangle iptable_nat nf_nat_ipv4 nf_nat ipt_REJECT xt_tcpudp nf_conntrack_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack iptable_filter ip_tables x_tables nouveau snd_mpu401 snd_mpu401_uart snd_rawmidi snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm microcode snd_timer snd_seq_device wmi ttm video fbcon bitblit softcursor font snd ohci_pci ohci_hcd soundcore drm_kms_helper ehci_pci ehci_hcd i2c_sis96x sis_agp
[  +0,000057] CPU: 0 PID: 18 Comm: kswapd0 Tainted: G    B         3.16.5-gentoo #1
[  +0,000002] Hardware name: Olidata S.p.A. MS-6567/MS-6567, BIOS Version 07.00T 04/06/02
[  +0,000003]  00000000 f7577620 f6563cc0 c13f9ded f6563ce0 c105fb0a c14d115a f650a9e4
[  +0,000048]  0004bcb1 f7577620 f7577620 00000000 f6563cfc c105fbab 00000001 00000000
[  +0,000007]  f7577620 f6bfe000 80020000 f6563d18 c1060a17 00000000 00000000 f6563d34
[  +0,000008] Call Trace:
[  +0,000015]  [<c13f9ded>] dump_stack+0x16/0x18
[  +0,000007]  [<c105fb0a>] bad_page+0xb0/0xd1
[  +0,000004]  [<c105fbab>] free_pages_prepare+0x80/0xeb
[  +0,000004]  [<c1060a17>] free_hot_cold_page+0x1d/0xc4
[  +0,000005]  [<c1060d3c>] free_hot_cold_page_list+0x25/0x34
[  +0,000004]  [<c1062f4a>] release_pages+0xf5/0x132
[  +0,000005]  [<c10634de>] __pagevec_release+0x1e/0x27
[  +0,000005]  [<c1064057>] invalidate_mapping_pages+0x106/0x11f
[  +0,000007]  [<c108fbce>] ? inode_add_lru+0x2d/0x39
[  +0,000004]  [<c108fc46>] ? iput+0x6c/0xca
[  +0,000004]  [<c108fd1b>] inode_lru_isolate+0x77/0xf2
[  +0,000003]  [<c108fca4>] ? iput+0xca/0xca
[  +0,000006]  [<c106c4b2>] list_lru_walk_node+0x48/0xca
[  +0,000004]  [<c1090072>] prune_icache_sb+0x2a/0x3c
[  +0,000007]  [<c1081772>] super_cache_scan+0xc9/0x110
[  +0,000005]  [<c1064257>] shrink_slab_node+0xf8/0x13b
[  +0,000004]  [<c10645fb>] shrink_slab+0x5a/0xb7
[  +0,000004]  [<c1066464>] kswapd+0x4bd/0x619
[  +0,000006]  [<c1065fa7>] ? try_to_free_pages+0x3dc/0x3dc
[  +0,000006]  [<c10324e1>] kthread+0x9e/0xa3
[  +0,000006]  [<c13fc5c0>] ret_from_kernel_thread+0x20/0x30
[  +0,000005]  [<c1032443>] ? kthread_worker_fn+0xbd/0xbd


possono indicare problemi di disco (visto che mi pare tiri in ballo lo swap?)
grazie a tutti
_________________
SabaziaLUG: il LUG a nord di Roma


Last edited by funkoolow on Mon Dec 01, 2014 12:41 pm; edited 2 times in total
Back to top
View user's profile Send private message
GuN_jAcK
l33t
l33t


Joined: 23 Mar 2005
Posts: 823
Location: Prague, Czech Republic

PostPosted: Fri Nov 21, 2014 1:39 pm    Post subject: Reply with quote

Detta così non saprei cosa consigliarti ma io proverei a procedere nella seguente maniera:


- Proverei a controllare nel kernel se è compilato tutto correttamente, eventualmente proverei ad aggiornare la versione;
- Controllo delle partizioni. Hai la swap attiva?;
- Se pensi che sia il disco prova a fare che con gli SMART tools: #smartctl -l selftest /dev/sda

altro per ora non mi viene in mente...

Fammi sapere :)
_________________
Rispondi in maniera intelligente anche a chi ti tratta stupidamente.
Back to top
View user's profile Send private message
djinnZ
Advocate
Advocate


Joined: 02 Nov 2006
Posts: 4831
Location: somewhere in L.O.S.

PostPosted: Sun Nov 23, 2014 12:08 am    Post subject: Reply with quote

Quanto sopra più ramtest e controllo dei connettori poi prova comunque a scambiare i moduli della RAM e non attivare la swap.
Se il problema si presenta più spesso o meno vuol dire che hanno qualcosa che non va.
Potrebbe benissimo essere l'inverso, il disco funziona ma la copia su ram dal disco fallisce. Di norma se il disco non risponde al momento dello swap il messaggio è un altro (ora non posso controllare ma era la mia croce tanto tempo fa) che al momento non ricordo.
Sembra assurdo ma controlla la batteria tampone (qualla al litio a moneta per l'orologio e la conf del bios). :wink:
_________________
scita et risus abundant in ore stultorum sed etiam semper severi insani sunt:wink:
mala tempora currunt...mater stultorum semper pregna est :evil:
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist :wink:
Back to top
View user's profile Send private message
funkoolow
Guru
Guru


Joined: 21 Sep 2004
Posts: 545
Location: er paese delle anguille

PostPosted: Tue Nov 25, 2014 12:01 pm    Post subject: Reply with quote

ieri mi si era ribloccato con un errore diverso, sembra che l'autonomia sia qualche giorno poi si blocca. Stamattina non mi faceva più loggare, nè in locale terminale o grafica (accettava input ma poi restava freezato) che via ssh (nessun input possibile), ho "risolto" riavviando

riguardo ai suggerimenti, vado con ordine:
Quote:
Proverei a controllare nel kernel se è compilato tutto correttamente, eventualmente proverei ad aggiornare la versione;

Ho la ultima disponibile, compilata partendo dal vecchio make oldconfig e settando le opzioni come raccomandato.
Code:
# uname -a
Linux funkserver 3.16.5-gentoo #1 Sun Nov 16 23:41:10 CET 2014 i686 Intel(R) Pentium(R) 4 CPU 2.20GHz GenuineIntel GNU/Linux

come posso controllare se è tutto compilato correttamente in maniera "misurabile"?
Quote:
Controllo delle partizioni. Hai la swap attiva?;

si, ma ora l'ho commentata in /etc/fstab e proverò il riavvio
Quote:
Se pensi che sia il disco prova a fare che con gli SMART tools: #smartctl -l selftest /dev/sda

questo il selftest:
Code:
# smartctl -l selftest /dev/hda
smartctl 6.3 2014-07-26 r3976 [i686-linux-3.16.5-gentoo] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     37553         -
# 2  Short offline       Completed without error       00%     37523         -
# 3  Short offline       Completed without error       00%     37499         -
# 4  Short offline       Completed without error       00%     37475         -
# 5  Short offline       Completed without error       00%     37451         -
# 6  Short offline       Completed without error       00%     37427         -
# 7  Short offline       Completed without error       00%     37405         -
# 8  Short offline       Completed without error       00%     37379         -
# 9  Short offline       Completed without error       00%     37332         -
#10  Short offline       Completed without error       00%     37308         -
#11  Short offline       Completed without error       00%     37284         -
#12  Short offline       Completed without error       00%     37260         -
#13  Short offline       Completed without error       00%     37236         -
#14  Short offline       Completed without error       00%     37212         -
#15  Short offline       Completed without error       00%     37188         -
#16  Short offline       Completed without error       00%     37164         -
#17  Short offline       Completed without error       00%     37140         -
#18  Short offline       Completed without error       00%     37116         -
#19  Short offline       Completed without error       00%     37084         -
#20  Short offline       Completed without error       00%     37059         -
#21  Short offline       Completed without error       00%     37035         -


e questo il più esteso output di smartctl -a
Code:
# smartctl -a /dev/hda
smartctl 6.3 2014-07-26 r3976 [i686-linux-3.16.5-gentoo] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Blue EIDE
Device Model:     WDC WD3200AAJB-00J3A0
Serial Number:    WD-WCAV20337314
LU WWN Device Id: 5 0014ee 156db0822
Firmware Version: 01.03E01
User Capacity:    320,072,933,376 bytes [320 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
Local Time is:    Tue Nov 25 12:52:46 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x85) Offline data collection activity
                                        was aborted by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                ( 6180) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  75) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       4765
  3 Spin_Up_Time            0x0027   135   127   021    Pre-fail  Always       -       4241
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       626
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   049   049   000    Old_age   Always       -       37555
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       624
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       165
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       626
194 Temperature_Celsius     0x0022   108   091   000    Old_age   Always       -       35
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     37553         -
# 2  Short offline       Completed without error       00%     37523         -
# 3  Short offline       Completed without error       00%     37499         -
# 4  Short offline       Completed without error       00%     37475         -
# 5  Short offline       Completed without error       00%     37451         -
# 6  Short offline       Completed without error       00%     37427         -
# 7  Short offline       Completed without error       00%     37405         -
# 8  Short offline       Completed without error       00%     37379         -
# 9  Short offline       Completed without error       00%     37332         -
#10  Short offline       Completed without error       00%     37308         -
#11  Short offline       Completed without error       00%     37284         -
#12  Short offline       Completed without error       00%     37260         -
#13  Short offline       Completed without error       00%     37236         -
#14  Short offline       Completed without error       00%     37212         -
#15  Short offline       Completed without error       00%     37188         -
#16  Short offline       Completed without error       00%     37164         -
#17  Short offline       Completed without error       00%     37140         -
#18  Short offline       Completed without error       00%     37116         -
#19  Short offline       Completed without error       00%     37084         -
#20  Short offline       Completed without error       00%     37059         -
#21  Short offline       Completed without error       00%     37035         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


non so interpretare molto bene le varie voci ma mi sembra ci sia niente di grave... o no?

Quote:
Quanto sopra più ramtest e controllo dei connettori poi prova comunque a scambiare i moduli della RAM e non attivare la swap.

esito di un intero passaggio di ramtest negativo. La disattivazione dello swap procedo al prossimo riavvio

Quote:
Sembra assurdo ma controlla la batteria tampone (qualla al litio a moneta per l'orologio e la conf del bios)

questa anche la tengo in sospeso in caso di ulteriore blocco, approfittando per scambiare le posizioni delle ram per scrupolo

per ora grazie a entrambi per i suggerimenti
_________________
SabaziaLUG: il LUG a nord di Roma
Back to top
View user's profile Send private message
djinnZ
Advocate
Advocate


Joined: 02 Nov 2006
Posts: 4831
Location: somewhere in L.O.S.

PostPosted: Wed Nov 26, 2014 11:53 am    Post subject: Reply with quote

Punto primo il problema è proprio il make oldconfig, possibile che sfugga qualcosa.
kenrnel ultimo stabile ovviamente.
Un banale trucco potrebbe essere aprire due terminali, nel primo avvii make menuconfig e te lo tieni per vedere cosa hai attivato e cosa no, nel secondo dopo lanci make mrproper ; make menuconfig ( o genekrnel --menuconfig --no-oldconfig --mrproper --clean ).
Prima di compilare l'immagine fai una bella pulizia in /lib/moduels e se hai moduli esterni ricompilali.
Possibile che l'errore sia generato da un modulo o da una opzione "nuova" nella gestione della memoria che l'oldconfig non consente di gestire correttamente.
Rivedi con estrema attenzione le opzioni per memoria, debug e sicurezza. Non limitarti al default.

Possibile che le ram siano vicine alla cottura e quindi dopo un poco in funzione iniziano ad accumulare errori. O che la batteria al litio andata gli crea problemi.
ma altrettanto possibile che un modulo sballato o delle impostazioni in conflitto generino l'errore.

Prova anche un emerge -1B su gcc e libc.
_________________
scita et risus abundant in ore stultorum sed etiam semper severi insani sunt:wink:
mala tempora currunt...mater stultorum semper pregna est :evil:
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist :wink:
Back to top
View user's profile Send private message
funkoolow
Guru
Guru


Joined: 21 Sep 2004
Posts: 545
Location: er paese delle anguille

PostPosted: Wed Nov 26, 2014 6:52 pm    Post subject: Reply with quote

ti ringrazio, intanto posso escludere che il problema sia legato in qualche modo allo swap perchè stamattina l'ho ritrovato inchiodato dopo aver riavviato con la relativa voce in fstab commentata.

prima di ricompilare tutto, voglio vedere che succede ad avviare un kernel precedente, ora sono up con il 3.12.21-r1 anzichè il 3.16.5 (cmq stabile in portage), se dovesse reinchiodarsi procederò come mi suggerivi e ci si risente per il mese prossimo, giusto il tempo di ricompilare tutto :D

nell'attesa grazie come sempre dei preziosi suggerimenti
_________________
SabaziaLUG: il LUG a nord di Roma
Back to top
View user's profile Send private message
xdarma
l33t
l33t


Joined: 08 Dec 2003
Posts: 682
Location: tra veneto e friuli (italy)

PostPosted: Wed Nov 26, 2014 8:31 pm    Post subject: Reply with quote

funkoolow wrote:

Code:

  3 Spin_Up_Time            0x0027   135   127   021    Pre-fail  Always       -       4241
...
  9 Power_On_Hours          0x0032   049   049   000    Old_age   Always       -       37555


Il primo valore mi sembra troppo alto rispetto alla soglia per NON pensare che il motore abbia qualche problema.
Il secondo valore mi sembra troppo alto per NON pensare che potrebbe essere ora di cambiarlo.
Ha accumulato oltre 4 anni di lavoro continuativo. Per un disco consumer mi sembra troppo al di sopra dei due anni di garanzia obbligatoria ;-)

IMO, fai un bel backup prima di stressare ultriormente la meccanica.
_________________
proud user of faKeDE-4.7.3
Back to top
View user's profile Send private message
djinnZ
Advocate
Advocate


Joined: 02 Nov 2006
Posts: 4831
Location: somewhere in L.O.S.

PostPosted: Thu Nov 27, 2014 6:02 pm    Post subject: Reply with quote

xdarma wrote:
Il secondo valore mi sembra troppo alto per NON pensare che potrebbe essere ora di cambiarlo.
Dissento aspramente da tale affermazione.
L'MTBF medio dei dischi "moderni è tra le 100'000 e le 200'000 ore per la roba da megastore (che in genere è più problematica delle serie "consumer" o destinate a fasce più professionali)
Non fare l'errore di confondere la garanzia in sostituzione con l'MTBF.
La garanzia è l'impegno contrattuale alla riparazione od alla sostituzione con identico dispositivo (quindi non può andare oltre un paio d'anni con il ritmo attuale). Di norma è posto ad almeno un quarto della durata prevista.

E la mortalità infantile, nella mia esperienza, non va oltre le 3000 ore di funzionamento.

Il primo sarebbe molto indicativo laddove l'errore capitasse alla riattivazione da swap, in avvio o quando il disco va in pausa... ma l'errore dovrebbe essere un kernel panic per memory fault (non riesco a ricordare il messaggio esatto) e dovresti avere errori di I/O che invece pare non ci siano. Per questo mantengo un moderato scetticismo.

Sempre solo per discutere e confrontare e esperienze e competenza, non per polemizzare o dare lezioni.
_________________
scita et risus abundant in ore stultorum sed etiam semper severi insani sunt:wink:
mala tempora currunt...mater stultorum semper pregna est :evil:
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist :wink:
Back to top
View user's profile Send private message
xdarma
l33t
l33t


Joined: 08 Dec 2003
Posts: 682
Location: tra veneto e friuli (italy)

PostPosted: Fri Nov 28, 2014 8:36 pm    Post subject: Reply with quote

djinnZ wrote:

Non fare l'errore di confondere la garanzia in sostituzione con l'MTBF.
La garanzia è l'impegno contrattuale alla riparazione od alla sostituzione con identico dispositivo (quindi non può andare oltre un paio d'anni con il ritmo attuale). Di norma è posto ad almeno un quarto della durata prevista.

Quale errore? Hanno preso i soldi e la garanzia è scaduta: secondo me è un miracolo che funzioni ancora ;-)
Probabilmente si è impallato il timer dell'autodistruzione :-D

[OT]
Ma quello "attempato" e "disilluso" non eri tu?
:-P
[/OT]

Quote:

Il primo sarebbe molto indicativo laddove l'errore capitasse alla riattivazione da swap, in avvio o quando il disco va in pausa... ma l'errore dovrebbe essere un kernel panic per memory fault (non riesco a ricordare il messaggio esatto) e dovresti avere errori di I/O che invece pare non ci siano. Per questo mantengo un moderato scetticismo.

Sempre solo per discutere e confrontare e esperienze e competenza, non per polemizzare o dare lezioni.

Non mi passa neanche per l'anticamera del cervello di dare lezioni a nessuno e su nessun argomento.

Personalmente non mi fido al 100% dei report smart. Soprattutto perché non tutte le rotture vengo preannunciate da smart.

A mio modo di vedere, il valore di gran lunga più preoccupante è l'età.

Sicuramente può durare ancora, ma non ci metterei la mano sul fuoco e comincerei a ragionare su come sopravvivere alla rottura.

Sapere che hai perso dati per il motore o per settori danneggiati non cambia molto: dovevi pensarci prima.

E una copia di backup in più non ha mai ammazzato nessuno ;-)
_________________
proud user of faKeDE-4.7.3
Back to top
View user's profile Send private message
djinnZ
Advocate
Advocate


Joined: 02 Nov 2006
Posts: 4831
Location: somewhere in L.O.S.

PostPosted: Sat Nov 29, 2014 10:01 am    Post subject: Reply with quote

La faccenda è divertente. Dato che la garanzia obbliga alla sostituzione è stato scelto un valore per cui è "matematicamente" certo che nessun HD si pianterà prima della scadenza o, se lo fa, se si scassa, lo dovrà fare prima che i magazzini siano vuoti.
Poniamo il caso che compri un HD pata con garanzia 5 anni ma nel frattempo smettono di produrli ed in due anni finiscono le scorte. Lasciamo perdere che dovresti far causa e che ti costa di bolli più di un nuovo pc. Teoricamente se non sono in grado di fornirti la sostituzione devono comprarti il pc nuovo che possa utilizzare gli hd sata.
Quindi per evitare rogne si sono organizzati.
Secondo te è un caso od un mero abuso che la garanzia per gli acquirenti con partita iva sia ad un anno invece che due? Tutto calcolato.
In attesa che un imbecille avanzo di sagrestia metta in finanziaria una norma contorta che li liberi da quest'obbligo o che lo imponga il WTO a seguito di una farraginosa istruttoria segreta.
Allora attaccheranno a fare HD che durino giusto 2 anni invece dei dieci/quindici attuali.
E comunque, come dimostrato dai report di google a suo tempo il timer di funzionamento non è un valore indicativo, sarebbe più utile sapere anche quante volte è stato riavviato, dal confronto di questi due valori si potrebbe avere una indicazione più affidabile.
Per questo sono scettico quanto è più di te sulla capacità di predire i guasti da parte del sistema smart.

Ritornando sul problema specifico non mi sembrano indicazioni correlate anche se il valore del motore, ora che mi ci hai fatto riflettere, potrebbe indicare anche una instabilità di voltaggio sulla 12V indizio che l'alimentatore (nella mia esperienza sono quelli il vero punto debole, con tempo degradano, non so perchè e sarebbe bello saperlo) potrebbe essere compromesso.

Stando agli errori mi pare un problema di corruzione sulla ram.

E gongolo troppo sul fatto che stavolta non sono io a fare il menagramo... :twisted: :twisted: :twisted:
_________________
scita et risus abundant in ore stultorum sed etiam semper severi insani sunt:wink:
mala tempora currunt...mater stultorum semper pregna est :evil:
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist :wink:
Back to top
View user's profile Send private message
funkoolow
Guru
Guru


Joined: 21 Sep 2004
Posts: 545
Location: er paese delle anguille

PostPosted: Sun Nov 30, 2014 1:32 am    Post subject: Reply with quote

Signori, dopo l'ennesimo blocco e conseguente riavvio, mercoledì l'intera macchina ha definitivamente stramazzato senza più volerne sapere di riaccendersi. Avendo urgenza di ritirare su il sistema, ho installato dischi e ram su una macchina alternativa con mobo e alimentatore di recupero: dopo diversi giorni senza alcuna delle precedenti segnalazioni, mi azzardo a credere che ad essere cotta fosse proprio la coppia scheda madre e/o procesore (che erano cmq avanzi di iniziative trashware promosse dal lug locale nel 2011) o al massimo l'alimentatore (idem).

Per ulteriore scrupolo, non appena rimessa in sesto la macchina, ho sia ricontrollato la ram con memtest per una notte (8 passaggi con zero errori segnalati) che predisposto un backup su disco nuovo di fabbrica.

Grazie cmq a tutti per i suggerimenti e l'interessamento, per ora taggherei risolto confidando nell'affidabilità del nuovo hardware :)
Saluti a tutti
_________________
SabaziaLUG: il LUG a nord di Roma
Back to top
View user's profile Send private message
djinnZ
Advocate
Advocate


Joined: 02 Nov 2006
Posts: 4831
Location: somewhere in L.O.S.

PostPosted: Mon Dec 01, 2014 11:39 am    Post subject: Reply with quote

@xdarma: :mrgreen: visto? ... ma :evil: mi sa che mi hai fregato... e sono finito io ancora una volta a fare il menagramo... :evil:

@funkoolow: prima cosa [risolto] un beneamato ... [chiuso] e correggi. Visto che la diagnosi non è definitiva e non chiarisce nulla e non hai risolto. Hai messo su una nuova macchina.
Visto lo stato delle cose, dopo un 2/3000 ore di funzionamento del nuovo, continuerei ad usare il vecchio HD per il solo sistema fino a distruzione, lasciando l'altro disco staccato. Quando passa a miglior vita rimpiazzi.
Un disco nuovo non aumenta l'affidabilità, un disco seminuovo, testato, si.
_________________
scita et risus abundant in ore stultorum sed etiam semper severi insani sunt:wink:
mala tempora currunt...mater stultorum semper pregna est :evil:
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist :wink:
Back to top
View user's profile Send private message
funkoolow
Guru
Guru


Joined: 21 Sep 2004
Posts: 545
Location: er paese delle anguille

PostPosted: Mon Dec 01, 2014 12:40 pm    Post subject: Reply with quote

ho messo [risolto] avendo identificato come causa dei blocchi un difetto hardware sulla scheda madre (una volta sostituita i problemi sono spariti, il resto è rimasto invariato).

Purtroppo non posso fare ulteriori test perchè la mobo non dà più segni di vita, ma visto che per casi del genere mi pare di capire sia meglio taggare [chiuso], modifico come richiesto.

grazie cmq a tutti per i consigli, un saluto :)
_________________
SabaziaLUG: il LUG a nord di Roma
Back to top
View user's profile Send private message
bandreabis
Advocate
Advocate


Joined: 18 Feb 2005
Posts: 2410
Location: イタリアのロディで

PostPosted: Tue Dec 02, 2014 7:58 am    Post subject: Reply with quote

Anche @djinnZ

Piccolo OT a proposito di HD ed età.
Ho un notebook di 7 anni. Un giorno di 3 o 4 anni fa ho deciso di cambiare HD per avere più spazio.
Ho acquistato un bellissimo 160GB IDE, ci ho copiato la vecchia installazione di Gentoo (c'è ancora il thread con le mie perplessità sul metodo di questa operazione) e mi sono goduto il mio nuovo disco... per meno di un anno!!! Nessun errore preventivo, solo un TAC e un sistema in panico.
Ho rimesso il vecchio disco di 4 anni e sono giunto al settimo.

Mi sto portando sfiga? Mi sa. OK, stasera backup!
Back to top
View user's profile Send private message
djinnZ
Advocate
Advocate


Joined: 02 Nov 2006
Posts: 4831
Location: somewhere in L.O.S.

PostPosted: Tue Dec 02, 2014 1:45 pm    Post subject: Reply with quote

Premesso che avevo il tuo medesimo laptop, distrutto da un "tecnico" imbecille in mia assenza, e so che quell'HD PATA a 7000 rpm era decisamente costoso e di difficile reperibilità, decisamente pregiato per un laptop a basso costo (e non direi visto che tanto male non era, ma i bimbiminkia dei "giornalisti" si soffermano su dettagli essenziali quali la cover in lega piuttosto che plastica e l'eleganza del logo sulla stessa).
Ho due HD SCSI da 400Mb che contano la bellezza di 34 anni di età ed ho (da qualche parte) un HD PATA che è durato la bellezza di una ventina di ore.
Dato che nella mia città non è possibile reperire venditori seri sono anni che mi rivolgo direttamente ad un grossista e, all'indomani dell'ennesima verifica per sostituzione, facendo quattro chiacchiere, mi ha fatto notare che mai gli è stato riportato un HD oltre due mesi dall'acquisto.

In realtà, per fare un esempio, supponendo di avere tre dischi di cui due in raid ed uno di sistema, converrebbe avere il più nuovo come unità di sistema (quindi facilmente rimpiazzabile) e metterlo al posto del disco più vecchio del raid solo superate le 3/4000 ore di funzionamento. Considerando che sono dell'idea che avere due dischi in raid della stessa età e lotto di produzione non è bene, tenderanno a degradare negli stessi tempi.
_________________
scita et risus abundant in ore stultorum sed etiam semper severi insani sunt:wink:
mala tempora currunt...mater stultorum semper pregna est :evil:
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist :wink:
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index Forum italiano (Italian) All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum