Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
kernel panic "hardware error machine check exception"
View unanswered posts
View posts from last 24 hours
View posts from last 7 days

 
Reply to topic    Gentoo Forums Forum Index Forum italiano (Italian)
View previous topic :: View next topic  
Author Message
sbranz
n00b
n00b


Joined: 03 Jul 2007
Posts: 69

PostPosted: Fri Dec 21, 2007 1:31 pm    Post subject: kernel panic "hardware error machine check exception&qu Reply with quote

salve ho messo vanilla-source 2.6.24-rc5 ieri, dopo circa 24 ore di uptime il pc è morto restituendo kernel panic in questo modo:

Hardware error
CPU 1: machine check exception

etc.. alcuni numeri e codici che nn ho scritto per la lunghezza...
mi suggerisce alla fine di provare con mcelog --ascii

Ho fatto un emerge mcelog..come devo procedere ora per capire il motivo del crash?

grazie a tutti :P
Back to top
View user's profile Send private message
randomaze
Bodhisattva
Bodhisattva


Joined: 21 Oct 2003
Posts: 9985

PostPosted: Fri Dec 21, 2007 2:18 pm    Post subject: Re: kernel panic "hardware error machine check exceptio Reply with quote

sbranz wrote:
Ho fatto un emerge mcelog..come devo procedere ora per capire il motivo del crash?


Hai fatto emerge quindi é ripartito?
Se si prova a ritornare al kernel di prima e controlla se il problema si ripresenta...
_________________
Ciao da me!
Back to top
View user's profile Send private message
.:deadhead:.
Advocate
Advocate


Joined: 25 Nov 2003
Posts: 2963
Location: Milano, Italy

PostPosted: Fri Dec 21, 2007 2:20 pm    Post subject: Reply with quote

forse il tool aiuta quando hai loggate da qualche parte i log di queste MachineCheckException .

Il dubbio che mi sorge è: non potrebbe essere che si stà friggendo il proc ?
_________________
Proudly member of the Gentoo Documentation Project: the Italian Conspiracy ! ;)


Last edited by .:deadhead:. on Fri Dec 21, 2007 3:50 pm; edited 1 time in total
Back to top
View user's profile Send private message
sbranz
n00b
n00b


Joined: 03 Jul 2007
Posts: 69

PostPosted: Fri Dec 21, 2007 3:26 pm    Post subject: Reply with quote

si il pc riparte tranquillo...ora sto facendo un pacco di test al pc per escludere l'hardware...in pratica ho notato che sul kernel ci sono alcune voci relative al mce features di athlon....etc.etc..dopo i test ricompilo senza quelle voci selezionate...
cmq ho scoperto un altra cosa, quel kernel panic era praticamente un anomalia che il processore ha riscontrato in TSC che penso sia il timercounter qualcosa simile...insomma in poche parole mce abilitato nel kernel fa in modo che il processore comunichi al kernel ogni minimo problema riscontrato con l'hardware e il kernel comunica l'errore e al peggio va in panic quando il problema che gli presenta la cpu non è risolvibile...
cmq che rottura del CAZZO...

ah dimenticavo ho una Asrock AliveNF6-dvi un athlon64 4200+ e il controller della scheda madre è nforce430

io spero che sia riconducibile solamente al fatto che 2.6.24-rc5 ha qualche giorno di vita...perchè senno' la vedo brutta..scheda madre nuova :/
Back to top
View user's profile Send private message
!equilibrium
Bodhisattva
Bodhisattva


Joined: 06 Jun 2004
Posts: 2109
Location: MI/BG/LC

PostPosted: Sat Dec 22, 2007 10:35 am    Post subject: Reply with quote

sbranz wrote:
si il pc riparte tranquillo...ora sto facendo un pacco di test al pc per escludere l'hardware...in pratica ho notato che sul kernel ci sono alcune voci relative al mce features di athlon....etc.etc..dopo i test ricompilo senza quelle voci selezionate...


è meglio se le tieni abilitate, servono appunto a "proteggerti" in caso di problemi gravi di tipo hardware e dove possibile (RAM) a correggere l'errore evitando conseguenze nefaste per tutto il tuo sistema.

sbranz wrote:
cmq ho scoperto un altra cosa, quel kernel panic era praticamente un anomalia che il processore ha riscontrato in TSC che penso sia il timercounter qualcosa simile..


il TSC è un timer ad alta risoluzione, ed essendo una funzione built-in della CPU non può avere "anomalie con la CPU"; è più probabile che il kernel linux per qualche motivo non sia più stato in grado di determinare la sincronizzazione temporale in modo esatto e se hai abilitato il dynticks (NO_HZ) il kernel va in panne (come è giusto che sia visto che non sa più dove pescare un tick, quindi per lui il tempo si è fermato); ciò mi fa dedurre che hai un problema sul system bus della tua MOBO che impedisce il regolare scambio di informazioni tra CPU e il resto delle periferiche.

sbranz wrote:
insomma in poche parole mce abilitato nel kernel fa in modo che il processore comunichi al kernel ogni minimo problema riscontrato con l'hardware e il kernel comunica l'errore e al peggio va in panic quando il problema che gli presenta la cpu non è risolvibile...


tutti gli errori rilevati dalla MCE sono fatali (fatta eccezione per quelli rilevati nella lettura/scrittura di dati corrotti in RAM dove, se possibile, vengono risolti dal kernel) e possono essere risolti soltanto con un soft-reboot; le cpu AMD hanno un sistema di MCE più evoluto rispetto a quello Intel e in alcuni casi specifici (problemi sugli interrupts e la loro latenza) è in grado di risolvere il problema senza freezare il sistema.

sbranz wrote:
cmq che rottura del CA**O...


modera il tuo linguaggio per favore.

sbranz wrote:
io spero che sia riconducibile solamente al fatto che 2.6.24-rc5 ha qualche giorno di vita...perchè senno' la vedo brutta..scheda madre nuova :/


di recente lo stesso Linus ha detto che lo sviluppo del ramo .24 va a rilento perchè non tutti i regression test sul kernel sono stati conclusi, va da se che usare il ramo .24 comporta *sicuramente* problemi di stabilità.
_________________
Arch Tester for Gentoo/FreeBSD
Equilibrium's Universe

all my contents are released under the Creative Commons Licence by-nc-nd 2.5
Back to top
View user's profile Send private message
djinnZ
Advocate
Advocate


Joined: 02 Nov 2006
Posts: 4831
Location: somewhere in L.O.S.

PostPosted: Sat Dec 22, 2007 5:48 pm    Post subject: Reply with quote

se nel bios hai un parametro per contenere le interferenze (spread spectrum o qualcosa del genere) attivalo e verifica il valore di clock dell'hpet, nel caso abbassalo.
Verifica inoltre l'alimentazione (compatibilità UPS/alimentatore, condizioni dell'alimentatore etc.) e tieni conto che le luminarie natalizie possono comportare gravi abbassamenti di tensione ed interferenze.
Vedi anche che tra i friver per RTC a parte il pc cmos base non è che uno vale l'altro, verifica che siano quelli corretti e vedi bene quali driver hai attivato per l'EDAC e se hai una cpu amd vedi che X86_MCE_P4TERMAL deve essere impostato a N.
_________________
scita et risus abundant in ore stultorum sed etiam semper severi insani sunt:wink:
mala tempora currunt...mater stultorum semper pregna est :evil:
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist :wink:
Back to top
View user's profile Send private message
sbranz
n00b
n00b


Joined: 03 Jul 2007
Posts: 69

PostPosted: Thu Jan 03, 2008 2:13 pm    Post subject: Reply with quote

grazie ad equilibrium per la spiegazione esaustiva :P
in effetti anche io ho pensato al bus..essendo poi una asrock, avevo pensato di aggirare il problema cambiando scheda madre. Il problema è che anche sulle asus c'è nforce e siccome il controller MCP61 è supportato e corretto con NCQ dal ramo .24 non risolverei in ogni caso il mio problema. Dovrei forse sperare che esca il .24 stabile.

Per quando riguarda djinnZ ho quella roba dello spread spectrum era gia attivata, anche il resto nel kernel penso sia tutto ok. Non vorrei arrendermi all'idea di buttare la scheda madre ma credo che alla fin fine faro' così... :(

Quote:
è più probabile che il kernel linux per qualche motivo non sia più stato in grado di determinare la sincronizzazione temporale in modo esatto e se hai abilitato il dynticks (NO_HZ) il kernel va in panne


questo NON era attivo sai? ora provo ad attivarlo..anche perche non riesco piu a farlo andare in panico come la prima volta..ora si freeza senza motivo lampeggiano solo le lucette della tastiera, se riuscissi a farlo crashare nuovamente con quell'errore mce magari potrei loggare e cercare meglio la soluzione..

grazie a tutti per l'aiuto ;) vi terrò informati :P
Back to top
View user's profile Send private message
bandreabis
Advocate
Advocate


Joined: 18 Feb 2005
Posts: 2490
Location: イタリアのロディで

PostPosted: Wed Mar 30, 2011 2:15 pm    Post subject: Reply with quote

Bugiardo.
Mica ci hai tenuti informati?
_________________
Il numero di post non fa di me un esperto! Anzi!
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index Forum italiano (Italian) All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum