Repository 32bit  Forum
Repository 64bit  Wiki

server che non fanno il reboot

Postate qui per tutte le discussioni legate a Linux in generale.

Moderatore: Staff

Regole del forum
1) Citare sempre la distribuzione usata e la versione della utility coinvolta. Questi dati aiutano le persone che possono rispondere.
2) Per evitare confusione prego inserire in questo forum solo topic che riguardano Gnu/Linux in genere.
3) Leggere attentamente le risposte ricevute
4) Scrivere i messaggi con il colore di default, evitare altri colori.
5) Scrivere in Italiano o in Inglese, se possibile grammaticalmente corretto, evitate stili di scrittura poco chiari, quindi nessuna abbreviazione tipo telegramma o scrittura stile SMS o CHAT.
6) Appena registrati è consigliato presentarsi nel forum dedicato.

La non osservanza delle regole porta a provvedimenti di vari tipo da parte dello staff, in particolare la non osservanza dell'ultima regola porta alla cancellazione del post e alla segnalazione dell'utente. In caso di recidività l'utente rischia il ban temporaneo.

server che non fanno il reboot

Messaggioda ZeroUno » gio mag 31, 2012 0:05

Ho dei server SUN FIRE X4170 SERVER con redhat 5.5 kernel 2.6.18-194.el5

Queste macchine hanno un alto uptime (poco meno di due anni) ma ora per attività di manutenzione una alla volta le devo riavviare tutte.

finora è stato un disastro quasi su tutte.

Ne sono rimaste solo due, da riavviare una a pranzo e una a cena, quindi non ho più tentativi (considerando che sono di produzione e il downtime massimo che ci possiamo permettere è un'ora).

Cosa è successo? Presto detto.

Le macchine non si sono riavviate.

Dato il comando "reboot" (via ssh) le macchine non si raggiungevano più anche dopo diversi minuti (non risalivano).
Connessi in console, via ilom in https, veniva una schermata nera, la stessa che compare dopo che il kernel scrive "rebooting.." che però di solito in un pc dura un paio di secondi, 30 al massimo in un server.
Unica soluzione è collegarsi alla ILOM e forzare il power off del sistema (l'equivalente di tenere premuto il pulsante di spegnimento di un pc) e riaccenderlo.
Questa volta quella schermata dura veramente una trentina di secondi e poi la macchina riparte tranquillamente.
Le macchine che abbiamo riavviato ieri non hanno presentato il problema, ma avevano un uptime di soli 270gg.
Quelle odierne (30 maggio) invece (più di 600gg di uptime) hanno presentato questo problema.
Quelle di domani hanno una una 372gg e l'altra 572gg di uptime.

Stesso problema verificatosi con macchine gemelle con altrettanto alto uptime ma non di produzione un paio di mesi fa.
Non essendo di produzione mi sono potuto permettere un reboot in più, e al secondo reboot non c'è stato bisogno di forzare il power off.

Che può essere e soprattutto che posso fare per evitare che non risalgano?

Ho pensato ad un sacco di pure teorie che però fanno acqua da tutte le parti ed entrano nel campo dell'immaginario.
Quì si gioca nel fondo del kernel (in tutti i sensi, soprattutto quello dell'ultima operazione eseguita dal kernel: l'invio del comando di reset della macchina al processore o chissà quale altro componente della macchina).
Una teoria è che dopo tanto tempo per qualche motivo si sia sporcata un po' la memoria a livello di contenuti (per bug?) o a livello elettrico, e il comando di reset non ha resettato il processore (o qualche altra periferica) completamente da zero causando un comportamento non previsto.

cosa ne pensate?

Verso fine giugno c'è un weekend di disservizio programmato e forse (e dico FORSE) potrò riavviare i sistemi. Di sicuro c'è che devo spengere i servizi e smontare i filesystem.
My packages&files searcher: http://slakfinder.org | My repository for slackware64-current: http://www.z01.eu/repo-slack
Codice: Seleziona tutto
1011010 1100101 1110010 1101111 - 0100000 - 1010101 1101110 1101111
Avatar utente
ZeroUno
Staff
Staff
 
Messaggi: 3773
Iscritto il: ven giu 02, 2006 14:52
Località: Roma / Castelli
Nome Cognome: Matteo Rossini
Slackware: current
Kernel: slack-current
Desktop: slack-current
Distribuzione: 01000000-current

Re: server che non reboottano

Messaggioda ZeroUno » gio mag 31, 2012 13:48

E difatti anche oggi si è verificato lo stesso problema.
My packages&files searcher: http://slakfinder.org | My repository for slackware64-current: http://www.z01.eu/repo-slack
Codice: Seleziona tutto
1011010 1100101 1110010 1101111 - 0100000 - 1010101 1101110 1101111
Avatar utente
ZeroUno
Staff
Staff
 
Messaggi: 3773
Iscritto il: ven giu 02, 2006 14:52
Località: Roma / Castelli
Nome Cognome: Matteo Rossini
Slackware: current
Kernel: slack-current
Desktop: slack-current
Distribuzione: 01000000-current

Re: server che non fanno il reboot

Messaggioda joseph » gio mag 31, 2012 14:39

Ci girano demoni particolari su queste macchine? mi vien da pensare un timeout eccessivo nella chiusura dei processi...ma credo sia poco attendibile come spiegazione...Bisognerebbe fare delle prove ma visto che sono macchine di produzione e che non puoi "fare tentativi" a naso è anche un pò difficile capire il problema! 8)
Avatar utente
joseph
Linux 2.4
Linux 2.4
 
Messaggi: 200
Iscritto il: lun giu 14, 2010 23:50
Località: Salerno
Slackware: 13.37
Kernel: 3.2.9
Desktop: xfce

Re: server che non fanno il reboot

Messaggioda ZeroUno » gio mag 31, 2012 15:43

Non si tratta solo che non posso fare tentativi perchè sono di produzione. Ho anche macchine non di produzione (con cui posso giocare relativamente).
Il "mi restano due tentativi" significa che solo due macchine avevano ormai alto uptime, le altre sono state tutte riavviate ieri e l'altro ieri. E oggi ho riavviato anche le due rimanenti. Il significato di quella frase è che dopo averle riavviate la prima volta, i reboot successivi vanno tutti a buon fine.

Per quanto riguarda il timeout dei processi lo escludo (anche se è sicuramente più attendibile della mia ;-) di spiegazione, che parla di impulsi elettrici e instabilità che, se fosse vero, si verificherebbe solo per qualche macchina e non per tutte quante).
La console ce l'ho e posso vedere quello che fa il sistema. La procedura di shutdown arriva fino in forndo, quando dice rebooting system, poi da (veloci, quindi non ho potuto vedere i dettagli) messaggi sull'ACPI, poi schermata nera.
Ho contato che il tempo corretto che quella schermata deve rimanere nera è di c.a. 75 sec. (come avviene nei reboot successivi).
My packages&files searcher: http://slakfinder.org | My repository for slackware64-current: http://www.z01.eu/repo-slack
Codice: Seleziona tutto
1011010 1100101 1110010 1101111 - 0100000 - 1010101 1101110 1101111
Avatar utente
ZeroUno
Staff
Staff
 
Messaggi: 3773
Iscritto il: ven giu 02, 2006 14:52
Località: Roma / Castelli
Nome Cognome: Matteo Rossini
Slackware: current
Kernel: slack-current
Desktop: slack-current
Distribuzione: 01000000-current

Re: server che non fanno il reboot

Messaggioda ciafo » ven giu 01, 2012 17:31

La butto li. Il problema potrebbe essere che, una volta che il SO ha finito la sua attività, passa il controllo al BIOS attraverso l'IRQ del restart ed il BIOS effettivamente effettua dei controlli prima di spegnersi (o restartarsi).Potrebbe quindi essere che il BIOS trova qualcosa che non va (magari un blocco ram non funzionante perfettamente) e cerca di recuperare l'hardware oppure è solo una gestione errata del PM (power management) che spegne il controllo per il reboot e, quando viene effettuato, lo deve ricaricare.
ciafo
Linux 1.0
Linux 1.0
 
Messaggi: 7
Iscritto il: dom mar 18, 2012 14:56
Località: Milano
Nome Cognome: Fabio Fragnenti Novi
Slackware: 13.37
Kernel: 2.6.37.6
Desktop: KDE 4.5.5

Re: server che non fanno il reboot

Messaggioda ZeroUno » sab giu 02, 2012 1:25

ciafo ha scritto:Potrebbe quindi essere che il BIOS trova qualcosa che non va (magari un blocco ram non funzionante perfettamente)

su 20 macchine?

oppure è solo una gestione errata del PM (power management) che spegne il controllo per il reboot e, quando viene effettuato, lo deve ricaricare.

perchè ai reboot successivi non avviene?
Tra l'altro nella funzione 'reboot', differentemente da 'halt', non dovrebbe essere interpellato il power management.
My packages&files searcher: http://slakfinder.org | My repository for slackware64-current: http://www.z01.eu/repo-slack
Codice: Seleziona tutto
1011010 1100101 1110010 1101111 - 0100000 - 1010101 1101110 1101111
Avatar utente
ZeroUno
Staff
Staff
 
Messaggi: 3773
Iscritto il: ven giu 02, 2006 14:52
Località: Roma / Castelli
Nome Cognome: Matteo Rossini
Slackware: current
Kernel: slack-current
Desktop: slack-current
Distribuzione: 01000000-current


Torna a Gnu/Linux in genere

Chi c’è in linea

Visitano il forum: Nessuno e 4 ospiti