Ho dei server SUN FIRE X4170 SERVER con redhat 5.5 kernel 2.6.18-194.el5
Queste macchine hanno un alto uptime (poco meno di due anni) ma ora per attività di manutenzione una alla volta le devo riavviare tutte.
finora è stato un disastro quasi su tutte.
Ne sono rimaste solo due, da riavviare una a pranzo e una a cena, quindi non ho più tentativi (considerando che sono di produzione e il downtime massimo che ci possiamo permettere è un'ora).
Cosa è successo? Presto detto.
Le macchine non si sono riavviate.
Dato il comando "reboot" (via ssh) le macchine non si raggiungevano più anche dopo diversi minuti (non risalivano).
Connessi in console, via ilom in https, veniva una schermata nera, la stessa che compare dopo che il kernel scrive "rebooting.." che però di solito in un pc dura un paio di secondi, 30 al massimo in un server.
Unica soluzione è collegarsi alla ILOM e forzare il power off del sistema (l'equivalente di tenere premuto il pulsante di spegnimento di un pc) e riaccenderlo.
Questa volta quella schermata dura veramente una trentina di secondi e poi la macchina riparte tranquillamente.
Le macchine che abbiamo riavviato ieri non hanno presentato il problema, ma avevano un uptime di soli 270gg.
Quelle odierne (30 maggio) invece (più di 600gg di uptime) hanno presentato questo problema.
Quelle di domani hanno una una 372gg e l'altra 572gg di uptime.
Stesso problema verificatosi con macchine gemelle con altrettanto alto uptime ma non di produzione un paio di mesi fa.
Non essendo di produzione mi sono potuto permettere un reboot in più, e al secondo reboot non c'è stato bisogno di forzare il power off.
Che può essere e soprattutto che posso fare per evitare che non risalgano?
Ho pensato ad un sacco di pure teorie che però fanno acqua da tutte le parti ed entrano nel campo dell'immaginario.
Quì si gioca nel fondo del kernel (in tutti i sensi, soprattutto quello dell'ultima operazione eseguita dal kernel: l'invio del comando di reset della macchina al processore o chissà quale altro componente della macchina).
Una teoria è che dopo tanto tempo per qualche motivo si sia sporcata un po' la memoria a livello di contenuti (per bug?) o a livello elettrico, e il comando di reset non ha resettato il processore (o qualche altra periferica) completamente da zero causando un comportamento non previsto.
cosa ne pensate?
Verso fine giugno c'è un weekend di disservizio programmato e forse (e dico FORSE) potrò riavviare i sistemi. Di sicuro c'è che devo spengere i servizi e smontare i filesystem.



di spiegazione, che parla di impulsi elettrici e instabilità che, se fosse vero, si verificherebbe solo per qualche macchina e non per tutte quante).