Ma éppen fejtágításon ültem. (Hogyan implementálta holland-francia anyacégünk az ITIL-t és mi változott legutóbb a folyamatkezelő programunkban…) Aztán csörgött a telefon, hogy leállt egy szerver az általunk támogatott egyik kórházban.
– Legalább a lélegeztetőgépek vannak rajta? – kérdeztem vissza.
– Majdnem – jött a tömör válasz – Gyerekosztály, diagnosztikai adatok.
Tartalékszerver, install cédék, irány a kórház. A helyszínen egy elgyötört Oracle szakértő fogadott. Hogy ilyet még nem látott és csak félnapos mentés van. És tényleg, ilyet még én sem láttam. A szerver látszólag működött, de ha bármilyen szervízt álltam neki piszkálni MMC konzolból, hosszas tökölődés után kiírt egy nem túl információgazdag szöveget (’Letelt az idő, kötsög!’) és ennyi. Eventlogban semmi üzenet. Annyit megtudtam,hogy tegnap volt egy áramszünet, a szünetmentes lekapcsolta a gépet, visszakapcsolták és azóta ez van. A szervízként futó Oracle alkalmazás elérhetetlen. Az összes többi szervízzel egyetemben.

Az első körben víruskereső megállít, a registry RUN kulcsa alatt megnéztem, milyen processzek indulnak, ezeket leállítottam, de semmi hatása sem volt. Átfutottam, vannak-e egyáltalán patchek a gépen – voltak. Na jó. Akkor még futok egy kört a neten, ha nincs semmi, akkor SP4 újrarakás, ha az sem segít, akkor gép újrahúzás. (Az ITIL egyik fontos momentuma, hogy incidens esetén amilyen gyorsan csak lehet, vissza kell állítani a szolgáltatást. Ha kell, workaround bedobásával. A probléma okának megkeresése már egy másik, hosszabb folyamat része. Nem is beszélve a kiküszöbölésről.) A dokkerek beletörődtek a fél napos adatvesztésbe, bár nem voltak boldogok.
Szerencsére volt egy event ID-m. Na nem az eventlogban, csak egy üzenőablakban. Irány az eventid.net – és már megint nem érhető el. Gyakorlatilag 1 hónapja áll. Van valakinek infója, mi történhetett a fiúkkal?
Oké, jöhet a Microsoft – pedig nem igazán kedvelem a support oldalt. Szvsz elég béna. Egy értékelhető találatot kaptam, de az is elég indifferensnek tűnt. Azt mondta, hogy ha .net alatt fejlesztettem egy szolgáltatást és rosszul használtam bizonyos függvényeket, akkor annak lehet ilyen üzenet a következménye – de csak annál a szolgáltatásnál. Megoldás: telepítsük a .net sp1-et. Isten látja lelkemet, nem szokásom dotnet alatt szolgáltatásokat fejleszteni. A szerveren sem volt fent még a runtime sem.
Maradt a google. Itt már több találatot kaptam – de ezek is falsnak tűntek. Egy csomó oldal MS programok hibáira utalt. (Úgy látszik, a fiúk is kedvelték rosszul használni azt a függvényt.:) Egyre kedvetlenebbül futottam át a találatokat, a harmadik lap után már ritkán szokott értékelhető infó akadni.
De nem most. Belefutottam egy fórumba, onnan pedig ebbe a linkbe. Bingó – legalábbis annak látszik.
Azt mondja, hogy amennyiben van fent egy APC 6.x verziójú UPC managerprogram, akkor az hajlamos arra, hogy áramkimaradás utáni újraindításkor megbolonduljon és rejtélyes hibákkal szórakoztassa a rendszergazdát. És tényleg – a gépen van egy APC progi és tényleg volt áramkimaradás okozta újraindítás. Sajnos a program verzióját nem tudtam megnézni, mert nevet és jelszót kért – az az ember, meg aki telepítette, már rég elment, meghalt, nemet változtatott és egyáltalán nem is létezett. (Ezt a kórházat nem túl régóta kezeljük, egy csomó gépet – köztük ezt is – igazából még át se vettünk.) De a hozzáállásból sejthető volt, hogy erre egyszer felraktak egy őskori változatot és a kutya sem foglalkozott azzal, hogy azóta az APC kiadott egy kritikus foltot. Azaz jó eséllyel 6.x lehet rajta.
Nosza, safe módban elindít, APC szolgáltatások disabled – és megette. Ez mindenképpen jó jel. Gép újraindít, oracle szolgáltatás megpöcköl – és indul, mint a versenymalac. Oracle szakértő rávetődik, tíz perc múlva boldogan közli, hogy van mentés, el lehet indítani az adatbázist. És tényleg. Minden működik rendesen.
Sikertörténet. József sír.

Ja, és hogy miért lucky? Mert egy farok voltam. Ha nem találom meg a cikket, nyomtam volna rá az SP4-et ész nélkül. Pedig egy safe módban történt újraindítás egyből megmutatta volna, hogy vagy driver vagy service a bűnös.

[Update]
GT szólt, hogy nála megy az eventid.net. Otthonról megnéztem, és tényleg, nekem is ment. Ma délután javult volna meg? És lám, a kisgonosz: a hibaüzenetnél a második találat rögtön meg is mondta a frankót.
Azért ilyenkor derül ki, mennyire megváltozott ez a szakma. Megakadsz, irány az eventid.net, a KB, a Google. Ha azok valamiért nincsenek, csak a szerencse ment meg a nagy szopástól.