17年半勤務した会社を体調不良により退職した元SEのヨシヲです。
「俺の退職記」と称して、私の17年半の会社員生活を振り返ります。
今回は、入社1年目のヨシヲが初めて体験した大規模障害についてです。もらい事故なんですが、そんなことあるんだ〜と思っていただければ。
小規模改修案件の実施
入社1年目の夏頃の話です。あるシステムの小規模改修案件がありまして、私は先輩と一緒に対応をしておりました。小規模の案件ですので、特に問題なく対応を進め、残るは本番移行のみとなりました。
本番移行はデータセンターで実施
当時、自社の事業所とデータセンター間はネットワークで繋がってはいましたが、ISDNで接続されていました。まぁ今から考えれば桁違いに遅いわけです。しかも、当時担当していたお客様はサーバの9割以上がWindows機でした。リモートデスクトップとしてpcAnywhereという製品を使っていました。いかんせん通信速度が遅いので、こちらからマウスを右クリックすると、2秒くらいしてからペロッと右クリックメニューがゆっくり出てきます。たまにサーバ側のプロセスが落ちてしまい接続できないこともありました。
そんな感じなので、本番移行作業は、データセンターに出向いて実施することが多かったです。今回対応した小規模案件も、データセンターにて行うことになりました。
作業完了後の食事中に電話が鳴る
データセンターでの作業は特に難しいことはなかったので、無事に完了しました。隣のラックで別のチームが新システム用のサーバの増設作業をしていましたが、私達にはあまり関係ありません。
私達のチームは、作業も終わったのでデータセンターから出て、帰る前に飯でも食べに行こうということで食事をしていました。食事もほぼ終わりかけのころ、先輩の携帯電話が鳴りました。その電話で、先輩の顔が青ざめていきました。
なんだかよくわからないけど、サーバが次々とダウンしているらしい、、とりあえずデータセンターに戻るぞ!!
新入社員ながら、何やらとんでもないことが起きていることは理解できました。先輩と一緒に急いでデータセンターに戻りました。
さっきまで私達が作業をしていたラックの付近に人がワラワラと集まっていました。どうも、その辺りに設置されているサーバが次々にダウンしていっているらしいのです。なんて恐ろしい・・・
原因はお隣さんの凡ミス
隣のラックでサーバの増設をしているチームがいましたが、そこが原因でした。我々のサーバのラックと隣のラックとで、電源の供給元が同一らしく、そこにサーバを増設したため、電源の供給限界を超えてしまったとか。私自身はアプリケーション側の人間なので、インフラサイドの事はあまり詳しくはないのですが、どんな凡ミスだよと、、
私達のサーバも影響は受けましたが、幸い非稼働日でしたので、被害は最小限で済みました。
いやしかし、普通に考えてありえないですよね。。