そのうちスラド入りするだろうけど、一応メモ

気象データ配信システムの障害について
http://www.jmbsc.or.jp/

障害発生時には、2台構成のサーバーのうち2系が稼働系、1系が待機系で運用して
いたところ、2系のサーバーのメインボード(CPU 搭載ボード)にハードウェア障害が
発生しました。本来ならば待機系(1系)に自動切り替えの処置が行われるべきでした
が、システム共通情報を格納しているファイルが何らかの理由で壊れ、システムの起動
ができなくなりました。その後、いくつかの壊れているファイルを修復した結果、正常
にシステム構成でき、業務処理ソフトウェの起動が可能となりました。

システムの二重化してたけど、共有部分がボトルネックとなって結局切替がうまくいきませんでしたよといういつものアレ。


システムの障害対策は、コストと故障の発生確率の兼ね合いだろうけど、このあたり障害事象や対策が広く共有されるといいな。
これで飯食ってる人がいるから難しいとは思うけど