仮想専用サーバでハードウェア障害に遭い、最後まで復旧せず。(教訓)

VPSとは言うまでもなく、バーチャル・プライベート・サーバ(仮想専用サーバのことですが、データベースを必要とするサイトに結構何台も使っています。

今回の障害は、比較的大手のサーバ会社のもので、あえて社名は伏せます。
障害そのものは日々発生しているのでしょうが、データがクラッシュして痛い目に遭ったのは初めてでした。

で、本題。

15:00過ぎ、サーバ会社のメンテナンス・障害情報のページに、下記のような緊急メンテナンスのお知らせが・・。

この度ご利用のサーバにおきまして、ハードウェアに関する警告が確認されました。
障害によるデータの消失や長時間のサービス停止を未然に防止するため以下の日程におきまして緊急メンテナンスを実施いたします。

作業日程:2015年03月01日15時30分~2015年03月01日18時30分
作業範囲:VPS SSD 4Gプランの一部
     IPアドレスが下記の範囲のお客様
     ***.***.***.*** ~ ***.***.***.***
作業内容:ハードウェア交換作業

この会社のVPSはIPアドレスは1つしか付与されない(追加不可)のため、IPの数からいって概算50個程度のVPSが対象のようです。

そして16:40頃にサーバがダウン。
メンテナンス作業中だからだろう、18時30分ぐらいには復旧するだろうと楽観視していました。

ところが、18時30分を過ぎても、19時になっても、20時になっても復旧せず。
すると障害情報に下記の追記が。

20:33追記
影響範囲内の一部VPSに関し、動作の確認に時間がかかっております。ご迷惑をお掛けして申し訳ございませんが作業終了まで、もうしばらくお待ちください。

待つしかない身としては、ツライところですが、さらに下記の追記が。

22:33追記
交換作業は 18:50 頃に完了いたしましたが、データの不整合により正しく起動しないVPSが確認されております。
対象VPSのご利用者様には別途メールでのご案内を差し上げます。

おい、マジかよ、と思ってメールの受信BOXを見ると・・・。

ハードウェア交換につきましては 18時30分頃に完了いたしましたが、データの不整合によってお客様ご契約中の***のVPSサービスが正しく起動しないことが判明いたしました。
弊社にて保持している2015年02月17日のバックアップデータから復旧を行うことは可能でございます。
(以下省略)

これが静的なサイトだったり、DBを使っていてもデータ更新のないようなサイトだったらバックアップもあり問題なかったのですが、実は日々エントリーされる情報があるサイトでした。
その(エントリーされる)DBが逝ってしまうのは非常にヤバいわけで、憔悴しました。

その後(夜中の2時頃)、サーバ会社に対し、2月17日のバックアップデータからの復旧をメールで依頼。
さらに朝方、サーバ会社に復旧作業をメールで再度督促。
ただ、昼になってもサーバ会社の復旧作業が終わってないので、怒り心頭でサポートに督促の電話。
サポートの(バックアップデータから復旧する作業はそもそも通常の業務にない作業だから風な)態度にも憤慨しましたが、その後1時間程度で復旧。

その作業後に、関係者が徹夜で再構築した2月17日以降のレコードを投入して、なんとか復活となりました。

しかし、今回のサーバホスティング会社の対応作業には疑問もあります。

そもそもこのサーバ会社の対応は「障害発生」と「メンテナンス」の2つがあります。
障害発生は「障害発生済み>復旧」という流れ。
メンテナンスは「警告確認>データの消失や長時間のサービス停止を未然に防止するためメンテナンスを予告>実施」という段取りです。

今回は「メンテナンス」です。
警告確認=15時頃(?)
作業=15:30から
サーバダウン=16:40頃

つまり作業を開始して1時間経過した時点では、まだクラッシュしていなかったわけです。
なんかおかしいです。
作業開始後も(私のVPSは)1時間は正常稼働してたわけですから、障害がどんどん進んで行って、作業が間に合わなかったとも思えません。
まあ、作業に万一ミスがあったとしてもこの(社名は伏せますが)某サーバ会社も言うはずはないでしょうけれど、最も貴重なデータは”さくら”の花のようにあっけなく散ってしまったわけです。

この逝ってしまったVPSは1年と少し前に契約したもので、古い使い回しとは思えませんが、それでも今回のようなハードウェアメンテナンス作業中に障害が起き、運が悪ければ復旧もできないわけです。そんなことは解っちゃいるけどついつい甘く見てたってコトです。今回のサーバ会社のVPSバックアップも、頻度は隔週なのか月1なのか、あてにならないほど少ないということもわかりました。

結局、今回障害の範囲外だった他のVPSも含めて、レプリケーションとDBダンプ用にもう1台VPSを借りることにしましたが、高い授業料になりました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください