サーバー障害発生時の対処
サーバー障害は本質的・大局的な捉え方と正確な状況判断、そして迅速な対処が生命線
- 認識:障害の現実的・客観的な状況の把握
- サーバー障害は本当に発生したのか?
- どの様に発生したのか?
- 理解:障害の本質的・根本的な原因の究明
- サーバー障害は何故発生したのか?
- 何が原因だったのか?
- 過去の先入観や他人の主観に左右されてしまう事は絶対に禁物です。
- 納得:障害への多面的・複眼的な対処方法の検証
- サーバー障害の復旧方法は一つしか無いのか?
- 他にも方法は無いのか?
- 決断:障害への大局的・長期的な再発防止策の実践
- サーバー障害の再発防止に向けて、広い視野で継続的に取り組んでいるのか?
- 行動:障害への危機意識の改革
- サーバー障害への危機意識を持っているのか?
- 広範囲への悪影響を考慮しているのか?
サーバー障害発生時の被害を最小限に食い止める3つの対処方法
既に発生してしまったサーバー障害に対しては、その状況分析の結果から判断して、そこから受けると想定される相対的な優先順位に基づいて、事後のダメージを最小限に食い止める危機回復の対処方法を採ることが重要だと、株式会社インフィニティは考えます。
当社におけるサーバー障害発生時の対処手順に基づいて、障害発生の監視・障害発生時の連絡・障害発生後の復旧などに関して、お客様毎に最適な手段を計画・立案し対処します。
▼第1番目の対処方法:サーバー障害発生前の監視<入口対策>
- お客様と事前に取り決めた手順や内容に基づいて、24時間365日の5分間毎に、pingによる死活応答監視を実施します。
- お客様と事前に取り決めた手順や内容に基づいて、24時間365日の5分間毎に、お客様から指定されたネットワークポートの応答監視を実施します。<オプション対応>
▼第2番目の対処方法:サーバー障害発生時の連絡
サーバー障害に関する情報が当社のサーバー監視システムにて確認された場合は、当社のオペレーターが速やかにサーバーの稼働状況を確認した上で、事前登録の緊急連絡先へメール送信や電話連絡の手段にて、お客様と事前に取り決めた手順や内容に基づいて対処します。
▼第3番目の対処方法:サーバー障害発生後の復旧<出口対策>
以下の通り、サーバーの障害状況に応じて、事前に取り決めた手順や内容に基づいて対処します。
- サーバーが完全に無応答またはシャットダウン状態の場合は、電源を再投入します。
- サーバー内の特定サービスのみ無応答の場合は、サーバー内の該当するアプリケーションを起動または再起動しますので、事前に作業用のログインアカウントとコマンドをご提示下さい。
<オプション対応>
サーバー障害の再発を防止するための危機管理の品質向上の重要性
サーバー障害発生時の対処が完了したらそこで終わりではありません! そこからがサーバー障害の再発を防止するための本当のスタートだと、株式会社インフィニティは考えます。
危機体験を細部にわたって十分に検証し、対応の不備や問題点や原因を徹底的に評価・究明し、再発防止に備えた対策改善や新たな対策を継続実施する「PDCAサイクル」を好循環させることが、サーバー障害の再発を防止する危機管理の品質向上のために重要だと言えます。