事後分析:インシデント報告書(2026年5月8日のサービス停止)

公開日 10. May 2026
Post-Mortem: Incident Report (Outage May 8, 2026)
2026年5月8日、ECSO CLOUDは今年に入って初めての大規模なサービス障害に見舞われました。影響を受けたホストシステム「col1-compute-amd-101」で重大な障害が発生し、複数の第1世代クラウドサーバーに影響が及びました。本レポートでは、本インシデントの詳細な技術的分析、当社の対応、および再発防止のために講じた措置について説明します。

システム概要


ホスト101は、ケルンに設置されている当社のコンピューティングリソースの一つです。AMD CPU、512 GBのRAM、8 TBのNVMeストレージを搭載しています。 インシデント発生当時、このシステムでは50以上のアクティブな顧客環境がホストされていました。

2026年5月8日:インシデントの発見と初期対応


10:58 – ホスト101上の顧客インスタンスに接続できなくなりました。 ホストのプライマリIPは応答しており、リソース割り当ても正常に見えたため、初期の監視ではアラートは発動しませんでした。
13:11 – キーアカウントマネージャーを通じて最初の手動による報告を受けました。技術的な調査を開始するため、顧客に対し正式なチケットを開くよう助言しました。
13:42 – 2件目の正式なチケットを受け取り、より広範囲な問題であることが確認されました。
13:46 – 第1レベルサポートが初期診断を完了しました。 NoVNC接続の確立に失敗したため、本件は第2レベルサポートへエスカレーションされた。
14:52 – 第2レベルサポートが根本的なシステムエラーを特定した。SSHアクセスに失敗した後、ハードリブートが実行された。しかし、システムはGrubブートローダーでフリーズした。
15:02 – 現場調査のため、第3レベルサポートが動員された。
15:21 – 根本原因を特定:重大なカーネル競合(Debian v6.12.63)により、RAIDコントローラがNVMeドライブを認識できなくなっていました。これは、DE-NIC(.deレジストリ)で発生した以前の障害によって引き起こされたものです。DNSの停止により自動更新プロセスが実行途中で失敗し、システムが互換性のないカーネルバージョンを使用して自己修復を試みたことが原因でした。
16:13 – 有効な災害復旧プランを保有するすべてのお客様を代替ホストシステムへ正常に移行し、サービスを復旧させました。

2026年5月9日:復旧およびトラブルシューティング


01:51 – 技術チームはカーネルバージョンのロールバックとレガシーアーティファクトの削除に成功しました。システムは起動しましたが、ネットワーク接続を確立できませんでした。6時間にわたる集中的な作業の後、チームは予定通りの休憩に入りました。
14:53 – 第3レベルサポートがネットワークスタックのトラブルシューティングを再開しました。
23:28 – 包括的なハードウェア監査(CPUおよびRAM)の結果、エラーは検出されませんでした。 しかし、ストレージ層でビットレベルの不整合が発見された。これは、システムの突然の停止と互換性のないドライバが組み合わさったことが原因である可能性が高い。これらは、システム全体のバックアップ後に修正された。

2026年5月10日:最終的な解決


15:42 – ITディレクターが最終的なボトルネックを特定しました。OSVデータベース内のブリッジ設定の不一致が、systemdの起動シーケンス中にシステムをハングさせていました。ブリッジをクリアして再初期化した後、RAIDおよびパーティションは正常であることが確認されました。
16:19 – 最終クリアランス:内部テストにより完全な安定性が確認されました。 16:23に公式ステータスが「解決済み」に更新された。

教訓と今後の予防策


本インシデントは、現在のインフラストラクチャおよび内部ワークフローにおけるいくつかの脆弱性を浮き彫りにした:

1. 監視の不備:従来の監視体制は、ゲストレベルの健全性ではなく、ホストの可用性に重点を置いていました。現在は、Netdataを全サービスに完全に統合し、同様の障害を即座に検知できる詳細かつリアルタイムなインサイトを提供しています。
2. 内部連携:第2レベルサポートと第3レベルサポート間の引き継ぎにおいて、より適切な診断プロトコルの必要性が明らかになりました。今後は、即時の「試行錯誤」による復旧作業よりも、根本原因の分析を優先します。
3. コミュニケーション:この期間中の当社のコミュニケーションが不十分であったことを認識しています。スタッフが技術的な調査に全力を注いだため、状況報告が遅れてしまいました。調査の負荷にかかわらず、お客様にリアルタイムで情報を提供できるよう、インシデント対応のコミュニケーション方針を見直しています。

ご迷惑をおかけしましたことを心よりお詫び申し上げます。この経験を活かし、より強靭なECSO CLOUDを構築することに尽力してまいります。
Robin

執筆者

Robin Holl

Founder & Chief Executive Officer

もっと知りたいですか?

当社について詳しくは、当社の「会社概要」ページをご覧ください。

当社について