ECSO CLOUD

Le 8 mai 2026, ECSO CLOUD a connu sa première interruption majeure de service de l'année. Le système hôte concerné, col1-compute-amd-101, a subi une défaillance critique qui a affecté plusieurs serveurs cloud de génération 1. Ce rapport présente une analyse technique détaillée de l'incident, de notre intervention et des mesures prises pour éviter que cela ne se reproduise.

Présentation du système

L'hôte 101 est l'une de nos ressources de calcul situées à Cologne. Il est équipé d'un processeur AMD, de 512 Go de RAM et de 8 To de stockage NVMe. Au moment de l'incident, le système hébergeait plus de 50 environnements clients actifs.

8 mai 2026 : Découverte de l'incident et réponse initiale

10 h 58 – Les instances des clients sur l'hôte 101 sont devenues inaccessibles. La surveillance initiale n'a pas déclenché d'alerte car l'adresse IP principale de l'hôte restait réactive et l'allocation des ressources semblait normale.
13 h 11 – Le premier rapport manuel a été reçu par l'intermédiaire d'un responsable de compte clé. Il a été conseillé au client d'ouvrir un ticket officiel afin de lancer une enquête technique.
13 h 42 – Un deuxième ticket officiel a été reçu, confirmant un problème plus général.
13 h 46 – Le support de 1er niveau a terminé les diagnostics initiaux. Après avoir échoué à établir une connexion NoVNC, le cas a été transmis au support de 2e niveau.
14 h 52 – Le support de 2e niveau a identifié une erreur système profonde. Après l'échec de l'accès SSH, un redémarrage à froid a été lancé. Cependant, le système s'est bloqué au niveau du chargeur d'amorçage Grub.
15 h 02 – Le support de 3e niveau a été mobilisé pour une enquête sur site.
15 h 21 – Cause première identifiée : un conflit critique au niveau du noyau (v6.12.63 Debian) a empêché le contrôleur RAID de reconnaître les disques NVMe. Ce problème a été déclenché par une interruption antérieure chez DE-NIC (le registre .de). Un processus de mise à jour automatisé a échoué en cours d'exécution en raison de la panne du DNS, ce qui a conduit le système à tenter une autocorrection avec une version de noyau incompatible.
16 h 13 – Tous les clients disposant de plans de reprise après sinistre actifs ont été migrés avec succès vers des systèmes hôtes alternatifs, ce qui a permis de rétablir leurs services.

9 mai 2026 : Récupération et dépannage

01 h 51 – Les équipes techniques ont réussi à revenir à la version précédente du noyau et à supprimer les artefacts hérités. Bien que le système ait démarré, la connectivité réseau n’a pas pu être établie. Après six heures de travail intensif, l’équipe a pris une pause prévue.
14 h 53 – Le support de niveau 3 a repris le dépannage de la pile réseau.
23 h 28 – Un audit matériel complet (CPU et RAM) n’a révélé aucune erreur. Cependant, des incohérences au niveau des bits ont été détectées au niveau de la couche de stockage, probablement causées par l'arrêt brutal du système combiné à des pilotes incompatibles. Celles-ci ont été corrigées après une sauvegarde complète du système.

10 mai 2026 : Résolution finale

15 h 42 – Le directeur informatique a identifié le dernier goulot d'étranglement : une incompatibilité de configuration des ponts dans la base de données OSV provoquait le blocage du système pendant la séquence de démarrage de systemd. Après avoir effacé et réinitialisé les ponts, le RAID et les partitions ont été vérifiés et jugés en bon état.
16 h 19 – Autorisation finale : des tests internes ont confirmé une stabilité totale. Le statut officiel a été mis à jour en « Résolu » à 16 h 23.

Leçons tirées et prévention future

Cet incident a mis en évidence plusieurs vulnérabilités dans notre infrastructure actuelle et nos workflows internes :

1. Lacunes en matière de surveillance : notre système de surveillance existant était axé sur la disponibilité des hôtes plutôt que sur l'état de santé au niveau des instances. Nous avons désormais entièrement intégré Netdata à l'ensemble de nos services afin de fournir des informations granulaires en temps réel qui permettront de détecter instantanément des défaillances similaires.
2. Coordination interne : la transition entre les niveaux de support 2 et 3 a révélé la nécessité de meilleurs protocoles de diagnostic. À l'avenir, nous privilégierons l'analyse des causes profondes plutôt que les tentatives de rétablissement immédiates par « essais et erreurs ».
3. Communication : Nous reconnaissons que notre communication pendant cette période a été insuffisante. Les mises à jour sur l'état d'avancement ont été retardées, car le personnel s'est entièrement concentré sur l'enquête technique. Nous révisons notre politique de communication en cas d'incident afin de garantir que les clients soient tenus informés en temps réel, quelle que soit la charge de travail liée à l'enquête.

Nous vous présentons nos sincères excuses pour cette perturbation et nous nous engageons à tirer parti de cette expérience pour construire un ECSO CLOUD plus résilient.

Écrit par

Robin Holl

Founder & Chief Executive Officer

Vous souhaitez en savoir plus ?

Vous pouvez en savoir plus sur nous sur notre page À propos.

En savoir plus sur nous