Bug jeudi soir de 20h00 à 23h00
Posté : 20 mai 2022, 22:51
Bonsoir,
Il y a eu un gros bug hier soir sur le site (il était inaccessible). Je vous donne donc les infos de l'hébergeur:
Chère cliente, cher client,
Hier soir à 19h55, le ou les serveurs cloud suivants ont été affectés par un problème matériel : Cloud Félicien.
Que s'est-il passé ?
Un disjoncteur défectueux a interrompu l'alimentation d'un hyperviseur auquel étaient rattachés vos services.
Le monitoring de l'infrastructure a immédiatement détecté cette anomalie exceptionnelle, et après analyse, nos ingénieurs sont intervenus sur site.
Le disjoncteur concerné a été identifié et remplacé. Dès 22h, les serveurs impactés ont été progressivement redémarrés.
Nos équipes ont redémarré et surveillé l'état des machines virtuelles jusqu'à 1h du matin afin de s'assurer que tout était fonctionnel et stable.
Améliorations prévues
Dans l'immédiat, cet évènement nous permet d'identifier plusieurs voies d'amélioration qui permettront de vous informer plus rapidement et de réduire la durée d'impact si un incident similaire devait se reproduire :
Les scripts de redémarrage des machines virtuelles vont être améliorés pour accélérer le retour à la normale de vos services.
Nos ingénieurs auront la possibilité de poster directement un message automatique sur status.infomaniak.com dès qu'ils constatent qu'un évènement affecte la disponibilité d'un service.
Il y a eu un gros bug hier soir sur le site (il était inaccessible). Je vous donne donc les infos de l'hébergeur:
Chère cliente, cher client,
Hier soir à 19h55, le ou les serveurs cloud suivants ont été affectés par un problème matériel : Cloud Félicien.
Que s'est-il passé ?
Un disjoncteur défectueux a interrompu l'alimentation d'un hyperviseur auquel étaient rattachés vos services.
Le monitoring de l'infrastructure a immédiatement détecté cette anomalie exceptionnelle, et après analyse, nos ingénieurs sont intervenus sur site.
Le disjoncteur concerné a été identifié et remplacé. Dès 22h, les serveurs impactés ont été progressivement redémarrés.
Nos équipes ont redémarré et surveillé l'état des machines virtuelles jusqu'à 1h du matin afin de s'assurer que tout était fonctionnel et stable.
Améliorations prévues
Dans l'immédiat, cet évènement nous permet d'identifier plusieurs voies d'amélioration qui permettront de vous informer plus rapidement et de réduire la durée d'impact si un incident similaire devait se reproduire :
Les scripts de redémarrage des machines virtuelles vont être améliorés pour accélérer le retour à la normale de vos services.
Nos ingénieurs auront la possibilité de poster directement un message automatique sur status.infomaniak.com dès qu'ils constatent qu'un évènement affecte la disponibilité d'un service.