Résumé de l'incident
Impact
L'incident a affecté les services suivants :
- API REST SMS : Indisponibilité pour l’envoi de messages.
- Interface utilisateur (ui.smsmode.com) : Envoi de SMS indisponible via la plateforme web.
- Notifications de livraison (DLR) : Suspension temporaire de la réception des accusés de livraison.
Les campagnes en cours et les notifications critiques ont été fortement impactées.Analyse des causes
L'incident a été causé par une erreur humaine survenue lors de l'exécution d'une procédure technique courante. Plus précisément :
- Une étape critique de la procédure de basculement (switch) a été omise, entraînant une indisponibilité temporaire des services.
- Les validations prévues dans la procédure actuelle n’ont pas suffi à prévenir cette omission.
Actions correctives et préventives
- Mise à jour des processus techniques :
- Ajout d’une étape de validation manuelle obligatoire pour chaque action critique, notamment les procédures de basculement.
- Automatisation de la procédure de switch pour minimiser les interventions humaines, en utilisant des outils internes développés à cet effet.
- Sensibilisation des procédures et MAJ de celles-ci :
- Formation spécifique des équipes techniques sur les procédures sensibles, avec des ateliers pratiques sur les impacts potentiels des erreurs humaines.
- Intégration d’un module de simulation d’incidents dans le cadre des formations pour améliorer la gestion des situations critiques.
- Renforcement des outils de supervision :
- Déploiement de nouveaux outils d'alerte et de monitoring pour détecter immédiatement les anomalies liées aux procédures techniques.
- Mise en place d’un tableau de bord en temps réel pour surveiller l’état des services lors des interventions.