Débuter avec Incident Management

Docs > Getting Started > Débuter avec Incident Management

Présentation

La solution Incident Management Datadog vous aide à surveiller les problèmes que vous avez identifiés à l’aide de vos métriques, traces ou logs et à communiquer avec vos équipes à leur sujet.

Ce guide vous explique comment utiliser le site Datadog pour déclarer un incident, mettre à jour l’incident au fur et à mesure que les phases d’investigation et de remédiation avancent, et générer un post-mortem une fois l’incident résolu. Pour l’exemple de ce guide, il est supposé que l’intégration Slack est activée.

Différentes étapes d’un incident, de la détection du problème à sa résolution

Déclaration d’un incident

Scénario : un monitor déclenche une alerte suite à un nombre élevé d’erreurs susceptibles de ralentir plusieurs services. On ne sait pas si les clients sont impactés.

Ce guide repose sur l’utilisation du presse-papiers Datadog pour déclarer un incident. Le presse-papiers vous permet de recueillir des informations à partir de plusieurs sources différentes, telles que des graphiques, des monitors, des dashboards entiers ou des notebooks. Vous pouvez ainsi facilement ajouter autant d’informations que possible lorsque vous déclarez un incident.

Depuis le menu de Datadog situé sur la gauche, accédez à Dashboard > Dashboard lists, puis sélectionnez System - Metrics.
Passez votre curseur sur l’un des graphiques et copiez-le dans le presse-papiers de l’une des façons suivantes :
- Ctrl/Cmd + C
- Cliquez sur l’icône Export sur le graphique et sélectionnez Copy.
Depuis le menu de Datadog situé sur la gauche, accédez à Monitors > Manage Monitors, puis sélectionnez [Auto] Clock in sync with NTP.
Ouvrez le presse-papiers à l’aide de la commande Ctrl/Cmd + Maj + K.
Dans le presse-papiers, cliquez sur Add current page pour ajouter le monitor au presse-papiers.
Cliquez sur Select All, puis sur Export items to…
Sélectionnez Declare Incident.

Décrivez la situation :


Title	Suivez les conventions de nommage appliquées par votre équipe pour les titres d’incidents. Comme il ne s’agit pas d’un véritable incident ici, ajoutez le mot `TEST` pour indiquer clairement qu’il s’agit d’un test. Exemple de titre : `[TEST] Mon test d'incident`.
Severity Level	Le niveau de gravité est défini sur Unknown, car on ne sait pas encore quel est l’impact sur les clients ni sur les services connexes. Consultez la description de chaque niveau de gravité dans l’application et suivez les directives de votre équipe.
Incident Commander	Laissez votre nom. Dans le cas d’un véritable incident, celui-ci serait alors assigné à la personne responsable de l’enquête. L’Incident Commander peut être modifié à mesure que l’enquête avance.
Notifications	Laissez ce champ vide : comme il ne s’agit que d’un test, il n’est pas nécessaire d’alerter une autre personne ou un autre service. Dans le cas d’un véritable incident, ajoutez les personnes et les services à prévenir pour faciliter les phases d’enquête et de remédiation. Vous pouvez envoyer ces notifications via Slack ou PagerDuty.
Notes & Links	Ajoutez des informations appuyant la raison pour laquelle vous déclarez l’incident. Il peut s’agir de graphiques, de logs ou de tout visuel clé. Le graphique et le monitor que vous avez sélectionnés sont déjà inclus, mais vous pouvez ajouter des signaux supplémentaires. Par exemple, copiez et collez l’URL de ce guide.

Cliquez sur Declare Incident pour créer l’incident. Vous pouvez également déclarer un incident depuis un graphique, un monitor ou l’API d’incidents. Si vous utilisez APM, vous pouvez cliquer sur l’icône des incidents sur n’importe quel graphique APM pour déclarer un incident. Avec l’intégration Slack, vous pouvez également utiliser le raccourci /datadog incident pour déclarer un incident et définir le titre, la gravité et l’impact sur les clients.
Cliquez sur Slack Channel sur la page de l’incident pour accéder au canal Slack de l’incident.

Un nouveau canal Slack dédié est automatiquement créé pour chaque nouvel incident afin de simplifier les échanges avec votre équipe et de commencer le dépannage. Si l’intégration Slack de votre organisation comporte un canal d’incident global à mettre à jour, les informations sur le nouvel incident sont alors ajoutées à ce canal.

Dans cet exemple, vous êtes la seule personne ajoutée au canal du nouvel incident. Lorsque vous ajoutez des personnes ou services supplémentaires dans Notifications pour un véritable incident, tout le monde est automatiquement ajouté au canal de l’incident.

Si vous n’avez pas activé l’intégration Slack, cliquez sur Add Chat pour ajouter un lien vers le service de messagerie que vous utilisez pour discuter de l’incident.

Cliquez sur Add Video Call pour ajouter un lien vers l’appel dédié aux échanges sur l’incident.

Dépannage et mise à jour de l’incident

La page d’un incident comprend quatre sections principales : Overview, Timeline, Remediation et Notifications. Mettez à jour ces sections à mesure que l’incident évolue pour tenir votre équipe informée.

Section Overview

Scénario : après une première enquête, vous découvrez que le problème est causé par un host qui arrive à court de mémoire. Vous avez également été informé qu’une petite partie des clients est impactée, avec un chargement des pages ralenti. Le premier signalement client est arrivé il y a 15 minutes. Il s’agit d’un incident de gravité 3.

Dans la section Overview, vous pouvez mettre à jour les champs de l’incident et l’impact sur les clients à mesure que l’enquête progresse.

Pour mettre à jour le niveau de gravité et la cause d’origine, procédez comme suit :

Cliquez sur la liste déroulante Severity, puis sélectionnez SEV-3.
Sous What happened, sélectionnez Monitor dans le menu déroulant Detection Method (l’option Unknown est sélectionnée), car vous avez été alerté du problème par un monitor.
Ajoutez ce qui suit dans le champ Why it happened : TEST : Host à court de mémoire.
Cliquez sur Save pour mettre à jour les propriétés. Vous pouvez également mettre à jour le titre, la gravité ou le statut d’un problème en cours depuis Slack via la commande /datadog incident update.

Pour ajouter l’impact sur les clients, procédez comme suit :

Cliquez sur + Add dans la section Impact.
Définissez l’heure sur 15 minutes plus tôt, car c’est à ce moment-là que le premier signalement client est arrivé.
Ajoutez ce qui suit dans le champ de description : TEST : les pages de certains clients se chargent lentement.
Cliquez sur Save pour mettre à jour les champs. La section Impact se met à jour pour afficher la durée de l’impact sur les clients. Toutes les modifications effectuées sur la page Overview s’affichent à la section Timeline.

Section Timeline

La section Timeline affiche les modifications des champs et des informations de l’incident par ordre chronologique.

Cliquez sur l’onglet Timeline.
Trouvez l’événement Impact added et marquez-le comme Important en cliquant sur le drapeau.
Ajoutez une remarque dans la timeline : J'ai trouvé le host problématique.
Passez votre curseur sur l’événement de la remarque et cliquez sur l’icône en forme de crayon pour modifier l’heure associée, étant donné que vous avez trouvé le host à l’origine du problème il y a 10 minutes.
Marquez la remarque comme Important.
Cliquez sur Slack Channel pour retourner sur le canal Slack de l’incident.
Publiez le message Je m'occupe de la correction. dans le canal.
Cliquez sur l’icône de menu du message (les trois petits points qui s’affichent sur la droite du message lorsque vous passez votre curseur dessus).
Sélectionnez Add to Incident pour ajouter le message à la timeline.

Vous pouvez ajouter n’importe quel commentaire publié sur le canal Slack de l’incident à la timeline, afin de consolider les communications importantes relatives aux phases d’enquête et de remédiation.

Section Remediation

Scénario : il existe un notebook qui explique comment gérer ce type de problème, ainsi que les tâches à effectuer pour le résoudre.

La section Remediation vous permet d’enregistrer des documents et des tâches pour enquêter sur le problème ou pour garder une trace des étapes de remédiation suivies une fois l’incident terminé.

Cliquez sur l’onglet Remediation.
Cliquez sur l’icône plus + dans le champ Documents et ajoutez un lien vers un notebook Datadog. Toutes les mises à jour de la section Documents sont ajoutées à la timeline en tant qu’Incident Update.
Pour ajouter une tâche, saisissez une description de celle-ci dans le champ Incident Tasks. Exemple : Exécuter les étapes du notebook.
Cliquez sur Create Task.
Cliquez sur Assign To et assignez-vous la tâche.
Cliquez sur Set Due Date et choisissez la date actuelle. Les ajouts et modifications sont enregistrés dans la section Timeline. Vous pouvez également ajouter des tâches une fois l’incident résolu dans la section Remediation pour en garder une trace.

Section Notifications

Scénario : le problème a été atténué, et l’équipe surveille la situation. Le statut de l’incident est stable.

La section Notifications vous permet d’envoyer une notification afin de mettre à jour le statut de l’incident.

Revenez à la section Overview.
Remplacez le statut ACTIVE dans le menu déroulant par le statut STABLE.
Accédez à l’onglet Notifications.
Cliquez sur New Notification. Par défaut, le message utilise le titre de l’incident comme objet et comprend des informations sur le statut actuel de l’incident dans le corps. En situation réelle, vous enverriez des mises à jour aux personnes concernées par l’incident. Ici, envoyez une notification à vous-même uniquement.
Ajoutez-vous au champ Recipients.
Cliquez sur Send. Vous devriez recevoir un e-mail contenant le message. Vous pouvez créer des modèles de message personnalisés. Utilisez le champ Category pour regrouper plusieurs modèles.

Résolution et post-mortem

Scénario : vous avez la confirmation qu’il n’y a plus de client impacté et que vous avez résolu le problème. L’équipe veut effectuer un post-mortem pour analyser le problème.

Accédez à la section Overview.
Remplacez le statut STABLE par RESOLVED afin d’indiquer que l’incident n’est plus actif. Vous pouvez également modifier la date et l’heure de la fin de l’impact sur les clients (si cela s’est produit plus tôt).
Lorsque le statut d’un incident est défini sur Resolved, un bouton Generate Postmortem apparaît en haut. Cliquez dessus.
Pour la section Timeline, sélectionnez Marked as Important afin que seuls les événements Important soient ajoutés au post-mortem.
Cliquez sur Generate.

Le post-mortem est généré sous forme de notebook Datadog. Il comprend les événements et ressources de la timeline associés aux phases d’enquête et de remédiation. Vous pouvez ainsi facilement passer en revue les informations, documenter les causes exactes du problème et indiquer comment empêcher qu’il ne se reproduise. Le notebook Datadog prend en charge la collaboration en direct, ce qui vous permet de le modifier avec vos collègues en temps réel.

Si des tâches de suivi doivent être accomplies par votre équipe et vous-même pour garantir que le problème ne se reproduira pas, ajoutez-les et suivez-les dans la section Incident Tasks.

Personnalisation de votre workflow de gestion des incidents

La solution Incident Management Datadog peut être personnalisée avec différents niveaux de gravité et de statut en fonction des besoins de votre organisation. Vous pouvez également ajouter des informations supplémentaires, telles que des services APM et les équipes responsables de l’incident. Pour en savoir plus, consultez cette rubrique de la section Incident Management.

Vous avez également la possibilité de définir des règles de notification pour prévenir automatiquement des personnes ou services spécifiques, en fonction du niveau de gravité d’un incident. Pour en savoir plus, consultez la section Paramètres d’incident.

Pour personnaliser la gestion d’un incident, accédez à la page des paramètres de l’incident. Depuis le menu Datadog situé à gauche, accédez à Monitors > Incidents (si un écran de présentation d’Incident Management s’affiche, cliquez sur Get Started). Cliquez ensuite sur Settings en haut.

Créer et gérer des incidents sur un appareil mobile

Grâce à l’application mobile Datadog, disponible sur l’App Store d’Apple et le Google Play Store, vous pouvez créer des incidents, mais également consulter, rechercher et filtrer tous les incidents auxquels vous avez accès avec votre compte Datadog. Cette application vous permet de prendre rapidement des mesures et de résoudre des problèmes, même lorsque vous n’êtes pas devant votre ordinateur.

Vous avez également la possibilité de déclarer et de modifier des incidents, ainsi que d’échanger rapidement avec vos équipes via les intégrations Slack, Zoom, et plus encore.