Débuter avec Incident Management

Docs > Getting Started > Débuter avec Incident Management

Présentation

La solution Incident Management Datadog vous aide à effectuer un suivi des problèmes concernant vos métriques, traces ou logs que vous avez détectés, et à communiquer avec vos équipes à propos de ces problèmes.

Ce guide vous explique comment déclarer un incident, comment le mettre à jour à mesure que les processus d’enquête et de résolution avancent, et comment générer une analyse post-mortem une fois l’incident résolu, le tout depuis le site Datadog. Pour l’exemple de cette page, nous supposons que vous avez activé l’intégration Slack.

Les différentes étapes d’un incident, de la détection du problème à sa résolution

Déclaration d’un incident

Scénario : un monitor envoie un nombre élevé d’erreurs, ce qui est susceptible de ralentir plusieurs services. On ignore encore si cela a un impact sur l’expérience des clients.

Dans ce guide, nous avons recours au presse-papiers afin de déclarer un incident. Le presse-papiers vous permet de recueillir des informations à partir de plusieurs sources différentes, telles que des graphiques, des monitors, des dashboards entiers ou des notebooks. Vous pouvez ainsi facilement ajouter autant d’informations que possible lorsque vous déclarez un incident.

Dans Datadog, accédez à Dashboard List, puis sélectionnez System - Metrics.
Passez votre curseur sur l’un des graphiques, puis copiez-le dans le presse-papiers de l’une des manières suivantes :
- Ctrl/Cmd + C
- Cliquez sur l’icône Export sur le graphique et sélectionnez Copy.
Depuis le menu Datadog situé sur la gauche de la page, accédez à Monitors > Monitors List, puis sélectionnez [Auto] Clock in sync with NTP.
Ouvrez le presse-papiers à l’aide de la commande Ctrl/Cmd + Maj + K.
Dans le presse-papiers, cliquez sur Add current page pour ajouter le monitor au presse-papiers.
Cliquez sur Select All, puis sur Export items to…
Sélectionnez Declare Incident.

Décrivez la situation :


Title	Respectez les conventions de nommage établies par votre équipe pour les titres d’incident. Puisqu’ici, il ne s’agit pas d’un réel incident, ajoutez le mot `TEST` pour éviter toute ambiguïté. Exemple de titre : `[TEST] Mon test d'incident`
Severity Level	Définissez le niveau sur Unknown, car on ne sait pas encore si les clients sont concernés par le problème ni comment les services connexes sont impactés. Consultez la description de chaque niveau de gravité dans l’application et suivez les directives de votre équipe.
Incident Commander	Laissez votre nom. Dans le cas d’un véritable incident, celui-ci serait alors assigné à la personne responsable de l’enquête. L’Incident Commander peut être modifié à mesure que l’enquête avance.

Cliquez sur Declare Incident pour créer l’incident. Vous pouvez également déclarer un incident depuis un graphique, un monitor ou via l’API Incidents. Si vous utilisez la solution APM, vous pouvez cliquer sur l’icône d’incidents sur n’importe quel graphique APM pour déclarer un incident. Avec l’intégration Slack, vous pouvez également utiliser le raccourci /datadog incident pour déclarer un incident et définir le titre, la gravité et l’impact sur les clients.
Cliquez sur Slack Channel sur la page de l’incident pour accéder au canal Slack de l’incident.

Pour chaque nouvel incident, un canal Slack dédié est automatiquement créé. Vous pouvez ainsi rassembler en un seul endroit toutes les communications avec votre équipe et commencer le processus de dépannage. Si l’intégration Slack de votre organisation a été configurée de façon à mettre à jour un canal d’incident global, un message est publié dans ce canal pour le nouvel incident.

Si vous n’avez pas activé l’intégration Slack, cliquez sur Add Chat pour ajouter un lien vers le service de chat que vous utilisez pour discuter de l’incident.

Cliquez sur Add Video Call pour ajouter un lien vers l’appel dédié aux échanges sur l’incident.

Dépannage et mise à jour de l’incident

La page d’un incident comprend quatre sections principales : Overview, Timeline, Remediation et Notifications. Mettez à jour ces sections à mesure que l’incident évolue pour tenir l’équipe informée.

Section Overview

Scénario : après quelques recherches, vous découvrez que le problème est causé par un host n’ayant plus de mémoire. Vous apprenez également qu’un sous-ensemble limité de clients souffre de ce problème : leurs pages se chargent plus lentement. Le premier rapport client date d’il y a 15 minutes. Il s’agit d’un incident de gravité SEV-3.

Dans la section Overview, vous pouvez mettre à jour les champs de l’incident et l’impact sur les clients à mesure que l’enquête progresse.

Pour modifier le niveau de gravité et la cause d’origine, procédez comme suit :

Cliquez sur la liste déroulante Severity, puis choisissez l’option SEV-3.
Sous What happened, sélectionnez Monitor dans le menu déroulant Detection Method (l’option Unknown est sélectionnée), car vous avez été alerté du problème par un monitor.
Ajoutez ce qui suit dans le champ Why it happened : TEST : Host n'ayant plus de mémoire.
Cliquez sur Save pour mettre à jour les propriétés. Vous pouvez également modifier le titre, la gravité ou le statut d’un problème en cours depuis Slack, à l’aide de la commande /datadog incident update.

Pour ajouter un impact client, procédez comme suit :

Cliquez sur + Add dans la section Impact.
Définissez l’heure sur 15 minutes plus tôt, car c’est à ce moment-là que le premier signalement client est arrivé.
Ajoutez ce qui suit dans le champ de description : TEST : Les pages de certains clients se chargent lentement.
Cliquez sur Save pour modifier les champs. La section Impact se met à jour afin d’afficher la durée de l’impact client. Toutes les modifications effectuées sur la page Overview s’affichent dans la section Timeline.

Section Timeline

La section Timeline affiche les ajouts et modifications des champs et informations de l’incident, dans l’ordre chronologique.

Cliquez sur l’onglet Timeline.
Trouvez l’événement Impact added et marquez-le comme Important en cliquant sur le drapeau.
Ajoutez une note à la chronologie : J'ai trouvé le host à l'origine du problème.
Passez votre curseur sur l’événement de la note, puis cliquez sur l’icône en forme de crayon pour modifier le timestamp de la note, car vous avez réellement identifié le host problématique il y a 10 minutes.
Marquez la note comme Important.
Cliquez sur Slack Channel pour retourner sur le canal Slack de l’incident.
Envoyez le message Je cherche une solution dans le canal.
Cliquez sur l’icône des actions du message (les trois points sur la droite qui s’affichent lorsque vous passez votre curseur sur le message).
Sélectionnez Add to Incident pour ajouter le message à la chronologie.

Vous pouvez ajouter n’importe quel commentaire publié sur le canal Slack de l’incident à la chronologie, afin de rassembler les communications importantes relatives aux phases d’enquête et de remédiation.

Section Remediation

Scénario : il existe un notebook décrivant comment résoudre ce type de problème, avec une liste des tâches à effectuer.

La section Remediation vous permet d’enregistrer des documents et des tâches pour enquêter sur le problème ou pour garder une trace des étapes de remédiation suivies une fois l’incident terminé.

Cliquez sur l’onglet Remediation.
Cliquez sur l’icône plus + dans le champ Documents et ajoutez un lien vers un notebook Datadog. Toutes les mises à jour de la section Documents sont ajoutées à la chronologie en tant que Incident Update.
Pour ajouter une tâche, saisissez une description dans la zone Incident Tasks. Exemple : Suivre les étapes du notebook.
Cliquez sur Create Task.
Cliquez sur Assign To, puis attribuez-vous la tâche.
Cliquez sur Set Due Date et choisissez la date actuelle. Tous les ajouts et toutes les modifications de tâche sont enregistrés dans la section Timeline. Vous pouvez également ajouter des tâches une fois l’incident résolu dans la section Remediation pour en garder une trace.

Section Notifications

Scénario : le problème a été corrigé, et l’équipe surveille la situation. Le statut de l’incident est stable.

La section Notifications vous permet d’envoyer une notification tout en mettant à jour le statut de l’incident.

Revenez à la section Overview.
Remplacez le statut ACTIVE dans le menu déroulant par le statut STABLE.
Accédez à l’onglet Notifications.
Cliquez sur New Notification. Par défaut, le message utilise le titre de l’incident comme objet et comprend des informations sur le statut actuel de l’incident dans le corps. En situation réelle, vous enverriez des mises à jour aux personnes concernées par l’incident. Ici, envoyez une notification à vous-même uniquement.
Ajoutez-vous au champ Recipients.
Cliquez sur Send. Vous devriez recevoir un e-mail contenant le message. Vous pouvez créer des modèles de message personnalisés. Utilisez le champ Category pour regrouper plusieurs modèles.

Résolution et post-mortem

Scénario : vous avez confirmé que le problème n’impacte plus les clients, et qu’il a été entièrement résolu. L’équipe souhaite effectuer une analyse post-mortem afin de réexaminer ce qui a posé problème.

Accédez à la section Overview.
Remplacez le statut STABLE par RESOLVED, car le problème a été résolu. Vous pouvez également modifier la date et l’heure de la fin de l’impact client, si besoin.
Lorsque le statut d’un incident est défini sur Resolved, un bouton Generate Postmortem apparaît en haut. Cliquez dessus.
Pour la section Timeline, sélectionnez Marked as Important, afin d’ajouter uniquement les événements de type Important à l’analyse post-mortem.
Cliquez sur Generate.

Le post-mortem est généré sous forme de notebook Datadog. Il comprend les événements et ressources de la chronologie associés aux phases d’enquête et de remédiation. Vous pouvez ainsi facilement passer en revue les informations, documenter les causes exactes du problème et indiquer comment empêcher qu’il ne se reproduise. Le notebook Datadog prend en charge la collaboration en direct, ce qui vous permet de le modifier avec vos collègues en temps réel.

Si des tâches de suivi doivent être accomplies par votre équipe et vous-même pour garantir que le problème ne se reproduira pas, ajoutez-les et suivez-les dans la section Incident Tasks de la page Remediation.

Personnalisation de votre workflow de gestion des incidents

La solution Incident Management Datadog peut être personnalisée avec différents niveaux de gravité et de statut en fonction des besoins de votre organisation. Vous pouvez également ajouter des informations supplémentaires, telles que des services APM et les équipes responsables de l’incident. Pour en savoir plus, consultez cette section de la page Incident Management.

Vous avez la possibilité de définir des règles de notification pour prévenir automatiquement des personnes ou services spécifiques, en fonction du niveau de gravité d’un incident. Pour en savoir plus, consultez la section Paramètres d’incident.

Pour personnaliser la solution Incident Management, rendez-vous sur la page des paramètres de l’incident. Depuis le menu Datadog situé à gauche de la page, accédez à Monitors > Incidents (si un écran de bienvenue s’affiche, cliquez sur Get Started). Cliquez ensuite sur Settings en haut de la page.

Créer et gérer des incidents sur un appareil mobile

Grâce à l’application mobile Datadog, disponible sur l’App Store d’Apple et le Google Play Store, vous pouvez créer des incidents, mais également consulter, rechercher et filtrer tous les incidents auxquels vous avez accès avec votre compte Datadog. Cette application vous permet de prendre rapidement des mesures et de résoudre des problèmes, même lorsque vous n’êtes pas devant votre ordinateur.

Vous avez également la possibilité de déclarer et de modifier des incidents, ainsi que d’échanger rapidement avec vos équipes via les intégrations Slack, Zoom, et plus encore.