Data Streams Monitoring

Docs > Data Streams Monitoring

La solution Data Streams Monitoring permet aux équipes d’analyser et de gérer leurs pipelines à grande échelle via un outil centralisé. Vous pourrez ainsi facilement :

Analyser la santé des pipelines en mesurant les latences de bout en bout des événements qui transitent par votre système.
Identifier les producteurs, les consommateurs et les files d’attente défectueux, puis visualiser les logs ou clusters associés pour accélérer le dépannage.
Empêcher les ralentissements en cascade en offrant aux propriétaires de services les outils dont ils ont besoin pour empêcher les événements en retard de surcharger les services en aval.

Configuration

Pour commencer, suivez les instructions d’installation pour configurer Data Streams Monitoring sur vos services :

Runtime	Technologies prises en charge
Java/Scala	Kafka (auto-hébergé, Amazon MSK, Confluent Cloud / Platform), RabbitMQ, HTTP, gRPC, Amazon SQS
Python	Kafka (auto-hébergé, Amazon MSK, Confluent Cloud / Platform), RabbitMQ, Amazon SQS
.NET	Kafka (auto-hébergé, Amazon MSK, Confluent Cloud / Platform), RabbitMQ, Amazon SQS
Node.js	Kafka (auto-hébergé, Amazon MSK, Confluent Cloud / Platform), RabbitMQ, Amazon SQS
Go	Toutes (avec l’instrumentation manuelle)

Explorer Data Streams Monitoring

Mesurez la santé de vos pipelines de bout en bout avec de nouvelles métriques

Une fois Data Streams Monitoring configuré, vous pouvez mesurer le temps que mettent généralement vos événements pour passer d’un point à l’autre de votre système asynchrone :

Nom de la métrique	Tags notables	Rôle
data_streams.latency	`start`, `end`, `env`	Latence de bout en bout d’un chemin entre une source spécifiée et un service de destination.
data_streams.kafka.lag_seconds	`consumer_group`, `partition`, `topic`, `env`	Délai mesuré entre le producteur et le consommateur, en secondes. Nécessite l’Agent Java v1.9.0 ou une version ultérieure.
data_streams.payload_size	`consumer_group`, `topic`, `env`	Débit entrant et sortant en octets

Vous pouvez également représenter graphiquement et visualiser ces métriques sur n’importe quel dashboard ou notebook :

Monitor de la solution Data Streams Monitoring de Datadog

Surveiller la latence de bout en bout d’un chemin

En fonction de la façon dont les événements transitent par votre système, certains chemins peuvent entraîner une latence plus élevée. Utilisez l’onglet Measure pour sélectionner un service de début et de fin pour obtenir des informations sur la latence de bout en bout, de façon à identifier les goulots d’étranglement et optimiser les performances. Vous pouvez facilement créer un monitor dédié à ce chemin ou exporter les données vers un dashboard.

Vous pouvez aussi cliquer sur un service pour ouvrir un volet latéral détaillé et consulter lʼonglet Pathways pour vérifier la latence entre le service et les services en amont.

Alerte sur les ralentissements dans les applications pilotées par des événements

Les ralentissements causés par des retards des consommateurs ou des messages trop anciens peuvent entraîner des défaillances en cascade et augmenter la fréquence des temps dʼarrêt. Grâce aux alertes prêtes à l’emploi, vous pouvez localiser les goulets d’étranglement dans vos pipelines et réagir immédiatement. Pour obtenir des métriques supplémentaires, Datadog propose des intégrations supplémentaires pour les technologies de file d’attente de messages telles que Kafka et SQS.

Grâce aux moniteurs recommandés et prêts à l’emploi de Data Stream Monitoring, vous pouvez configurer en un clic des moniteurs sur des métriques tels que les retards des utilisateurs, le débit et la latence.

Monitors recommandés de la solution Data Streams Monitoring de Datadog — Cliquez sur 'Add Monitors and Synthetic Tests' pour consulter les monitors recommandés

Attribuez des messages entrants à une file d’attente, un service ou un cluster

Un délai important sur un service consommateur, une utilisation accrue des ressources sur un broker Kafka ou une augmentation de la taille d’une file d’attente RabbitMQ ou Amazon SQS s’explique souvent par des changements dans la manière dont les services adjacents produisent ou consomment auprès de ces entités.

Cliquez sur lʼonglet Throughput de n’importe quel service ou file d’attente dans Data Streams Monitoring pour détecter rapidement les changements de débit, et de quel service en amont ou en aval ces changements proviennent. Une fois que le catalogue des services est configuré, vous pouvez immédiatement pivoter vers le canal Slack de l’équipe correspondante ou vers l’ingénieur de garde.

En affichant les données propres à un certain cluster Kafka, RabbitMQ ou Amazon SQS, vous pouvez détecter les variations du trafic entrant ou sortant pour l’ensemble des sujets ou files d’attente détectés sur le cluster en question :

Visualisez rapidement les données d’infrastructure, de logs ou de traces associées pour identifier la cause fondamentale

Datadog associe automatiquement l’infrastructure de vos services et les logs connexes via le tagging de service unifié, vous permettant ainsi d’identifier facilement les goulots d’étranglement. Cliquez sur l’onglet Infra, Logs ou Traces pour approfondir votre enquête et tenter de comprendre pourquoi la latence d’un chemin ou le délai d’un consommateur a augmenté.