概要
Amazon SageMaker は、フルマネージド型の機械学習サービスです。Amazon SageMaker を使用して、データサイエンティストや開発者は、機械学習モデルを構築およびトレーニングした後に、実稼働準備ができたホスト環境にモデルを直接デプロイすることができます。
このインテグレーションを有効にすると、Datadog にすべての SageMaker メトリクスを表示できます。
セットアップ
インストール
Amazon Web Services インテグレーションをまだセットアップしていない場合は、最初にセットアップします。
メトリクスの収集
- AWS インテグレーションページで、
Metric Collection
タブの下にある SageMaker
が有効になっていることを確認します。 - Datadog - Amazon SageMaker インテグレーションをインストールします。
収集データ
ログの有効化
Amazon SageMaker から S3 バケットまたは CloudWatch のいずれかにログを送信するよう構成します。
注: S3 バケットにログを送る場合は、Target prefix が amazon_sagemaker
に設定されているかを確認してください。
ログを Datadog に送信する方法
Datadog ログコレクション AWS Lambda 関数 をまだ設定していない場合は、設定を行ってください。
lambda 関数がインストールされたら、AWS コンソールから、Amazon SageMaker ログを含む S3 バケットまたは CloudWatch のロググループに手動でトリガーを追加します。
収集データ
メトリクス
イベント
Amazon SageMaker インテグレーションには、イベントは含まれません。
サービスチェック
Amazon SageMaker インテグレーションには、サービスのチェック機能は含まれません。
すぐに使える監視
Datadog は、SageMaker のエンドポイントとジョブ向けにすぐに使えるダッシュボードを提供しています。
SageMaker エンドポイント
SageMaker エンドポイントダッシュボードを使用すると、追加構成なしで SageMaker エンドポイントの健全性とパフォーマンスの監視をすぐに開始できます。エラー、予想以上のレイテンシー、またはトラフィックの急増が発生しているエンドポイントを特定します。CPU、GPU、メモリ、およびディスクの使用量メトリクスを使用して、インスタンスタイプとスケーリングポリシーの選択を見直し、修正します。
SageMaker ジョブ
SageMaker ジョブダッシュボードを使用すると、トレーニング、処理、または変換ジョブのリソース使用状況 (CPU、GPU、およびストレージのボトルネックの検出など) を把握できます。この情報を使用して、コンピュートインスタンスを最適化します。
その他の参考資料
トラブルシューティング
ご不明な点は、Datadog のサポートチームまでお問合せください。