概要
Google Cloud TPU 製品は、スケーラブルで使いやすいクラウドコンピューティングリソースを通じて Tensor Processing Unit (TPU) を利用できるようにします。ML 研究者、ML エンジニア、開発者、データサイエンティストの誰もが最先端の ML (機械学習) モデルを実行できます。
Datadog Google Cloud Platform インテグレーションを使用して、Google Cloud TPU からメトリクスを収集できます。
計画と使用
インフラストラクチャーリスト
Google Cloud Platform インテグレーションをまだセットアップしていない場合は、最初にセットアップします。それ以上のインストール手順はありません。
収集データ
Google Cloud TPU のログは Google Cloud Logging で収集され、Cloud Pub/Sub トピックを通じて Dataflow ジョブに送信されます。まだの場合は、Datadog Dataflow テンプレートでロギングをセットアップしてください。
これが完了したら、Google Cloud TPU のログを Google Cloud Logging から Pub/Sub へエクスポートします。
- Google Cloud Logging のページに移動し、Google Cloud TPU のログを絞り込みます。
- Create Export をクリックし、シンクに名前を付けます。
- エクスポート先として「Cloud Pub/Sub」を選択し、エクスポート用に作成された Pub/Sub を選択します。注: この Pub/Sub は別のプロジェクト内に配置することもできます。
- 作成をクリックし、確認メッセージが表示されるまで待ちます。
リアルユーザーモニタリング
データセキュリティ
gcp.tpu.cpu.utilization (gauge) | Utilization of CPUs on the TPU Worker as a percent. Shown as percent |
gcp.tpu.memory.usage (gauge) | Memory usage in bytes. Shown as byte |
gcp.tpu.network.received_bytes_count (count) | Cumulative bytes of data this server has received over the network. Shown as byte |
gcp.tpu.network.sent_bytes_count (count) | Cumulative bytes of data this server has sent over the network. Shown as byte |
ヘルプ
Google Cloud TPU インテグレーションには、イベントは含まれません。
ヘルプ
Google Cloud TPU インテグレーションには、サービスのチェック機能は含まれません。
ヘルプ
ご不明な点は、Datadog のサポートチームまでお問い合わせください。