AWS
← アップデート一覧に戻る
Bedrock2026年3月10日

Amazon Bedrockが初トークン遅延とクォータ消費の可観測性に対応

Amazon Bedrock now supports observability of First Token Latency and Quota Consumption

概要

Amazon Bedrockに2つの新しいCloudWatchメトリクス「TimeToFirstToken」と「EstimatedTPMQuotaUsage」が追加されました。TimeToFirstTokenはストリーミングAPIのレスポンス遅延を、EstimatedTPMQuotaUsageはトークン消費量の推移をリアルタイムで監視できます。これにより、クライアント側の計測なしにパフォーマンス監視とクォータ管理が容易になります。

何が変わったか

  • TimeToFirstTokenメトリクスを追加:ストリーミングAPIのレスポンス遅延を自動計測
  • EstimatedTPMQuotaUsageメトリクスを追加:TPMクォータ消費量をリアルタイム追跡
  • 全商用リージョンで利用可能:モデル別の詳細な監視が可能

影響

開発者はCloudWatchアラームを通じてレイテンシ低下やクォータ超過を即座に検知でき、より堅牢で予測可能なAIアプリケーション運用が可能になります。

対象ユーザー

AWS Bedrockを使用した生成AIアプリケーション開発者、DevOps/SRE、システム運用者

まとめ

Amazon Bedrockの運用監視機能がCloudWatch統合により強化され、プロダクション環境での信頼性と可管理性が向上しました。

原文タイトル

Amazon Bedrock now supports observability of First Token Latency and Quota Consumption

AWS公式アナウンスを読む →

関連アップデート