Amazon Bedrock AgentCore Evaluations の一般提供開始
Amazon Bedrock AgentCore Evaluations is now generally available
概要
Amazon Bedrock AgentCore Evaluations が一般提供となり、AIエージェントの自動品質評価機能が利用可能になりました。本番環境での継続的な監視、テストワークフローでの検証、定義された期待値に対するパフォーマンス測定が可能です。13個の組み込み評価機能、Ground Truthを使用した期待値との比較、カスタム評価機能の設定など、多様な評価方法をサポートしています。
何が変わったか
- ・オンライン評価機能:本番トラフィックから継続的にエージェントパフォーマンスをサンプリング・スコアリング
- ・オンデマンド評価機能:CI/CDパイプラインでの回帰テストと対話的開発ワークフロー対応
- ・Ground Truth機能:参照回答、行動アサーション、期待ツール実行順序による期待値との比較
- ・カスタム評価機能:LLMベース評価とPython/JavaScriptコードベース評価(Lambda実装)のサポート
- ・9つのAWSリージョンで利用可能:米国、アジア太平洋、ヨーロッパの主要リージョンに対応
影響
エージェント開発チームはリアルタイムアラート機能と統合された監視で問題を迅速に検出・対応でき、本番環境の品質低下を防止できます。カスタム評価機能により、業界固有の要件に合わせたエージェント評価が可能になり、より正確なパフォーマンス測定が実現します。
対象ユーザー
AIエージェント開発者、MLエンジニア、DevOpsエンジニア、QAエンジニア、AI/MLプロダクトマネージャー
まとめ
エージェントベースのAIアプリケーションの品質保証と本番監視を自動化・強化する包括的な評価プラットフォームといえます。
原文タイトル
Amazon Bedrock AgentCore Evaluations is now generally available
AWS公式アナウンスを読む →