Amazon SageMaker HyperPod のオンデマンド深度ヘルスチェック機能
Amazon SageMaker HyperPod now supports on-demand deep health checks
概要
Amazon SageMaker HyperPodが、Amazon EKSおよびSlurm構成のクラスタに対するオンデマンド深度ヘルスチェック機能をサポート開始しました。実行中のインスタンスのGPUアクセラレータのヘルスをいつでも事前に検証できるようになります。Slurm構成のクラスタではクラスタ作成時のノードプロビジョニング中に深度ヘルスチェックを実施することも可能です。
何が変わったか
- ・Amazon EKSおよびSlurm構成のクラスタでオンデマンド深度ヘルスチェックに対応
- ・Slurm構成クラスタではクラスタ作成時のノードプロビジョニング段階で深度ヘルスチェックを実施可能
- ・SageMakerコンソールおよびAPIでインスタンスグループレベルおよびインスタンスレベルでチェック結果を可視化
影響
SageMaker HyperPodが利用可能なすべてのリージョンで利用できるため、既存ユーザーは追加設定なくこの機能を活用できます。
対象ユーザー
大規模な機械学習トレーニングをSageMaker HyperPodで実行するMLエンジニアおよびデータサイエンティスト
まとめ
SageMaker HyperPodがオンデマンド深度ヘルスチェック機能をサポートし、GPU健全性をクラスタ作成前後に検証可能になった。
原文タイトル
Amazon SageMaker HyperPod now supports on-demand deep health checks
AWS公式アナウンスを読む →