AWS
← アップデート一覧に戻る
SageMaker2026年4月8日

Amazon SageMaker HyperPod、分散トレーニング向けギャングスケジューリングに対応

SageMaker HyperPod now supports gang scheduling for distributed training workloads

概要

Amazon SageMaker HyperPodのタスクガバナンスにギャングスケジューリング機能が追加された。分散トレーニングジョブに必要なすべてのPodが準備完了してから訓練を開始することで、部分的なジョブ実行によるリソース浪費やデッドロックを防止する。EKSオーケストレーターベースのHyperPodクラスターで、15のAWSリージョンで利用可能。

何が変わったか

  • 分散トレーニングジョブの全Pod準備完了を確認してから訓練を開始するギャングスケジューリング機能を追加
  • Pod準備待ち時間・ノード障害処理戦略・逐次ワークロード受付・リトライポリシーをHyperPodコンソールから設定可能
  • EKSオーケストレーターベースのHyperPodクラスターで15リージョン(米国東部2、米国西部2、AP5、欧州5、南米1)に対応

影響

既存のHyperPodクラスターに対して追加設定で有効化できる。EKSオーケストレーターベースのクラスターが対象。

対象ユーザー

SageMaker HyperPodで大規模分散トレーニングを実行するMLエンジニア・インフラ管理者

まとめ

SageMaker HyperPodで分散トレーニング向けギャングスケジューリングが15リージョンで利用可能になった。

原文タイトル

SageMaker HyperPod now supports gang scheduling for distributed training workloads

AWS公式アナウンスを読む →

関連ブログ記事

ブログでAWS・AIの解説記事を読む →

関連アップデート