AWS
← アップデート一覧に戻る
SageMaker2026年3月25日

Amazon SageMaker HyperPod、Slurm対応クラスターの継続的プロビジョニングに対応

Amazon SageMaker HyperPod now supports continuous provisioning for Slurm-orchestrated clusters

概要

Amazon SageMaker HyperPodがSlumオーケストレーターを使用するクラスターに対して継続的プロビジョニング機能を拡張しました。これにより、インスタンスグループの一部が完全にプロビジョニングされなくても、利用可能なインスタンスでトレーニングジョブをすぐに開始できるようになりました。複数インスタンスグループの同時スケーリングが可能になり、マニュアル介入なしでクラスターが目標規模に到達することを保証します。

何が変わったか

  • Slumオーケストレーター対応クラスターで継続的プロビジョニングが利用可能に
  • 優先度ベースのノード起動により、Slumコントローラー→ログイン→ワーカーノードの順序で効率的にプロビジョニング
  • 複数インスタンスグループにおける非ブロッキングの同時スケーリング操作に対応
  • 失敗したノード起動の非同期リトライと自動追加機能を実装

影響

ユーザーはインスタンスプロビジョニングの完了を待たずにトレーニングを開始でき、スケーリング操作がブロックされることなく複数グループで並行実行が可能になります。これにより、大規模AI/MLトレーニングワークロード運用の効率と信頼性が大幅に向上します。

対象ユーザー

MLエンジニア、データサイエンティスト、AI/ML基盤エンジニア、クラウドアーキテクト

まとめ

大規模AI/MLトレーニング環境におけるクラスタープロビジョニングの柔軟性と効率性の向上です。

原文タイトル

Amazon SageMaker HyperPod now supports continuous provisioning for Slurm-orchestrated clusters

AWS公式アナウンスを読む →

関連アップデート