SRE for AI/HPC:数百〜1000基GPUクラスタでのSRE事例
LLMに代表される大規模なAI基盤モデルの分散並列学習は、多数の高性能GPU、高帯域・低遅延のインターコネクトネットワークや分散ストレージを統合した、HPC(高性能計算)分野のスーパーコンピュータ相当の計算機インフラを必要とします。さくらインターネットでは、主にAI学習向けに設計されたAIスパコン「さくらONE」をサービスとして提供しています。さくらONEは、世界スパコン性能ランキングTOP500にて、初号機が2025年6月世界49位、弐号機、参号機が同年11月に93位、136位にランクインしました。初号機はNVIDIA H100 GPU 800基、弐号機はH200 440基、3号機はB200 384基、4号機はB200 1000基以上で構成されています。
AIスパコンは、クラウド上のウェブアプリケーションとは異なる信頼性特性があります。ハードウェア障害の割合が大きいことや、ユーザーインターフェイスがジョブスケジューラであること、構成要素の一箇所の故障や劣化が、ジョブの停止や性能低下を引き起こすストラグラーを抱えやすい構造があります。そのため、障害パターンが異なる、あるいは、よく知られたSREのプラクティスやツールがそのまま適用できないケースが多々あります。AIスパコンは現在のAI開発の源泉となる重要なインフラですが、SREのコミュニティではその実態を知る機会はほとんどありません。