Yuuki TSUBOUCHI yuuki

タイトル

SRE for AI/HPC：数百〜1000基GPUクラスタでのSRE事例

発表の概要 / Abstract

LLMに代表される大規模なAI基盤モデルの分散並列学習は、多数の高性能GPU、高帯域・低遅延のインターコネクトネットワークや分散ストレージを統合した、HPC（高性能計算）分野のスーパーコンピュータ相当の計算機インフラを必要とします。さくらインターネットでは、主にAI学習向けに設計されたAIスパコン「さくらONE」をサービスとして提供しています。さくらONEは、世界スパコン性能ランキングTOP500にて、初号機が2025年6月世界49位、弐号機、参号機が同年11月に93位、136位にランクインしました。初号機はNVIDIA H100 GPU 800基、弐号機はH200 440基、３号機はB200 384基、４号機はB200 1000基以上で構成されています。

AIスパコンは、クラウド上のウェブアプリケーションとは異なる信頼性特性があります。ハードウェア障害の割合が大きいことや、ユーザーインターフェイスがジョブスケジューラであること、構成要素の一箇所の故障や劣化が、ジョブの停止や性能低下を引き起こすストラグラーを抱えやすい構造があります。そのため、障害パターンが異なる、あるいは、よく知られたSREのプラクティスやツールがそのまま適用できないケースが多々あります。AIスパコンは現在のAI開発の源泉となる重要なインフラですが、SREのコミュニティではその実態を知る機会はほとんどありません。

タイトル

工学としてのSRE再訪

発表の概要（500文字以内）

SREが普及するにつれて、システム管理のアプローチは技芸から工学（科学）へ移り変わっています。2010年発行の書籍ウェブオペレーションでは、「ウェブオペレーションは技芸であり、科学ではない。」と書かれています。システム管理の個別具体的な技術はコンピュータサイエンスに依るとしても、個別技術の集合体と人間が統合されたサービスを正常に稼働させ続けることは技芸の範疇にありました。SRE普及以後は、ユーザー視点に基づくエンドツーエンドの信頼性を定義・計測し、計測結果に基づいて、開発・運用の意思決定を行うようになりました。しかしながら、システム管理の分野を技芸から工学へと昇華させるための土台となる知識や過程、その精神は、現在のエンジニアコミュニティにはいまだ共有されていません。

そこで、本発表では、コンピュータサイエンス、ソフトウェア工学、信頼性工学、認知科学などの工学・科学分野がSREにどのように接続されているかを、歴史的な論文や書籍、SREcon、LISAなどのプレゼンテーションを基に、発表者の見解を交えながら、紐解いていきます。

発表のタイトル（50文字以内）

エンジニア向けSRE論文への招待

発表の概要（500文字以内）

SREとその関連分野では、情報科学の他の分野と同様に、日々多数の論文が企業や大学から公開されています。これらの論文に書かれている内容が、目前のSREの業務に直結することは稀ですが、論文には必ず新しいことが書かれているため、知的な刺激を受けることができます。さらに、その論文のアイディアが社会実装されていないケースでは、エンジニアがそのアイディアを実装することでコミュニティへの貢献機会にもなり得ます。しかし、エンジニアコミュニティで共有されるブログ記事などとは異なり、機械学習など一部の分野を除いて、論文を発見するための導線が少なく、エンジニア向けの論文の読み方も共有されている例はありません。

そこで、本発表では、最先端のアイディアを発見・実装したいと考えるエンジニアに向けて、発表者の5年間のSRE研究と5年間のSRE業務の経験を踏まえて、SRE分野の論文の探し方・読み方を紹介します。探し方については、論文の種類やSRE分野に関連する国際会議、検索ツールの使い方などを、読み方については、単一の論文の下読み・精読方法と複数の論文を横断するシントピカルな読み方をそれぞれ概説します。

Field: The fileds of security and MLOps are out of scope.
CORE Rank: http://portal.core.edu.au/conf-ranks/ at 09/2023.
Research Impact Score: https://research.com/conference-rankings/computer-science at 09/2023.

Name	Field	CORE Rank	Research Impact Score
International Conference on Software Engineering (ICSE)	Software Engineering	A*	11.80
[ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/F

2020 Year in Review | Taichi Nakashima
Google Omegaとは何か? Kubernetesとの関連は? 論文著者とのQA（翻訳） | Taichi Nakashima
Web サービスの信頼性と運用の自動化について / iot40-rrreeeyyy - Speaker Deck
nhiroki's weblog
Research Paper カテゴリーの記事一覧 - tom__bo’s Blog
論文メモ | κeenのHappy Hacκing Blog
論文の検索結果 - チェシャ猫の消滅定理
時系列データベースに関する基礎知識と時系列データの符号化方式について - クックパッド開発者ブログ
これから読みたい論文メモ - inductor's blog
[The History of Distributed Databases - Google, Amazon, Facebook など巨大企業による分散データベース技術の発展 | Wantedly Engineer Blog](https://www.wantedly.com/c

以下は、ChatGPT（model: GPT-4）にSREのインシデント対応のシナリオを創作してもらったときのプロンプトとその回答です。

Prompt 1

SRE（Site Reliability Engineering）のエキスパートになりきってください。
あなたは、Twitterのような架空の短文メッセージ投稿サービスを開発・運用するエンジニアです。このサービスには、メッセージの投稿、ユーザー同士のフォロー、フォローしたユーザーのメッセージタイムラインの閲覧、といった機能が含まれています。

1. このサービスに名前をつけてください。

	最近の生成AIの興隆は、これまでの新しいソフトウェア技術の登場よりも、直感では非常に大きなインパクトを持っているように感じている。今この瞬間できることはまだまだといえばそうだが、研究者やエンジニアでない一般の人も実際に使えるようになり、認知が一気に拡大した。そうすると、お金と人材の二次的・三次的な流動があり、新しい技術やプロダクトの登場がより加速していく。

	このような状況に対して、様々な考えをもつことができる。例えば次のようなものが挙げられる。

	1. 近年中にAGIが誕生し、シンギュラリティが起きる。AIに労働をすべてを任せ、AIに人間社会をコントロールしてもらう。
	1. AGIは今の生成AIの延長線上にある
	2. AGIは生成AIとは根本的に異なるアーキテクチャから生まれる
	2. AGIが誕生するが、AIに強い制限をかけ、人間社会に大きな影響を与えないようにする
	3. AGIレベルには達せず、現状のChatGPTの少し賢い版のレベルにとどまるが、APIを通して広く様々な製品に浸透する。ツールとして便利に使えばいい。
	4. 倫理的・法的観点で、現状のChatGPTですら制約をかけられ、利用を大きく制限される。（実際にイタリアでは一次的に利用が禁止された）

	あなたはマイクロサービスアプリケーションSock ShopのSREです。
	Sock Shopはcarts,catalogue,front-end,orders,user,payment,shippingの7個のマイクロサービスにより構成されています。

	以下は、Sock Shopのネットワーク通信の依存関係をmarmaid記法で表現したものです。

	flowchart LR
	front[front-end]
	front --> orders[orders]
	subgraph Orders
	orders --> ordersdb[orders-db]

	### Keybase proof

	I hereby claim:

	* I am yuuki on github.
	* I am yuuk1 (https://keybase.io/yuuk1) on keybase.
	* I have a public key ASBFV8aMOPGlvpfO7C3UOiDShTQQMDRaomEEBhfRUmv6wgo

	To claim this, I am signing this object:

	{
	"annotations": {
	"list": [
	{
	"builtIn": 1,
	"datasource": {
	"type": "grafana",
	"uid": "-- Grafana --"
	},
	"enable": true,