Rescue-Ready Baseline¶

Baseline と Runbook（無料）の違い

Baseline は「壊しても戻れるOS土台」です（Prod/Rescue + Btrfs/Timeshift でスナップショット→ロールバック）。
無料でダウンロードできるのは GPU自動化Runbook（install/verify/remove のスクリプト群）で、Baselineの上で安全に導入・検収を回すためのものです。

Baseline：復旧できる“土台”（起動不能・ドライバ更新失敗・Slurm設定事故などを Rescue から戻す）
Runbook（無料）：その土台の上で「入れて→検証して→戻す」を標準化する手順・スクリプト

迷ったら： - まず Baseline を用意（壊しても戻れる）→ 次に Runbook でGPU/Slurmを試す - 期限/本番/複数人運用なら、伴走（相談）が最短です

無償公開：GPU自動化Runbook（install / verify / remove）¶

Rescue-Ready Baseline（Prod/Rescue + Btrfs/Timeshift）で「壊しても戻せる」を作った上で、
GPUスタック導入・検収・切り分けを “試して戻せる” 形で回すためのRunbookを 無償公開しています。

無料でダウンロード：servergear-gpu-runbook v0.1.0（zip）導入・検収を相談する（Runbook納品 / 伴走）

Release（詳細ページ）：https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.0

Baselineの導入方法（3通り）¶

1) Server Gearで購入（おすすめ）¶

出荷時に Rescue-Ready Baseline（Prod/Rescue + Btrfs/Timeshift） を適用し、検収まで行って納品します。
「導入で詰まって研究が止まる」リスクを最小化したい方向けです。

→ 導入・検収を相談する

2) 自分で構築（無料）¶

検証環境で試せるように、ガイドとスクリプト（install/verify/remove）を無償公開しています。
まずは安全に verifyからを推奨します。

DIY簡易手順書（上級者向け）：/guides/rescue-ready-baseline-diy/
無償Runbook（v0.1.0 zip）：このページ上部のDLボタン
10分Quickstart：このページの手順どおり

初心者の方へ

途中で分からなくなったら、無理に進めず相談してください。
→ 導入・検収を相談する

3) 伴走して導入（有償）¶

本番環境で失敗できない／期限がある／Slurm運用まで固めたい場合は、伴走が早いです。
環境に合わせて「戻れる状態」を作り、検収テンプレまで整備します。

→ 導入・検収を相談する

何が入っているか（無料）¶

Runbookは install / verify / remove の3本セットを基本とし、失敗時のロールバックを前提にしています。

core：sg-step / sg-precheck / sg-collect-info / sg-verify-gpu
gpu：NVIDIA driver（install/verify/remove）
containers：Apptainer / GenAI demo（install/verify/remove）
pytorch：PyTorch（Apptainer SIF）
slurm：single-node + GenAI demo（install/verify/remove）
optional：CUDA Toolkit / Docker GPU / NVHPC（環境差が大きいので任意）

無償公開：HW BOM / Inventory（納品台帳ジェネレータ）¶

サーバを構成する主要コンポーネントの 型番・仕様（必要ならシリアル）を一括収集し、
納品台帳／メーカー問い合わせ／サポート初動の「前提整理」に使えるレポートを生成します。

無料でダウンロード：sg-hw-inventory v0.1.1（zip）導入・検収を相談する（伴走）

Release（詳細ページ）：https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.1

何ができるか（無料）¶

出力：report.md / report.json / report.csv
read-only（破壊的変更なし）
既定：識別子（serial/uuid/mac等）は マスク
フル出力：--include-serial または --redact-serial=off（※冒頭に注意書きが出ます）
欠落ツールがあっても落ちない（取れない項目は missing として継続）

共有前に必ず確認

レポートには機微情報が含まれ得ます。社外共有前に内容を確認してください。

無償公開：Intel oneAPI + Intel MPI + Slurm Runbook（GPU無しHPC向け）¶

GPU無しHPCユーザーの重要要件である Intel MPI（oneAPI付属） + Slurm投入 を、最短で再現できるRunbook（install/verify/remove）です。
Ubuntu 24.04 固定で、sbatch → srun による end-to-end（ntasks=1/2/4）を verify で確認できます。

無料でダウンロード：oneAPI+Intel MPI+Slurm Runbook v0.1.1（zip）導入・検収を相談する（伴走）

Release（詳細ページ）：https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.1-oneapi

重要な注意（v0.1）¶

対象OS：Ubuntu 24.04 固定
MPI：Intel MPI（oneAPI付属）
verifyの核：Slurm上で sbatch→srun によるMPIジョブ完走
Slurmが無い環境では一部 verify が SKIP になります（理由をログに残します）

困ったら（相談トリガー）

libpmi2 が見つからない／partition要件が合わない／nodeがdown/drain 等で詰まる場合は、伴走が最短です。

10分で試す（Quickstart）¶

まずは verify から（破壊的変更を避ける）

# 取得
git clone https://github.com/kenhanabusa/servergear-gpu-runbook.git
cd servergear-gpu-runbook

# 例：runbookを配置（必要ならパスを変えてください）
sudo install -m 0755 runbooks/core/* /usr/local/sbin/
sudo install -m 0755 runbooks/gpu/* /usr/local/sbin/
sudo install -m 0755 runbooks/containers/* /usr/local/sbin/
sudo install -m 0755 runbooks/pytorch/* /usr/local/sbin/
sudo install -m 0755 runbooks/slurm/* /usr/local/sbin/

# 最小の確認
sg-verify-gpu

Tip

ここで詰まったら、最小構成で切り分けしながら伴走します → 導入・検収を相談する

相談した方が早いケース（有償）¶

無料Runbookは「再現できる最小セット」です。次に当てはまる場合は、伴走した方が早く確実です。

本番環境で失敗できない / 期限がある
Secure Boot / DKMS / Kernel差分で詰まる
Slurm運用（multi-node、運用設計、監査/検収）まで固めたい
ハード選定（GPU/メモリ/ストレージ）を根拠付きで決めたい

導入・検収を相談する（Runbook納品 / 伴走）

Security / Keys

Public repoのため、鍵・トークン（NGC/HFなど）や顧客固有情報は含めていません。
まずは検証環境で試してください。

GPU/HPCサーバ導入で一番高いコストは「失敗したときに戻れないこと」です。
Rescue-Ready Baselineは、Prod/Rescue 二重構成（/boot/efi×2 + /×2）＋Btrfs/Timeshiftで「壊しても戻せる」を標準化し、導入・更新・検収を安全に回すための土台を作ります。

次にやること¶

今すぐ切り分け/検収を標準化したい → Workload Runbookへ
Workload Runbookを見る
要件に合わせて設計から固めたい → HPC AI Design Packへ
HPC AI Design Packを見る

こんなときに必要です¶

NVIDIAドライバ / CUDA / OFED / Slurm など、OSに近い変更を自分で触る
変更が頻繁（PoC→本番、構成変更、ユーザー増）
失敗すると研究・開発が止まる（締切がある）
リモート設置で現地対応が難しい／複数人運用で属人化を避けたい

なぜ役に立つのか¶

典型的な事故：

ドライバ更新で起動しない / sshできない
DKMSやSecure Bootでドライバが読み込めない
設定変更でネットワークが不安定になる
Slurm/cgroupでノードが上がらない

原因解析より先に詰むケースを、Rescue起動→ロールバックで救います。

Rescue-Ready Baseline の中身（概要）¶

/boot/efi ×2（Prod/Rescue）
/（root）×2（Prod/Rescue、Btrfs）
Timeshift スナップショット
Rescue起動から、Prodを任意スナップショットへロールバック可能

Prodが起動不能でも「Rescueから戻してやり直し」ができます。

LLMによる導入自動化との相性¶

LLMで「Apptainer入れて」「Slurm入れて」「ドライバ更新して」などを回すとき、現場で怖いのは 失敗時に復旧できないことです。
Rescue-Readyがあると運用をこう固定できます：

変更前スナップショット（必須）
作業実行（スクリプト/Runbook）
検証（verifyで合否）
NGならロールバックして再実行

「怖い自動化」を「安全に回せる自動化」に変えます。

次の一手¶

すぐ困っている（検収/切り分け）：
Workload Runbook
設計から固めたい（標準化/要件整理）：
HPC AI Design Pack