Rescue-Ready Baseline¶
Baseline と Runbook(無料)の違い
Baseline は「壊しても戻れるOS土台」です(Prod/Rescue + Btrfs/Timeshift でスナップショット→ロールバック)。
無料でダウンロードできるのは GPU自動化Runbook(install/verify/remove のスクリプト群)で、Baselineの上で安全に導入・検収を回すためのものです。
- Baseline:復旧できる“土台”(起動不能・ドライバ更新失敗・Slurm設定事故などを Rescue から戻す)
- Runbook(無料):その土台の上で「入れて→検証して→戻す」を標準化する手順・スクリプト
迷ったら: - まず Baseline を用意(壊しても戻れる)→ 次に Runbook でGPU/Slurmを試す - 期限/本番/複数人運用なら、伴走(相談)が最短です
無償公開:GPU自動化Runbook(install / verify / remove)¶
Rescue-Ready Baseline(Prod/Rescue + Btrfs/Timeshift)で「壊しても戻せる」を作った上で、
GPUスタック導入・検収・切り分けを “試して戻せる” 形で回すためのRunbookを 無償公開しています。
Release(詳細ページ):https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.0
Baselineの導入方法(3通り)¶
1) Server Gearで購入(おすすめ)¶
出荷時に Rescue-Ready Baseline(Prod/Rescue + Btrfs/Timeshift) を適用し、検収まで行って納品します。
「導入で詰まって研究が止まる」リスクを最小化したい方向けです。
2) 自分で構築(無料)¶
検証環境で試せるように、ガイドとスクリプト(install/verify/remove)を無償公開しています。
まずは安全に verifyからを推奨します。
- DIY簡易手順書(上級者向け):/guides/rescue-ready-baseline-diy/
- 無償Runbook(v0.1.0 zip):このページ上部のDLボタン
- 10分Quickstart:このページの手順どおり
初心者の方へ
途中で分からなくなったら、無理に進めず相談してください。
→ 導入・検収を相談する
3) 伴走して導入(有償)¶
本番環境で失敗できない/期限がある/Slurm運用まで固めたい場合は、伴走が早いです。
環境に合わせて「戻れる状態」を作り、検収テンプレまで整備します。
何が入っているか(無料)¶
Runbookは install / verify / remove の3本セットを基本とし、失敗時のロールバックを前提にしています。
- core:
sg-step/sg-precheck/sg-collect-info/sg-verify-gpu - gpu:NVIDIA driver(install/verify/remove)
- containers:Apptainer / GenAI demo(install/verify/remove)
- pytorch:PyTorch(Apptainer SIF)
- slurm:single-node + GenAI demo(install/verify/remove)
- optional:CUDA Toolkit / Docker GPU / NVHPC(環境差が大きいので任意)
無償公開:HW BOM / Inventory(納品台帳ジェネレータ)¶
サーバを構成する主要コンポーネントの 型番・仕様(必要ならシリアル)を一括収集し、
納品台帳/メーカー問い合わせ/サポート初動の「前提整理」に使えるレポートを生成します。
Release(詳細ページ):https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.1
何ができるか(無料)¶
- 出力:
report.md/report.json/report.csv - read-only(破壊的変更なし)
- 既定:識別子(serial/uuid/mac等)は マスク
- フル出力:
--include-serialまたは--redact-serial=off(※冒頭に注意書きが出ます) - 欠落ツールがあっても落ちない(取れない項目は
missingとして継続)
共有前に必ず確認
レポートには機微情報が含まれ得ます。社外共有前に内容を確認してください。
無償公開:Intel oneAPI + Intel MPI + Slurm Runbook(GPU無しHPC向け)¶
GPU無しHPCユーザーの重要要件である Intel MPI(oneAPI付属) + Slurm投入 を、最短で再現できるRunbook(install/verify/remove)です。
Ubuntu 24.04 固定で、sbatch → srun による end-to-end(ntasks=1/2/4)を verify で確認できます。
Release(詳細ページ):https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.1-oneapi
重要な注意(v0.1)¶
- 対象OS:Ubuntu 24.04 固定
- MPI:Intel MPI(oneAPI付属)
- verifyの核:Slurm上で sbatch→srun によるMPIジョブ完走
- Slurmが無い環境では一部 verify が SKIP になります(理由をログに残します)
困ったら(相談トリガー)
libpmi2 が見つからない/partition要件が合わない/nodeがdown/drain 等で詰まる場合は、伴走が最短です。
10分で試す(Quickstart)¶
まずは verify から(破壊的変更を避ける)
# 取得
git clone https://github.com/kenhanabusa/servergear-gpu-runbook.git
cd servergear-gpu-runbook
# 例:runbookを配置(必要ならパスを変えてください)
sudo install -m 0755 runbooks/core/* /usr/local/sbin/
sudo install -m 0755 runbooks/gpu/* /usr/local/sbin/
sudo install -m 0755 runbooks/containers/* /usr/local/sbin/
sudo install -m 0755 runbooks/pytorch/* /usr/local/sbin/
sudo install -m 0755 runbooks/slurm/* /usr/local/sbin/
# 最小の確認
sg-verify-gpu
Tip
ここで詰まったら、最小構成で切り分けしながら伴走します → 導入・検収を相談する
相談した方が早いケース(有償)¶
無料Runbookは「再現できる最小セット」です。次に当てはまる場合は、伴走した方が早く確実です。
- 本番環境で失敗できない / 期限がある
- Secure Boot / DKMS / Kernel差分で詰まる
- Slurm運用(multi-node、運用設計、監査/検収)まで固めたい
- ハード選定(GPU/メモリ/ストレージ)を根拠付きで決めたい
Security / Keys
Public repoのため、鍵・トークン(NGC/HFなど)や顧客固有情報は含めていません。
まずは検証環境で試してください。
GPU/HPCサーバ導入で一番高いコストは「失敗したときに戻れないこと」です。
Rescue-Ready Baselineは、Prod/Rescue 二重構成(/boot/efi×2 + /×2)+Btrfs/Timeshiftで「壊しても戻せる」を標準化し、導入・更新・検収を安全に回すための土台を作ります。
次にやること¶
-
今すぐ切り分け/検収を標準化したい → Workload Runbookへ
Workload Runbookを見る -
要件に合わせて設計から固めたい → HPC AI Design Packへ
HPC AI Design Packを見る
こんなときに必要です¶
- NVIDIAドライバ / CUDA / OFED / Slurm など、OSに近い変更を自分で触る
- 変更が頻繁(PoC→本番、構成変更、ユーザー増)
- 失敗すると研究・開発が止まる(締切がある)
- リモート設置で現地対応が難しい/複数人運用で属人化を避けたい
なぜ役に立つのか¶
典型的な事故:
- ドライバ更新で起動しない / sshできない
- DKMSやSecure Bootでドライバが読み込めない
- 設定変更でネットワークが不安定になる
- Slurm/cgroupでノードが上がらない
原因解析より先に詰むケースを、Rescue起動→ロールバックで救います。
Rescue-Ready Baseline の中身(概要)¶
- /boot/efi ×2(Prod/Rescue)
- /(root)×2(Prod/Rescue、Btrfs)
- Timeshift スナップショット
- Rescue起動から、Prodを任意スナップショットへロールバック可能
Prodが起動不能でも「Rescueから戻してやり直し」ができます。
LLMによる導入自動化との相性¶
LLMで「Apptainer入れて」「Slurm入れて」「ドライバ更新して」などを回すとき、現場で怖いのは 失敗時に復旧できないことです。
Rescue-Readyがあると運用をこう固定できます:
- 変更前スナップショット(必須)
- 作業実行(スクリプト/Runbook)
- 検証(verifyで合否)
- NGならロールバックして再実行
「怖い自動化」を「安全に回せる自動化」に変えます。
次の一手¶
- すぐ困っている(検収/切り分け):
Workload Runbook - 設計から固めたい(標準化/要件整理):
HPC AI Design Pack