コンテンツにスキップ

Rescue-Ready Baseline

Baseline と Runbook(無料)の違い

Baseline は「壊しても戻れるOS土台」です(Prod/Rescue + Btrfs/Timeshift でスナップショット→ロールバック)。
無料でダウンロードできるのは GPU自動化Runbook(install/verify/remove のスクリプト群)で、Baselineの上で安全に導入・検収を回すためのものです。

  • Baseline:復旧できる“土台”(起動不能・ドライバ更新失敗・Slurm設定事故などを Rescue から戻す)
  • Runbook(無料):その土台の上で「入れて→検証して→戻す」を標準化する手順・スクリプト

迷ったら: - まず Baseline を用意(壊しても戻れる)→ 次に Runbook でGPU/Slurmを試す - 期限/本番/複数人運用なら、伴走(相談)が最短です

無償公開:GPU自動化Runbook(install / verify / remove)

Rescue-Ready Baseline(Prod/Rescue + Btrfs/Timeshift)で「壊しても戻せる」を作った上で、
GPUスタック導入・検収・切り分けを “試して戻せる” 形で回すためのRunbookを 無償公開しています。

Release(詳細ページ):https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.0

Baselineの導入方法(3通り)

1) Server Gearで購入(おすすめ)

出荷時に Rescue-Ready Baseline(Prod/Rescue + Btrfs/Timeshift) を適用し、検収まで行って納品します。
「導入で詰まって研究が止まる」リスクを最小化したい方向けです。

導入・検収を相談する

2) 自分で構築(無料)

検証環境で試せるように、ガイドとスクリプト(install/verify/remove)を無償公開しています。
まずは安全に verifyからを推奨します。

  • DIY簡易手順書(上級者向け)/guides/rescue-ready-baseline-diy/
  • 無償Runbook(v0.1.0 zip):このページ上部のDLボタン
  • 10分Quickstart:このページの手順どおり

初心者の方へ

途中で分からなくなったら、無理に進めず相談してください。
導入・検収を相談する

3) 伴走して導入(有償)

本番環境で失敗できない/期限がある/Slurm運用まで固めたい場合は、伴走が早いです。
環境に合わせて「戻れる状態」を作り、検収テンプレまで整備します。

導入・検収を相談する

何が入っているか(無料)

Runbookは install / verify / remove の3本セットを基本とし、失敗時のロールバックを前提にしています。

  • coresg-step / sg-precheck / sg-collect-info / sg-verify-gpu
  • gpu:NVIDIA driver(install/verify/remove)
  • containers:Apptainer / GenAI demo(install/verify/remove)
  • pytorch:PyTorch(Apptainer SIF)
  • slurm:single-node + GenAI demo(install/verify/remove)
  • optional:CUDA Toolkit / Docker GPU / NVHPC(環境差が大きいので任意)

無償公開:HW BOM / Inventory(納品台帳ジェネレータ)

サーバを構成する主要コンポーネントの 型番・仕様(必要ならシリアル)を一括収集し、
納品台帳/メーカー問い合わせ/サポート初動の「前提整理」に使えるレポートを生成します。

Release(詳細ページ):https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.1


何ができるか(無料)

  • 出力:report.md / report.json / report.csv
  • read-only(破壊的変更なし)
  • 既定:識別子(serial/uuid/mac等)は マスク
  • フル出力:--include-serial または --redact-serial=off(※冒頭に注意書きが出ます)
  • 欠落ツールがあっても落ちない(取れない項目は missing として継続)

共有前に必ず確認

レポートには機微情報が含まれ得ます。社外共有前に内容を確認してください。


無償公開:Intel oneAPI + Intel MPI + Slurm Runbook(GPU無しHPC向け)

GPU無しHPCユーザーの重要要件である Intel MPI(oneAPI付属) + Slurm投入 を、最短で再現できるRunbook(install/verify/remove)です。
Ubuntu 24.04 固定で、sbatch → srun による end-to-end(ntasks=1/2/4)を verify で確認できます。

Release(詳細ページ):https://github.com/kenhanabusa/servergear-gpu-runbook/releases/tag/v0.1.1-oneapi


重要な注意(v0.1)

  • 対象OS:Ubuntu 24.04 固定
  • MPI:Intel MPI(oneAPI付属)
  • verifyの核:Slurm上で sbatch→srun によるMPIジョブ完走
  • Slurmが無い環境では一部 verify が SKIP になります(理由をログに残します)

困ったら(相談トリガー)

libpmi2 が見つからない/partition要件が合わない/nodeがdown/drain 等で詰まる場合は、伴走が最短です。

10分で試す(Quickstart)

まずは verify から(破壊的変更を避ける)

# 取得
git clone https://github.com/kenhanabusa/servergear-gpu-runbook.git
cd servergear-gpu-runbook

# 例:runbookを配置(必要ならパスを変えてください)
sudo install -m 0755 runbooks/core/* /usr/local/sbin/
sudo install -m 0755 runbooks/gpu/* /usr/local/sbin/
sudo install -m 0755 runbooks/containers/* /usr/local/sbin/
sudo install -m 0755 runbooks/pytorch/* /usr/local/sbin/
sudo install -m 0755 runbooks/slurm/* /usr/local/sbin/

# 最小の確認
sg-verify-gpu

Tip

ここで詰まったら、最小構成で切り分けしながら伴走します → 導入・検収を相談する


相談した方が早いケース(有償)

無料Runbookは「再現できる最小セット」です。次に当てはまる場合は、伴走した方が早く確実です。

  • 本番環境で失敗できない / 期限がある
  • Secure Boot / DKMS / Kernel差分で詰まる
  • Slurm運用(multi-node、運用設計、監査/検収)まで固めたい
  • ハード選定(GPU/メモリ/ストレージ)を根拠付きで決めたい

Security / Keys

Public repoのため、鍵・トークン(NGC/HFなど)や顧客固有情報は含めていません。
まずは検証環境で試してください。

GPU/HPCサーバ導入で一番高いコストは「失敗したときに戻れないこと」です。
Rescue-Ready Baselineは、Prod/Rescue 二重構成(/boot/efi×2 + /×2)+Btrfs/Timeshiftで「壊しても戻せる」を標準化し、導入・更新・検収を安全に回すための土台を作ります。

次にやること


こんなときに必要です

  • NVIDIAドライバ / CUDA / OFED / Slurm など、OSに近い変更を自分で触る
  • 変更が頻繁(PoC→本番、構成変更、ユーザー増)
  • 失敗すると研究・開発が止まる(締切がある)
  • リモート設置で現地対応が難しい/複数人運用で属人化を避けたい

なぜ役に立つのか

典型的な事故:

  • ドライバ更新で起動しない / sshできない
  • DKMSやSecure Bootでドライバが読み込めない
  • 設定変更でネットワークが不安定になる
  • Slurm/cgroupでノードが上がらない

原因解析より先に詰むケースを、Rescue起動→ロールバックで救います。


Rescue-Ready Baseline の中身(概要)

  • /boot/efi ×2(Prod/Rescue)
  • /(root)×2(Prod/Rescue、Btrfs)
  • Timeshift スナップショット
  • Rescue起動から、Prodを任意スナップショットへロールバック可能

Prodが起動不能でも「Rescueから戻してやり直し」ができます。


LLMによる導入自動化との相性

LLMで「Apptainer入れて」「Slurm入れて」「ドライバ更新して」などを回すとき、現場で怖いのは 失敗時に復旧できないことです。
Rescue-Readyがあると運用をこう固定できます:

  1. 変更前スナップショット(必須)
  2. 作業実行(スクリプト/Runbook)
  3. 検証(verifyで合否)
  4. NGならロールバックして再実行

「怖い自動化」を「安全に回せる自動化」に変えます。


次の一手