Slurm Ship Single-Node Runbook¶
a100x4 向け Slurm mem auto / gres 整合を適用・検収する single-node shipping runbook です。
誰向けか¶
- single-node HPC 管理者
- 出荷担当
- GPU ノードの検収担当
含まれるもの¶
- precheck
- config generation
- verify
- rollback entrypoint
- verify logs
- generated gres expected file
含まれないもの¶
- multi-node scheduler design
- accounting setup
- RDMA tuning
前提環境¶
- Ubuntu 24.04
- single-node Slurm
- 既存 Slurm cluster config
- apply/remove 用の sudo
検証済み環境¶
a100x4Ubuntu 24.04.3Slurm 23.11.4- 2026-03-24 verify PASS
Verify / Evidence¶
- verify: PASS
- evidence:
gres_match=PASS,gpu_check=PASS,cpu_check=PASS - 参考: /runbooks/evidence/
既知の制限¶
- apply/remove replay は当日未実施
- multi-node は対象外
- 未検証環境では追加検証が必要
サポート境界¶
関連商品¶
CTA¶
- 購入前相談: /contact/
- Payment Link placeholder:
TODO_PAYMENT_LINK_SLURM_SHIP_SINGLE_NODE
注意¶
- fresh host install/remove は今後の強化項目です
- root-required 操作は人間レビュー前提の箇所が残ります