コンテンツにスキップ

Slurm Ship Single-Node Runbook

a100x4 向け Slurm mem auto / gres 整合を適用・検収する single-node shipping runbook です。

誰向けか

  • single-node HPC 管理者
  • 出荷担当
  • GPU ノードの検収担当

含まれるもの

  • precheck
  • config generation
  • verify
  • rollback entrypoint
  • verify logs
  • generated gres expected file

含まれないもの

  • multi-node scheduler design
  • accounting setup
  • RDMA tuning

前提環境

  • Ubuntu 24.04
  • single-node Slurm
  • 既存 Slurm cluster config
  • apply/remove 用の sudo

検証済み環境

  • a100x4
  • Ubuntu 24.04.3
  • Slurm 23.11.4
  • 2026-03-24 verify PASS

Verify / Evidence

  • verify: PASS
  • evidence: gres_match=PASS, gpu_check=PASS, cpu_check=PASS
  • 参考: /runbooks/evidence/

既知の制限

  • apply/remove replay は当日未実施
  • multi-node は対象外
  • 未検証環境では追加検証が必要

サポート境界

関連商品

CTA

  • 購入前相談: /contact/
  • Payment Link placeholder: TODO_PAYMENT_LINK_SLURM_SHIP_SINGLE_NODE

注意

  • fresh host install/remove は今後の強化項目です
  • root-required 操作は人間レビュー前提の箇所が残ります