QE GPU build vs コンテナ(例:NGC)— 最小比較ベンチ項目¶
目的:「なぜこのRunbookをDLする価値があるのか」を、最小の手数で数字で示す。
※ここでは “コンテナの入手方法” は扱いません。比較対象の
pw.xが手元にある前提で、同一入力で測れる形にします。
比較の原則(必須)¶
- 同じノード / 同じGPU / 同じドライバで測る
- 同じ入力で測る(最低でも
pw.x -in <same.in>) - 同じ並列条件で測る(single / multi の2点)
見せる数字(最小セット)¶
1) single(1GPU想定)¶
- wall time(秒)
- GPU util の簡易確認(nvidia-smi)
2) multi(例:np=4 / -nk 4)¶
- speedup = t(np=1) / t(np=4)
- efficiency = speedup / 4
手順(Runbook build側)¶
A) Runbookで install → verify¶
sg-install-qe-gpu-srcsg-verify-qe-gpu-src --singlesg-verify-qe-gpu-src --multi
出力(ログ)に speedup / efficiency が出ます(Runbook側で整形済み)。
手順(コンテナ側:最小)¶
B) 同一入力を同じ条件で実行¶
- single:
pw.x -in <same.in>(コンテナ内の pw.x) - multi:
mpirun -np 4 pw.x -nk 4 -in <same.in>(可能なら)
ここで “動けばOK”。動かない場合は “コンテナは便利だが詰まりやすい” の根拠にもなる。
LPに書く差別化(テンプレ)¶
- 「コンテナは便利だが、環境差(MPI/GPU/driver)で詰まりやすい」
- 「Runbookは install/verify/remove が揃い、検収でPASS/FAILが切れる」
- 「multi で speedup/efficiency を数字で体験できる」
BENCH-QE-001 — QE:NGCコンテナ vs 自前build(NVHPC+CUDA)実測(A100 PCIe×4)¶
環境(同一ノード)¶
- OS: Ubuntu 24.04.3
- GPU: NVIDIA A100 80GB PCIe ×4
- Driver: 580.105.08(nvidia-smi 表示 CUDA 13.0)
- CUDA Toolkit: nvcc 12.9 / NVHPC 25.7
- MPI(host): Open MPI 4.1.7rc1
バージョン(重要)¶
- NGC実測QE:Quantum ESPRESSO v7.3.1(tag: qe-7.3.1)
- native(自前build):Quantum ESPRESSO v7.5(Runbookで固定版を再現)
NGCタグ可用性(Evidence)¶
- qe-7.5/7.5/v7.5 系タグは manifest unknown(存在せず)
- 実測できた上位候補:
nvcr.io/hpc/quantum_espresso:qe-7.3.1 - つまり NGCで “QE 7.5固定運用” が現時点で困難(タグ確定/可用性がボトルネック)
入力の同一性(厳密比較の担保)¶
- pseudo_dir を portable 化(
./pseudos)し、コンテナ/ネイティブで同一入力を成立 - 入力/UPF の SHA256 をログ化(Evidence ZIP内)
実測(wall time / speedup / efficiency)¶
| item | native (QE 7.5) | NGC (QE 7.3.1) |
|---|---|---|
| verify(single) WALL | 0.68s | 1.00s |
| verify(multi) np=1 WALL | 20.17s | 20.77s |
| verify(multi) np=4 WALL | 6.97s | 9.10s |
| speedup (np1→np4) | 2.89x | 2.28x |
| efficiency | 72.3% | 57.1% |
所見(LP/広告向け “結論3行”)¶
- NGCは “QE 7.5タグが見つからず”、固定版(7.5)運用が難しい(タグ確定/可用性がボトルネック)。
- 同一入力の実測で、NGC(qe-7.3.1)は verify(single) が 0.68→1.00 秒で 1.47×遅い。さらに np=1→4 の効率も 57% と伸びが弱い(nativeは72%)。
- 自前build Runbook は 固定版(QE 7.5)+検収PASSまでの再現性(入力/sha256/ログ/コマンド) を握れるため、閉域・監査・MPI/IB要件の現場に効く。
成果物(ログ/再現)¶
- Evidence ZIP(ログ・入力・再現一式):BENCH-QE-001_20260214_164232_evidence.zip
- SHA256:BENCH-QE-001_20260214_164232_evidence.zip.sha256