コンテンツにスキップ

Server Gear | HPC + AI

QE GPU build vs コンテナ（例：NGC）— 最小比較ベンチ項目

QE GPU build vs コンテナ（例：NGC）— 最小比較ベンチ項目¶

目的：「なぜこのRunbookをDLする価値があるのか」を、最小の手数で数字で示す。

※ここでは “コンテナの入手方法” は扱いません。比較対象の pw.x が手元にある前提で、同一入力で測れる形にします。

比較の原則（必須）¶

同じノード / 同じGPU / 同じドライバで測る
同じ入力で測る（最低でも pw.x -in <same.in>）
同じ並列条件で測る（single / multi の2点）

見せる数字（最小セット）¶

1) single（1GPU想定）¶

wall time（秒）
GPU util の簡易確認（nvidia-smi）

2) multi（例：np=4 / -nk 4）¶

speedup = t(np=1) / t(np=4)
efficiency = speedup / 4

手順（Runbook build側）¶

A) Runbookで install → verify¶

sg-install-qe-gpu-src
sg-verify-qe-gpu-src --single
sg-verify-qe-gpu-src --multi

出力（ログ）に speedup / efficiency が出ます（Runbook側で整形済み）。

手順（コンテナ側：最小）¶

B) 同一入力を同じ条件で実行¶

single：pw.x -in <same.in>（コンテナ内の pw.x）
multi：mpirun -np 4 pw.x -nk 4 -in <same.in>（可能なら）

ここで “動けばOK”。動かない場合は “コンテナは便利だが詰まりやすい” の根拠にもなる。

LPに書く差別化（テンプレ）¶

「コンテナは便利だが、環境差(MPI/GPU/driver)で詰まりやすい」
「Runbookは install/verify/remove が揃い、検収でPASS/FAILが切れる」
「multi で speedup/efficiency を数字で体験できる」

BENCH-QE-001 — QE：NGCコンテナ vs 自前build（NVHPC+CUDA）実測（A100 PCIe×4）¶

環境（同一ノード）¶

OS: Ubuntu 24.04.3
GPU: NVIDIA A100 80GB PCIe ×4
Driver: 580.105.08（nvidia-smi 表示 CUDA 13.0）
CUDA Toolkit: nvcc 12.9 / NVHPC 25.7
MPI(host): Open MPI 4.1.7rc1

バージョン（重要）¶

NGC実測QE：Quantum ESPRESSO v7.3.1（tag: qe-7.3.1）
native（自前build）：Quantum ESPRESSO v7.5（Runbookで固定版を再現）

NGCタグ可用性（Evidence）¶

qe-7.5/7.5/v7.5 系タグは manifest unknown（存在せず）
実測できた上位候補：nvcr.io/hpc/quantum_espresso:qe-7.3.1
つまり NGCで “QE 7.5固定運用” が現時点で困難（タグ確定/可用性がボトルネック）

入力の同一性（厳密比較の担保）¶

pseudo_dir を portable 化（./pseudos）し、コンテナ/ネイティブで同一入力を成立
入力/UPF の SHA256 をログ化（Evidence ZIP内）

実測（wall time / speedup / efficiency）¶

item	native (QE 7.5)	NGC (QE 7.3.1)
verify(single) WALL	0.68s	1.00s
verify(multi) np=1 WALL	20.17s	20.77s
verify(multi) np=4 WALL	6.97s	9.10s
speedup (np1→np4)	2.89x	2.28x
efficiency	72.3%	57.1%

所見（LP/広告向け “結論3行”）¶

NGCは “QE 7.5タグが見つからず”、固定版（7.5）運用が難しい（タグ確定/可用性がボトルネック）。
同一入力の実測で、NGC（qe-7.3.1）は verify(single) が 0.68→1.00 秒で 1.47×遅い。さらに np=1→4 の効率も 57% と伸びが弱い（nativeは72%）。
自前build Runbook は 固定版（QE 7.5）＋検収PASSまでの再現性（入力/sha256/ログ/コマンド） を握れるため、閉域・監査・MPI/IB要件の現場に効く。

成果物（ログ/再現）¶

Evidence ZIP（ログ・入力・再現一式）：BENCH-QE-001_20260214_164232_evidence.zip
SHA256：BENCH-QE-001_20260214_164232_evidence.zip.sha256