コンテンツにスキップ

QE GPU build vs コンテナ(例:NGC)— 最小比較ベンチ項目

目的:「なぜこのRunbookをDLする価値があるのか」を、最小の手数で数字で示す。

※ここでは “コンテナの入手方法” は扱いません。比較対象の pw.x が手元にある前提で、同一入力で測れる形にします。


比較の原則(必須)

  • 同じノード / 同じGPU / 同じドライバで測る
  • 同じ入力で測る(最低でも pw.x -in <same.in>
  • 同じ並列条件で測る(single / multi の2点)

見せる数字(最小セット)

1) single(1GPU想定)

  • wall time(秒)
  • GPU util の簡易確認(nvidia-smi)

2) multi(例:np=4 / -nk 4)

  • speedup = t(np=1) / t(np=4)
  • efficiency = speedup / 4

手順(Runbook build側)

A) Runbookで install → verify

  • sg-install-qe-gpu-src
  • sg-verify-qe-gpu-src --single
  • sg-verify-qe-gpu-src --multi

出力(ログ)に speedup / efficiency が出ます(Runbook側で整形済み)。


手順(コンテナ側:最小)

B) 同一入力を同じ条件で実行

  • single:pw.x -in <same.in>(コンテナ内の pw.x)
  • multi:mpirun -np 4 pw.x -nk 4 -in <same.in>(可能なら)

ここで “動けばOK”。動かない場合は “コンテナは便利だが詰まりやすい” の根拠にもなる。


LPに書く差別化(テンプレ)

  • 「コンテナは便利だが、環境差(MPI/GPU/driver)で詰まりやすい」
  • 「Runbookは install/verify/remove が揃い、検収でPASS/FAILが切れる」
  • 「multi で speedup/efficiency を数字で体験できる」

BENCH-QE-001 — QE:NGCコンテナ vs 自前build(NVHPC+CUDA)実測(A100 PCIe×4)

環境(同一ノード)

  • OS: Ubuntu 24.04.3
  • GPU: NVIDIA A100 80GB PCIe ×4
  • Driver: 580.105.08(nvidia-smi 表示 CUDA 13.0)
  • CUDA Toolkit: nvcc 12.9 / NVHPC 25.7
  • MPI(host): Open MPI 4.1.7rc1

バージョン(重要)

  • NGC実測QE:Quantum ESPRESSO v7.3.1(tag: qe-7.3.1)
  • native(自前build):Quantum ESPRESSO v7.5(Runbookで固定版を再現)

NGCタグ可用性(Evidence)

  • qe-7.5/7.5/v7.5 系タグは manifest unknown(存在せず)
  • 実測できた上位候補:nvcr.io/hpc/quantum_espresso:qe-7.3.1
  • つまり NGCで “QE 7.5固定運用” が現時点で困難(タグ確定/可用性がボトルネック)

入力の同一性(厳密比較の担保)

  • pseudo_dir を portable 化(./pseudos)し、コンテナ/ネイティブで同一入力を成立
  • 入力/UPF の SHA256 をログ化(Evidence ZIP内)

実測(wall time / speedup / efficiency)

item native (QE 7.5) NGC (QE 7.3.1)
verify(single) WALL 0.68s 1.00s
verify(multi) np=1 WALL 20.17s 20.77s
verify(multi) np=4 WALL 6.97s 9.10s
speedup (np1→np4) 2.89x 2.28x
efficiency 72.3% 57.1%

所見(LP/広告向け “結論3行”)

  1. NGCは “QE 7.5タグが見つからず”、固定版(7.5)運用が難しい(タグ確定/可用性がボトルネック)。
  2. 同一入力の実測で、NGC(qe-7.3.1)は verify(single) が 0.68→1.00 秒で 1.47×遅い。さらに np=1→4 の効率も 57% と伸びが弱い(nativeは72%)。
  3. 自前build Runbook は 固定版(QE 7.5)+検収PASSまでの再現性(入力/sha256/ログ/コマンド) を握れるため、閉域・監査・MPI/IB要件の現場に効く。

成果物(ログ/再現)