コンテンツにスキップ

QE GPU build vs コンテナ(例:NGC)— 最小比較ベンチ項目

目的:「なぜこのRunbookをDLする価値があるのか」を、最小の手数で数字で示す。

このページで分かること(結論)

  1. 比較基準として NGC 側は QE 7.3.1 を採用し、同一条件で native QE 7.5 と実測比較している。
  2. 最新ベンチ(基準日 2026-02-20)では、np1/nk1 と np4/nk4 の両方で native が短時間だった。
  3. Runbook は QE 7.5 固定の導入・検収フローを再現でき、Evidence ZIP で根拠を追える。

※ここでは “コンテナの入手方法” は扱いません。比較対象の pw.x が手元にある前提で、同一入力で測れる形にします。


比較の原則(必須)

  • 同じノード / 同じGPU / 同じドライバで測る
  • 同じ入力で測る(最低でも pw.x -in <same.in>
  • 同じ並列条件で測る(single / multi の2点)

見せる数字(最小セット)

1) single(1GPU想定)

  • wall time(秒)
  • GPU util の簡易確認(nvidia-smi)

2) multi(例:np=4 / -nk 4)

  • speedup = t(np=1) / t(np=4)
  • efficiency = speedup / 4

手順(Runbook build側)

A) Runbookで install → verify

  • sg-install-qe-gpu-src
  • sg-verify-qe-gpu-src --single
  • sg-verify-qe-gpu-src --multi

出力(ログ)に speedup / efficiency が出ます(Runbook側で整形済み)。


手順(コンテナ側:最小)

B) 同一入力を同じ条件で実行

  • single:pw.x -in <same.in>(コンテナ内の pw.x)
  • multi:mpirun -np 4 pw.x -nk 4 -in <same.in>(可能なら)

ここで “動けばOK”。動かない場合は “コンテナは便利だが詰まりやすい” の根拠にもなる。


LPに書く差別化(テンプレ)

  • 「コンテナは便利だが、環境差(MPI/GPU/driver)で詰まりやすい」
  • 「Runbookは install/verify/remove が揃い、検収でPASS/FAILが切れる」
  • 「multi で speedup/efficiency を数字で体験できる」

BENCH-QE-001 — QE:NGCコンテナ vs 自前build(NVHPC+CUDA)実測(A100 PCIe×4)

環境(同一ノード)

  • OS: Ubuntu 24.04.3
  • GPU: NVIDIA A100 80GB PCIe ×4
  • Driver: 580.105.08(nvidia-smi 表示 CUDA 13.0)
  • CUDA Toolkit: nvcc 12.9 / NVHPC 25.7
  • MPI(host): Open MPI 4.1.7rc1

バージョン(重要)

  • NGC実測QE:Quantum ESPRESSO v7.3.1(tag: qe-7.3.1)
  • native(自前build):Quantum ESPRESSO v7.5(Runbookで固定版を再現)

NGCタグ可用性(Evidence)

  • qe-7.5/7.5/v7.5 系タグは manifest unknown(存在せず)
  • 実測できた上位候補:nvcr.io/hpc/quantum_espresso:qe-7.3.1
  • つまり NGCで “QE 7.5固定運用” が現時点で困難(タグ確定/可用性がボトルネック)

入力の同一性(厳密比較の担保)

  • pseudo_dir を portable 化(./pseudos)し、コンテナ/ネイティブで同一入力を成立
  • 入力/UPF の SHA256 をログ化(Evidence ZIP内)

実測(wall time / speedup / efficiency)

  • ベンチ基準日: 2026-02-20
  • ベンチ比較ソース: epw_metal_vs_ngc_20260220_163805
  • verify(single/multi) は 2026-02-14 実測を継続利用
item native (QE 7.5) NGC (QE 7.3.1)
bench np1 / nk1 WALL 30.84s 35.07s
bench np4 / nk4 WALL 9.92s 11.53s
verify(single) WALL 0.68s -
verify(multi) np=1 WALL 20.17s -
verify(multi) np=4 WALL 6.97s -
verify speedup (np1→np4) 2.89x -
verify efficiency 72.3% -

所見(LP/広告向け “結論3行”)

  1. NGCは “QE 7.5タグが見つからず”、固定版(7.5)運用が難しい(タグ確定/可用性がボトルネック)。
  2. 同一入力の実測で、ベンチ(epw_metal)では native が NGC より高速(np1/nk1: 30.84s vs 35.07s、np4/nk4: 9.92s vs 11.53s)。
  3. 自前build Runbook は 固定版(QE 7.5)+検収PASSまでの再現性(入力/sha256/ログ/コマンド) を握れるため、閉域・監査・MPI/IB要件の現場に効く。

成果物(ログ/再現)