コンテンツにスキップ

H200 NVL 1GPU + Runbook で、QE→Allegro→LAMMPS を“初めてでも”回す

目的はシンプルです:環境構築で詰まらず、計算が回り、検収でき、運用できる状態にする。
「QEもLAMMPSも触ったことがない。でもシミュレーションはやりたい」— その前提で作っています。

  • 対応:日本国内のみ(海外販売不可)
  • NDA / 閉域 / 学内規程など制約があってもOK

こんな人向け(狙いどころ)

  • 研究・材料開発チームで 専任の計算担当がいない
  • QE / LAMMPS / ML-IAP が未経験(または久しぶり)
  • 「まずは1台で回る状態」を作って、そこから必要なら拡張したい
  • 発注前に “動くかどうか”を確かめたい(検収が必要)

提供する価値(1GPUでも“買って使える”ようにする)

ソフトウェアバンドル(Runbook込み)

  • QE → Allegro → LAMMPS の 最小再現(再現できる形に固定)
  • 検収テンプレ(受け入れテスト):納品後に「OK/NG」がすぐ判定できる
  • 実行手順(Runbook)・運用ポイント(ジョブ/ログ/再実行/データ保全)
  • 「何をどう測れば良いか」の ベンチパック(比較・拡張の基準点)

目的(何を知りたいか)を伝えてもらえれば、そこから 最短で“回る形”に落とし込みます


Proof(まずはベンチ1:Allegro + LAMMPS / 約50k atoms)

Proof(Bench1):Allegro + LAMMPS 推論スループット(LLZO bulk / 51,840 atoms / dt=1fs)

目的:「Allegro推論を毎step回すコスト」を、爆発しない条件で確実に測り、A100→H200の比較や4GPU/8GPU選定の土台にする。

項目
LLZO bulk(base 2,592 atoms を 2×2×5 replicate → 51,840 atoms
ポテンシャル Allegro(NequIP/Allegro deployed model)
実行 LAMMPS + pair_style allegro
dt 1 fs
測定方法 Throughput mode(座標固定 + setforce 0。物理MDではなく“推論コスト測定”)
Warmup 2,000 steps
Measure 20,000 steps
実行 ns/day timesteps/s katom-step/s 備考
A100 80GB ×1 0.175 2.024 104.930 1GPU
A100 80GB ×4(4レプリカ並列・平均/1GPU) 0.174 2.010 104.222 4ジョブ同時実行の「1GPUあたり」
A100 80GB ×4(4レプリカ並列・合計) 0.695 8.041 416.886 合計スループット(3.97×)
  • 注:ここは「物理的に意味のあるNVT運動」を見ていません。推論スループットの下限(再現可能な基準値)として使います。
  • 物理MD(NVT/安定条件)でのns/dayは、別ベンチ(Bench1-phys)として追加します。
  • 詳細ページ:→ /benchmarks/lammps-allegro-llzo-bulk-50k/
  • H200 NVL実測:同一ベンチパックを PoCで実行して提示(NDA/閉域OK、日本国内のみ)

なぜ “まず1GPU” なのか

  • 4GPU/8GPUは強い一方、初手の投資としては重い
  • 最初に必要なのは 「環境が固まり、再現でき、検収できる」こと
  • 1GPUで基準(再現・運用)を固めると、4GPU/8GPUへの拡張が速い
    (拡張時に“何が速くなったか”を説明できる)

価格帯の目安(構成・為替・納期で変動)

  • H200 NVL 1GPU:~ 1,000万円
  • (必要になれば)4GPU / 8GPU も同じ運用思想で拡張可能

まず相談(最短1分)

相談・見積(最短1分)
この条件、4GPUで足りるか / 8GPUが必要かだけでも整理できます(NDA/閉域/学内規程もOK)。
相談・見積へ(最短1分)
※ 研究記事の文脈を崩さない“要件整理”の相談として扱います