H200 NVL 1GPU + Runbook で、QE→Allegro→LAMMPS を“初めてでも”回す¶
目的はシンプルです:環境構築で詰まらず、計算が回り、検収でき、運用できる状態にする。
「QEもLAMMPSも触ったことがない。でもシミュレーションはやりたい」— その前提で作っています。
- 対応:日本国内のみ(海外販売不可)
- NDA / 閉域 / 学内規程など制約があってもOK
こんな人向け(狙いどころ)¶
- 研究・材料開発チームで 専任の計算担当がいない
- QE / LAMMPS / ML-IAP が未経験(または久しぶり)
- 「まずは1台で回る状態」を作って、そこから必要なら拡張したい
- 発注前に “動くかどうか”を確かめたい(検収が必要)
提供する価値(1GPUでも“買って使える”ようにする)¶
ソフトウェアバンドル(Runbook込み)¶
- QE → Allegro → LAMMPS の 最小再現(再現できる形に固定)
- 検収テンプレ(受け入れテスト):納品後に「OK/NG」がすぐ判定できる
- 実行手順(Runbook)・運用ポイント(ジョブ/ログ/再実行/データ保全)
- 「何をどう測れば良いか」の ベンチパック(比較・拡張の基準点)
目的(何を知りたいか)を伝えてもらえれば、そこから 最短で“回る形”に落とし込みます。
Proof(まずはベンチ1:Allegro + LAMMPS / 約50k atoms)¶
Proof(Bench1):Allegro + LAMMPS 推論スループット(LLZO bulk / 51,840 atoms / dt=1fs)
目的:「Allegro推論を毎step回すコスト」を、爆発しない条件で確実に測り、A100→H200の比較や4GPU/8GPU選定の土台にする。
| 項目 | 値 |
|---|---|
| 系 | LLZO bulk(base 2,592 atoms を 2×2×5 replicate → 51,840 atoms) |
| ポテンシャル | Allegro(NequIP/Allegro deployed model) |
| 実行 | LAMMPS + pair_style allegro |
| dt | 1 fs |
| 測定方法 | Throughput mode(座標固定 + setforce 0。物理MDではなく“推論コスト測定”) |
| Warmup | 2,000 steps |
| Measure | 20,000 steps |
| 実行 | ns/day | timesteps/s | katom-step/s | 備考 |
|---|---|---|---|---|
| A100 80GB ×1 | 0.175 | 2.024 | 104.930 | 1GPU |
| A100 80GB ×4(4レプリカ並列・平均/1GPU) | 0.174 | 2.010 | 104.222 | 4ジョブ同時実行の「1GPUあたり」 |
| A100 80GB ×4(4レプリカ並列・合計) | 0.695 | 8.041 | 416.886 | 合計スループット(3.97×) |
- 注:ここは「物理的に意味のあるNVT運動」を見ていません。推論スループットの下限(再現可能な基準値)として使います。
- 物理MD(NVT/安定条件)でのns/dayは、別ベンチ(Bench1-phys)として追加します。
- 詳細ページ:→ /benchmarks/lammps-allegro-llzo-bulk-50k/
- H200 NVL実測:同一ベンチパックを PoCで実行して提示(NDA/閉域OK、日本国内のみ)
なぜ “まず1GPU” なのか¶
- 4GPU/8GPUは強い一方、初手の投資としては重い
- 最初に必要なのは 「環境が固まり、再現でき、検収できる」こと
- 1GPUで基準(再現・運用)を固めると、4GPU/8GPUへの拡張が速い
(拡張時に“何が速くなったか”を説明できる)
価格帯の目安(構成・為替・納期で変動)¶
- H200 NVL 1GPU:~ 1,000万円
- (必要になれば)4GPU / 8GPU も同じ運用思想で拡張可能
まず相談(最短1分)¶
相談・見積(最短1分)
この条件、4GPUで足りるか / 8GPUが必要かだけでも整理できます(NDA/閉域/学内規程もOK)。
相談・見積へ(最短1分)
※ 研究記事の文脈を崩さない“要件整理”の相談として扱います