FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果¶
結論
- A100 が最速でした。今回の比較では、QE long-run と LAMMPS selected stable case の両方で最上位です。
- Ada は実用域でした。QE long-run と custom LLZO LAMMPS の selected stable case の両方で、A100に次ぐ現実的な選択肢です。
- Blackwell は今回の条件と現行スタックでは Ada より遅い結果でした。差の主因は収束回数増ではなく、
electrons系の per-call cost 側に集中しました。
まず前提¶
- 数値は handoff 済みの確定値に合わせています。
- FP64 synthetic の順位は、実アプリの順位と一致しません。
- LAMMPS の結果は 323 atoms の selected stable case です。以前の 50k staged case の直接比較ではありません。
- Blackwell は今回の条件と現行スタックでの観測結果として扱います。一般論として「常に遅い」とは言いません。
比較結果の要約¶
QE long-run graphite_d3_k24¶
| GPU | median PWSCF WALL |
|---|---|
| A100 | 1073.87 s |
| Ada | 1328.58 s |
| Blackwell | 2088.90 s |
- 最終 total energy は 3者とも
-47.83513151 Ryで一致しました。 - したがって今回の差は「別の解に落ちた」より、同じ収束先へ行くまでの実行コスト差として読むのが妥当です。
- 観測上の差は、収束回数の増加より
electrons系 per-call cost の差に寄っていました。
LAMMPS custom LLZO selected case(323 atoms)¶
| GPU | median step/s | ns/day | elapsed |
|---|---|---|---|
| A100 | 1.568 | 0.135 | 160.03 s |
| Ada | 1.335 | 0.115 | 183.29 s |
- このケースでも A100 が最速、Ada は実用域でした。
- ただし繰り返しになりますが、これは 323 atoms の selected stable case であり、50k staged case の直接比較ではありません。
native FP64 cuBLAS DGEMM¶
| GPU | FP64 DGEMM |
|---|---|
| A100 | 19.4056 TFLOP/s |
| Blackwell | 1.5875 TFLOP/s |
| Ada | 1.366926 TFLOP/s |
- synthetic では A100 >> Blackwell > Ada でした。
- しかし実アプリ側では、少なくとも今回の QE 条件では Ada > Blackwell でした。
- つまり FP64 synthetic だけで実アプリ順位を決めるのは危険です。
何が見えたか¶
1. A100 は今回の比較で一貫して最速¶
QE long-run では A100 が 1073.87 s、Ada が 1328.58 s、Blackwell が 2088.90 s でした。
LAMMPS selected stable case でも A100 が 1.568 step/s、Ada が 1.335 step/s です。
今回の条件では、A100 が最も安定して速い基準機でした。
2. Ada は「FP64 synthetic の見かけ」より実アプリで健闘¶
native FP64 DGEMM だけを見ると、Ada は 1.366926 TFLOP/s でかなり不利に見えます。
それでも実アプリでは、QE long-run を 1328.58 s で完走し、LAMMPS selected stable case でも 1.335 step/s を出しています。
このため、QE や LAMMPS の実運用を前提にした価格対実用性の検討では、Ada は候補から外しにくい、というのが今回の確認結果です。
3. Blackwell は今回条件では Ada を下回った¶
今回の QE 条件と現行スタックでは、Blackwell の median PWSCF WALL は 2088.90 s で、Ada の 1328.58 s を下回りました。
しかも差は「収束回数が増えたから」ではなく、electrons 系 per-call cost が重いことに集中していました。
ここは重要で、FP64 synthetic の理論値だけでは説明しきれないボトルネックが、実アプリ側に残っていることを示します。
選定上の読み方¶
- 最速を取りにいくなら A100 が基準です。
- 価格対実用性を重視するなら Ada は十分に検討対象です。
- Blackwell は今回条件と現行スタックでは慎重評価が必要です。特に QE 系は、導入前に対象入力での確認を入れた方が安全です。
- FP64 synthetic は入口の参考値であって、実アプリ性能の代用ではありません。
まとめ¶
- A100 が最速
- Ada は QE long-run と custom LLZO LAMMPS の selected stable case の両方で実用
- Blackwell は今回の条件と現行スタックでは Ada を下回った
- Blackwell の差は収束回数増ではなく
electrons系 per-call cost 差に集中 - FP64 synthetic の順位は実アプリ順位と一致しない
- LAMMPS の結果は 323 atoms selected stable case であり 50k staged case の直接比較ではない
比較条件の整理から相談したい場合
A100 クラスが必要か、Ada のような価格対実用性重視で足りるかを見たい場合は、比較条件の整理から相談できます。