FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果¶

結論

A100 が最速でした。今回の比較では、QE long-run と LAMMPS selected stable case の両方で最上位です。
Ada は実用域でした。QE long-run と custom LLZO LAMMPS の selected stable case の両方で、A100に次ぐ現実的な選択肢です。
Blackwell は今回の条件と現行スタックでは Ada より遅い結果でした。差の主因は収束回数増ではなく、electrons 系の per-call cost 側に集中しました。

まず前提¶

数値は handoff 済みの確定値に合わせています。
FP64 synthetic の順位は、実アプリの順位と一致しません。
LAMMPS の結果は 323 atoms の selected stable case です。以前の 50k staged case の直接比較ではありません。
Blackwell は今回の条件と現行スタックでの観測結果として扱います。一般論として「常に遅い」とは言いません。

比較結果の要約¶

QE long-run `graphite_d3_k24`¶

GPU	median PWSCF WALL
A100	1073.87 s
Ada	1328.58 s
Blackwell	2088.90 s

最終 total energy は 3者とも -47.83513151 Ry で一致しました。
したがって今回の差は「別の解に落ちた」より、同じ収束先へ行くまでの実行コスト差として読むのが妥当です。
観測上の差は、収束回数の増加より electrons 系 per-call cost の差に寄っていました。

LAMMPS custom LLZO selected case（323 atoms）¶

GPU	median step/s	ns/day	elapsed
A100	1.568	0.135	160.03 s
Ada	1.335	0.115	183.29 s

このケースでも A100 が最速、Ada は実用域でした。
ただし繰り返しになりますが、これは 323 atoms の selected stable case であり、50k staged case の直接比較ではありません。

native FP64 cuBLAS DGEMM¶

GPU	FP64 DGEMM
A100	19.4056 TFLOP/s
Blackwell	1.5875 TFLOP/s
Ada	1.366926 TFLOP/s

synthetic では A100 >> Blackwell > Ada でした。
しかし実アプリ側では、少なくとも今回の QE 条件では Ada > Blackwell でした。
つまり FP64 synthetic だけで実アプリ順位を決めるのは危険です。

何が見えたか¶

1. A100 は今回の比較で一貫して最速¶

QE long-run では A100 が 1073.87 s、Ada が 1328.58 s、Blackwell が 2088.90 s でした。
LAMMPS selected stable case でも A100 が 1.568 step/s、Ada が 1.335 step/s です。
今回の条件では、A100 が最も安定して速い基準機でした。

2. Ada は「FP64 synthetic の見かけ」より実アプリで健闘¶

native FP64 DGEMM だけを見ると、Ada は 1.366926 TFLOP/s でかなり不利に見えます。
それでも実アプリでは、QE long-run を 1328.58 s で完走し、LAMMPS selected stable case でも 1.335 step/s を出しています。

このため、QE や LAMMPS の実運用を前提にした価格対実用性の検討では、Ada は候補から外しにくい、というのが今回の確認結果です。

3. Blackwell は今回条件では Ada を下回った¶

今回の QE 条件と現行スタックでは、Blackwell の median PWSCF WALL は 2088.90 s で、Ada の 1328.58 s を下回りました。
しかも差は「収束回数が増えたから」ではなく、electrons 系 per-call cost が重いことに集中していました。

ここは重要で、FP64 synthetic の理論値だけでは説明しきれないボトルネックが、実アプリ側に残っていることを示します。

選定上の読み方¶

最速を取りにいくなら A100 が基準です。
価格対実用性を重視するなら Ada は十分に検討対象です。
Blackwell は今回条件と現行スタックでは慎重評価が必要です。特に QE 系は、導入前に対象入力での確認を入れた方が安全です。
FP64 synthetic は入口の参考値であって、実アプリ性能の代用ではありません。

まとめ¶

A100 が最速
Ada は QE long-run と custom LLZO LAMMPS の selected stable case の両方で実用
Blackwell は今回の条件と現行スタックでは Ada を下回った
Blackwell の差は収束回数増ではなく electrons 系 per-call cost 差に集中
FP64 synthetic の順位は実アプリ順位と一致しない
LAMMPS の結果は 323 atoms selected stable case であり 50k staged case の直接比較ではない

比較条件の整理から相談したい場合

A100 クラスが必要か、Ada のような価格対実用性重視で足りるかを見たい場合は、比較条件の整理から相談できます。

→ お問い合わせ / Solutions（参考構成）