コンテンツにスキップ

FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果

結論

  • A100 が最速でした。今回の比較では、QE long-run と LAMMPS selected stable case の両方で最上位です。
  • Ada は実用域でした。QE long-run と custom LLZO LAMMPS の selected stable case の両方で、A100に次ぐ現実的な選択肢です。
  • Blackwell は今回の条件と現行スタックでは Ada より遅い結果でした。差の主因は収束回数増ではなく、electrons 系の per-call cost 側に集中しました。

まず前提

  • 数値は handoff 済みの確定値に合わせています。
  • FP64 synthetic の順位は、実アプリの順位と一致しません。
  • LAMMPS の結果は 323 atoms の selected stable case です。以前の 50k staged case の直接比較ではありません。
  • Blackwell は今回の条件と現行スタックでの観測結果として扱います。一般論として「常に遅い」とは言いません。

比較結果の要約

QE long-run graphite_d3_k24

GPU median PWSCF WALL
A100 1073.87 s
Ada 1328.58 s
Blackwell 2088.90 s
  • 最終 total energy は 3者とも -47.83513151 Ry で一致しました。
  • したがって今回の差は「別の解に落ちた」より、同じ収束先へ行くまでの実行コスト差として読むのが妥当です。
  • 観測上の差は、収束回数の増加より electrons 系 per-call cost の差に寄っていました。

LAMMPS custom LLZO selected case(323 atoms)

GPU median step/s ns/day elapsed
A100 1.568 0.135 160.03 s
Ada 1.335 0.115 183.29 s
  • このケースでも A100 が最速、Ada は実用域でした。
  • ただし繰り返しになりますが、これは 323 atoms の selected stable case であり、50k staged case の直接比較ではありません。

native FP64 cuBLAS DGEMM

GPU FP64 DGEMM
A100 19.4056 TFLOP/s
Blackwell 1.5875 TFLOP/s
Ada 1.366926 TFLOP/s
  • synthetic では A100 >> Blackwell > Ada でした。
  • しかし実アプリ側では、少なくとも今回の QE 条件では Ada > Blackwell でした。
  • つまり FP64 synthetic だけで実アプリ順位を決めるのは危険です。

何が見えたか

1. A100 は今回の比較で一貫して最速

QE long-run では A100 が 1073.87 s、Ada が 1328.58 s、Blackwell が 2088.90 s でした。
LAMMPS selected stable case でも A100 が 1.568 step/s、Ada が 1.335 step/s です。
今回の条件では、A100 が最も安定して速い基準機でした。

2. Ada は「FP64 synthetic の見かけ」より実アプリで健闘

native FP64 DGEMM だけを見ると、Ada は 1.366926 TFLOP/s でかなり不利に見えます。
それでも実アプリでは、QE long-run を 1328.58 s で完走し、LAMMPS selected stable case でも 1.335 step/s を出しています。

このため、QE や LAMMPS の実運用を前提にした価格対実用性の検討では、Ada は候補から外しにくい、というのが今回の確認結果です。

3. Blackwell は今回条件では Ada を下回った

今回の QE 条件と現行スタックでは、Blackwell の median PWSCF WALL は 2088.90 s で、Ada の 1328.58 s を下回りました。
しかも差は「収束回数が増えたから」ではなく、electrons 系 per-call cost が重いことに集中していました。

ここは重要で、FP64 synthetic の理論値だけでは説明しきれないボトルネックが、実アプリ側に残っていることを示します。


選定上の読み方

  • 最速を取りにいくなら A100 が基準です。
  • 価格対実用性を重視するなら Ada は十分に検討対象です。
  • Blackwell は今回条件と現行スタックでは慎重評価が必要です。特に QE 系は、導入前に対象入力での確認を入れた方が安全です。
  • FP64 synthetic は入口の参考値であって、実アプリ性能の代用ではありません。

まとめ

  • A100 が最速
  • Ada は QE long-run と custom LLZO LAMMPS の selected stable case の両方で実用
  • Blackwell は今回の条件と現行スタックでは Ada を下回った
  • Blackwell の差は収束回数増ではなく electrons 系 per-call cost 差に集中
  • FP64 synthetic の順位は実アプリ順位と一致しない
  • LAMMPS の結果は 323 atoms selected stable case であり 50k staged case の直接比較ではない

比較条件の整理から相談したい場合

A100 クラスが必要か、Ada のような価格対実用性重視で足りるかを見たい場合は、比較条件の整理から相談できます。

お問い合わせ / Solutions(参考構成)