コンテンツにスキップ

AI推論サービング実測:A100×4 vs H100 NVL×4(vLLM / Qwen2.5-7B)TTFTと同時ユーザー

結論(3行)

  • 同時32の出力スループット:H100×4 = 5414 tok/s, A100×4 = 3723 tok/s1.45×
  • 同時32のTTFT(平均):H100×4 = 66.66 ms, A100×4 = 82.11 ms(H100の方が短い)
  • つまり 「同時ユーザーが増えるほど差が効く」=社内AI・RAG・運用支援のような“多人数同時利用”でGPU選定の根拠にしやすい

これは何の実測?

LLMをオンプレで“サーバとして提供する”ときの性能を測っています。
個人が1回推論する速さよりも、同時に何人が使えるか(同時リクエスト)と、
最初の返事までの体感速度(TTFT)が重要になります。


実測条件(同一条件で比較)

  • モデル:Qwen/Qwen2.5-7B-Instruct
  • サーバ:vLLM(OpenAI互換API)
  • 入力/出力:input_len=512 / output_len=256
  • リクエスト数:num_prompts=200(各concurrencyで同一)
  • GPU:H100 NVL 94GB×4 vs A100 80GB×4
  • 並列:tensor_parallel_size=4
  • 同時実行(max_concurrency):1, 2, 4, 8, 16, 32

結果(H100×4 vs A100×4)

※スループットは Output token throughput (tok/s)、TTFTは Mean TTFT (ms)、TPOTは Mean TPOT (ms)

Concurrency H100 req/s A100 req/s req/s比 H100 tok/s A100 tok/s tok/s比 H100 TTFT(ms) A100 TTFT(ms) H100 TPOT(ms) A100 TPOT(ms)
1 0.97 0.69 1.41× 247.20 176.56 1.40× 32.70 50.19 3.93 5.49
2 1.93 1.35 1.43× 493.44 344.84 1.43× 23.66 29.98 3.97 5.70
4 3.69 2.66 1.39× 944.44 682.14 1.38× 28.80 34.04 4.14 5.75
8 7.26 4.93 1.47× 1858.47 1261.90 1.47× 33.16 39.22 4.18 6.20
16 13.28 9.02 1.47× 3400.02 2308.60 1.47× 52.25 61.48 4.33 6.44
32 21.15 14.54 1.45× 5414.05 3723.32 1.45× 66.66 82.11 5.16 7.53

“何がすごい?”を素人向けに一言で

同時に使う人数(同時リクエスト)が増えても、H100×4の方が“返事が早くて、全体でさばける量が多い”
→ だから、社内AI(チャット/RAG/運用支援)を「複数人で同時に使う」用途で、投資理由が説明しやすくなります。


どう売りに繋がる?(H200 NVLへの接続)

  • 4GPU:TTFTとスループットの底上げ(体感と同時ユーザー)
  • 8GPU:同時ユーザーの上限をさらに押し上げる/別案件を並列に回す(運用・PoCの回転が速くなる)

限界(正直に1行)

モデル/入力長/出力長/サーバ設定で数値は変わります。ここでは「同条件比較」で差を見るのが目的です。


PoC(オンプレ)相談

オンプレで「社内AI(RAG/チャット/運用支援)」を動かす前提で、
想定同時ユーザー数・TTFT目標・ログ/監査要件まで含めて短期PoCが可能です。

相談フォームへ