AI推論サービング実測:A100×4 vs H100 NVL×4(vLLM / Qwen2.5-7B)TTFTと同時ユーザー¶
結論(3行)
- 同時32の出力スループット:H100×4 = 5414 tok/s, A100×4 = 3723 tok/s(1.45×)
- 同時32のTTFT(平均):H100×4 = 66.66 ms, A100×4 = 82.11 ms(H100の方が短い)
- つまり 「同時ユーザーが増えるほど差が効く」=社内AI・RAG・運用支援のような“多人数同時利用”でGPU選定の根拠にしやすい
これは何の実測?¶
LLMをオンプレで“サーバとして提供する”ときの性能を測っています。
個人が1回推論する速さよりも、同時に何人が使えるか(同時リクエスト)と、
最初の返事までの体感速度(TTFT)が重要になります。
実測条件(同一条件で比較)¶
- モデル:Qwen/Qwen2.5-7B-Instruct
- サーバ:vLLM(OpenAI互換API)
- 入力/出力:input_len=512 / output_len=256
- リクエスト数:num_prompts=200(各concurrencyで同一)
- GPU:H100 NVL 94GB×4 vs A100 80GB×4
- 並列:tensor_parallel_size=4
- 同時実行(max_concurrency):1, 2, 4, 8, 16, 32
結果(H100×4 vs A100×4)¶
※スループットは Output token throughput (tok/s)、TTFTは Mean TTFT (ms)、TPOTは Mean TPOT (ms)。
| Concurrency | H100 req/s | A100 req/s | req/s比 | H100 tok/s | A100 tok/s | tok/s比 | H100 TTFT(ms) | A100 TTFT(ms) | H100 TPOT(ms) | A100 TPOT(ms) |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 0.97 | 0.69 | 1.41× | 247.20 | 176.56 | 1.40× | 32.70 | 50.19 | 3.93 | 5.49 |
| 2 | 1.93 | 1.35 | 1.43× | 493.44 | 344.84 | 1.43× | 23.66 | 29.98 | 3.97 | 5.70 |
| 4 | 3.69 | 2.66 | 1.39× | 944.44 | 682.14 | 1.38× | 28.80 | 34.04 | 4.14 | 5.75 |
| 8 | 7.26 | 4.93 | 1.47× | 1858.47 | 1261.90 | 1.47× | 33.16 | 39.22 | 4.18 | 6.20 |
| 16 | 13.28 | 9.02 | 1.47× | 3400.02 | 2308.60 | 1.47× | 52.25 | 61.48 | 4.33 | 6.44 |
| 32 | 21.15 | 14.54 | 1.45× | 5414.05 | 3723.32 | 1.45× | 66.66 | 82.11 | 5.16 | 7.53 |
“何がすごい?”を素人向けに一言で¶
同時に使う人数(同時リクエスト)が増えても、H100×4の方が“返事が早くて、全体でさばける量が多い”
→ だから、社内AI(チャット/RAG/運用支援)を「複数人で同時に使う」用途で、投資理由が説明しやすくなります。
どう売りに繋がる?(H200 NVLへの接続)¶
- 4GPU:TTFTとスループットの底上げ(体感と同時ユーザー)
- 8GPU:同時ユーザーの上限をさらに押し上げる/別案件を並列に回す(運用・PoCの回転が速くなる)
限界(正直に1行)¶
モデル/入力長/出力長/サーバ設定で数値は変わります。ここでは「同条件比較」で差を見るのが目的です。
PoC(オンプレ)相談¶
オンプレで「社内AI(RAG/チャット/運用支援)」を動かす前提で、
想定同時ユーザー数・TTFT目標・ログ/監査要件まで含めて短期PoCが可能です。