AI推論サービング実測：A100×4 vs H100 NVL×4（vLLM / Qwen2.5-7B）TTFTと同時ユーザー¶

結論（3行）

これは何の実測？¶

LLMをオンプレで“サーバとして提供する”ときの性能を測っています。
個人が1回推論する速さよりも、同時に何人が使えるか（同時リクエスト）と、
最初の返事までの体感速度（TTFT）が重要になります。

※スループットは Output token throughput (tok/s)、TTFTは Mean TTFT (ms)、TPOTは Mean TPOT (ms)。

Concurrency	H100 req/s	A100 req/s	req/s比	H100 tok/s	A100 tok/s	tok/s比	H100 TTFT(ms)	A100 TTFT(ms)	H100 TPOT(ms)	A100 TPOT(ms)
1	0.97	0.69	1.41×	247.20	176.56	1.40×	32.70	50.19	3.93	5.49
2	1.93	1.35	1.43×	493.44	344.84	1.43×	23.66	29.98	3.97	5.70
4	3.69	2.66	1.39×	944.44	682.14	1.38×	28.80	34.04	4.14	5.75
8	7.26	4.93	1.47×	1858.47	1261.90	1.47×	33.16	39.22	4.18	6.20
16	13.28	9.02	1.47×	3400.02	2308.60	1.47×	52.25	61.48	4.33	6.44
32	21.15	14.54	1.45×	5414.05	3723.32	1.45×	66.66	82.11	5.16	7.53

同時に使う人数（同時リクエスト）が増えても、H100×4の方が“返事が早くて、全体でさばける量が多い”
→ だから、社内AI（チャット/RAG/運用支援）を「複数人で同時に使う」用途で、投資理由が説明しやすくなります。

モデル/入力長/出力長/サーバ設定で数値は変わります。ここでは「同条件比較」で差を見るのが目的です。

オンプレで「社内AI（RAG/チャット/運用支援）」を動かす前提で、
想定同時ユーザー数・TTFT目標・ログ/監査要件まで含めて短期PoCが可能です。