コンテンツにスキップ

LLZO fast-charge bottleneck map on A100x4

このページは、A100x4 上にすでに存在する LLZO 関連資産を使って構成した 比較用の bottleneck map です。新規に環境を作り直したものではなく、既存の QE 7.5 runbook baseline を再利用しつつ、verify と bench を wrapper ベースの fixed stack に pin して、bulk / grain_boundary / interface を同一の再現条件で見比べられるようにしています。

これは full-cell のフル充電時間を予測するページではありません。目的はもっと限定的で、LLZO の bulk、grain boundary、Li interface 関連資産を同じ A100x4 上で並べたとき、どこが Li 輸送のボトルネック候補として最も見えやすいか を整理することです。


Scope

  • このページは bulk / grain_boundary / interface のあいだで、どこが最も詰まりやすく見えるか を比較します。
  • full-cell の充電時間を予測した、という主張はしません。
  • canonical reproduction path は wrapper ベースの fixed stack です。raw core runbook entrypoints は使いません。
  • 既存の QE 7.5 prefix は そのまま再利用しており、再 build していません。

Canonical reproduction condition

このページの canonical path は、QE 7.5 + NVHPC 26.1 + CUDA 13.1 + HPC-X 2.25.1 を使う wrapper ベースの fixed stack です。

この形を採る理由は、doctor は 26.1 系で通っている一方、raw core flow の verify / bench にはまだ 25.7 fallback が残っているためです。公開ページでは、その揺れを避けるために wrapper-pinned で非破壊な経路を正としています。

Fixed stack

Item Value
Stack name a100x4-qe75-nvhpc261-hpcx2251-cuda131
QE prefix /home/dl/.local/sg/qe-gpu-src/qe-7.5
NVHPC 26.1
CUDA 13.1
MPI HPC-X 2.25.1

Why this stack is canonical

  • pw.x は既存の QE 7.5 prefix をそのまま使います。
  • nvcmpirun を同じ 26.1 / 13.1 系列に揃えられます。
  • raw core runbook fallback path を、まだ upstream で確定していない public canonical route として扱わずに済みます。

One-figure summary

LLZO fast-charge bottleneck map summary

Bulk は fast-path reference、grain boundary は現時点で最も明瞭な bottleneck hotspot、interface は比較 schema に入っているものの crossing / residence の明示抽出が次段、という関係を 1 枚で示しています。


Comparison summary

Series Status Key signal Takeaway Evidence Canonical stack
bulk ready_existing High-mobility reference Bulk sets the fast-path baseline. Density slices + MSD + 3D tunnels already present. a100x4-qe75-nvhpc261-hpcx2251-cuda131
grain boundary ready_existing Strongest visible bottleneck hotspot GB localizes Li and deviates most clearly from bulk. GB enrichment, z-heatmap, and GB/bulk diffusion contrast exist. a100x4-qe75-nvhpc261-hpcx2251-cuda131
interface partial_existing_commonized Interface transfer readiness, partial extraction Interface is in schema, but crossing/residence extraction is next. Pinned stack, AIMD MSD, and 4-GPU benchmark are already present. a100x4-qe75-nvhpc261-hpcx2251-cuda131

Value-bearing comparison table

Series Engine Temperature Density/profile signal Diffusion / MSD signal Residence Crossing Bottleneck indicator Cost / run signal
bulk QE AIMD 700 K vtk+slices: viz_li_density/li_density_700K.vtk D_cm2_s=0.0004407700466200467 status:not_yet_extracted_from_bulk_paths status:not_applicable_bulk_reference 3d_tunnels_html_available status:reuse_existing_run_logs
grain boundary LAMMPS+Allegro 700 K rho_peak_ratio=3.1393518518518513; rho_gbmean_ratio=2.1847222222222222 D_total_cm2_s=3.348e-06; D_ratio_gb_bulk=3.1162790697674416 status:derive_from_li_z_timeseries_next status:derive_from_dump_next Gamma_nm2=14.954; gb_enrichment_visible 4gpu_log=log.sd2_700K_4gpu.txt
interface QE AIMD + LAMMPS+Allegro 700 K status:charge_density_and_relaxed_xyz_available msd_end_t=0.04837769; msd_end=9.41058992 status:trajectory_frames=2563;residence_extractor_next status:frames_ready=2563;crossing_extractor_next status:pathway_traj_present_and_common_schema_ready 4 200000 2468.72 7.000 81.014 377.848 0:41:11 3.324x 83.1%

この表は bottleneck map であって、full-cell charging time の予測ではありません。A100x4 上の単一 fixed reproduction path で、LLZO 関連の 3 条件において どこが最も constrained に見えるか を比較しています。


What the comparison says

bulk

bulk は高移動度側の reference です。既存の QE AIMD 出力には MSD、density、3D tunnel 系 asset がすでにあるため、bulk は最も分かりやすい bottleneck 候補というより、fast-path baseline として機能します。

grain boundary

grain boundary は、現時点の frozen schema では最も強い bottleneck hotspot です。Li localization と bulk からのずれが、すでに比較可能な形で見えています。

  • rho_peak_ratio=3.1393518518518513
  • rho_gbmean_ratio=2.1847222222222222
  • D_total_cm2_s=3.348e-06
  • D_ratio_gb_bulk=3.1162790697674416
  • Gamma_nm2=14.954

このため、frozen package では GB 行が最も強い current bottleneck signal を持ちます。

interface

interface は同じ common schema に正規化済みですが、まだ完成済みの bottleneck verdict ではなく partial row です。frozen package の立場では、次に必要なのは stack の再構築ではなく、interface crossing と residence を bulk / GB と同じ schema に落とすことです。

The current frozen row already includes:

  • msd_end_t=0.04837769
  • msd_end=9.41058992
  • trajectory_frames=2563
  • a 4-GPU benchmark signal: 3.324x with 83.1%

つまり interface 側は未着手なのではなく、commonized 済みだが fully extracted ではない、という位置づけです。


Reuse and proof

このデモは fresh install から始めていません。A100x4 上の既存 Server Gear QE runbook baseline を再利用し、doctor と verify / bench の間にあった NVHPC stack drift を非破壊 pin で取り除いたうえで、bulk / grain-boundary / Li-interface の LLZO asset を比較しています。

実務上の価値は、bulk-only の LLZO demo で終わらないことです。既存 runbook baseline を活かしつつ fixed wrapper-based stack を明示することで、同じ A100x4 ホスト上で bulk / grain boundary / interface を並べて見せられる状態になっています。


Scope clarification

  • このページは bottleneck map です。
  • full-cell charging time を予測した、という公開主張はしません。
  • A100x4 上の単一 fixed reproduction path を使って、bulk / grain boundary / interface のどこが最も constrained に見えるかを比較しています。
  • 公開上の canonical path は、引き続き fixed-stack wrapper flow です。

What to look at next

深掘りする場合は、次の順で追うのが自然です。

  • このページの fixed-stack explanation
  • stack sanity 用の QE build / native baseline ページ
  • 最も強い hotspot signal が出ている LLZO grain-boundary ページ
  • crossing / residence extraction の次段が乗る interface ページ

次のアクション(迷ったらここ)