名词表 · 阅读清单

碰到陌生术语？在 §A 里查；想按"高效路径"读原文？在 §B 里。这份顺序按"概念依赖"而不是"发表时间"排，每一步都建立在前一步的理解之上。

本页 2 节

§A名词表 · Glossary
§B推荐阅读顺序

§A名词表 · Glossary

术语	解释
Arithmetic Intensity	FLOPs ÷ 从内存读的 bytes；roofline 横轴。见 §1.3。
Attention sink	StreamingLLM 发现：softmax 必须把 "无意义" 质量倒在某处，开头若干 token 充当此角色。见 §3.3。
Causal mask	$M_{ij} = -\infty$ if $j > i$；保证 token 只看历史。
Chunked prefill	把长 prompt 的 prefill 切成小段，与 decode 共享 batch。见 §3.5。
Continuous batching	vLLM 引入；不同步长的请求动态拼 batch、随完成动态出。见 §7.1。
CUDA Graph	录制一段 kernel 序列、一次 launch，消除 host-side overhead。见 §13.1。
FlashAttention	tile 化 + online softmax 的 IO-aware exact attention；本综述的"入门票"。见 §2.1–§2.3。
Flow matching	把 diffusion 当 ODE，学速度场而不是噪声；π0 用它作 VLA action head。
FP4 / NVFP4 / MXFP4	4-bit 浮点格式；Blackwell 起原生支持，配合 group scale 提供 PTQ 路径。
FSDP	PyTorch 原生 ZeRO-3，把权重/梯度/optimizer state 切分到所有 rank。见 §8.2。
GQA / MQA / MLA	三种 KV head 共享或潜变量化的方案，KV cache 体积主要决定。见 §3.1。
HBM	High Bandwidth Memory；GPU 的"主存"，本综述无数次出现的瓶颈。
KV Cache	decode 时缓存的历史 K/V；推理显存与 token 数线性相关。
LoRA	低秩残差微调，几 MB checkpoint 撬动 70B 模型。见 §8.1。
MoE	Mixture of Experts；token 路由到 top-K 个 expert FFN。见 §6.3。
MTP	Multi-Token Prediction；DeepSeek-V3 在预训练时学预测多步，免费送 spec drafter。见 §4.4。
NSA	Native Sparse Attention；DeepSeek 把稀疏 attention 从训练时学起。见 §2.6。
PagedAttention	把 KV cache 按 16-token page 管理，像 OS 虚拟内存。见 §2.4。
Prefill / Decode	prompt 第一次前向 vs 后续每 token 前向；roofline 上两侧。见 §1.2。
RadixAttention	把活跃 prefix 维护成基数树，多请求复用 KV cache。见 §3.4。
Roofline	$\min(\text{Peak}, \text{BW} \cdot I)$ 的性能模型，定位 memory-bound / compute-bound。见 §1.3。
RoPE	Rotary Position Embedding；旋转矩阵注入相对位置，常与 attention 算子绑定 fuse。
SH / RMSNorm	RMSNorm = $x / \mathrm{RMS}(x) \cdot \gamma$；LLM 的默认 norm。
Speculative Decoding	小 drafter 提议 + 大 verifier 一次验证；数学上无损加速。见 §4.1。
Tensor Core	NVIDIA 自 Volta 起的矩阵 MAC 单元；FP16/BF16/FP8/FP4 加速来源。
Tile / Block	SM 内分块；attention / GEMM kernel 设计的最小并行粒度。
TP / PP / SP / EP / CP	张量 / 流水 / 序列 / 专家 / 上下文并行——大模型必备组合。见 §8.3。
Triton	Python-like GPU kernel DSL；FlashAttention、Mamba 等都用它写。
vLLM / SGLang / TRT-LLM	三大推理框架；前两者开源、Berkeley 系，第三个是 NVIDIA 自家。见第 VII 部。
WGMMA / TMA	Hopper 的异步 matmul / DMA；FlashAttention-3 性能来源。
ZeRO	Microsoft 的内存优化数据并行家族，1/2/3 三档对应切 state/grads/weights。

§B推荐阅读顺序

读完本站，下一步——按这条顺序读原文比按时间读高效：

Williams & Patterson 2009 (Roofline) → 把性能模型刻进脑子。
Dao 2022 (FlashAttention v1) → 把 attention 算子的思考方式打开。
Kwon 2023 (vLLM / PagedAttention) → 看 serving 系统怎么改 KV cache。
Ainslie 2023 (GQA) + DeepSeek-V2/V3 (MLA) → 现代 KV head 设计。
Leviathan 2022 (Speculative Decoding) + EAGLE-2/3 → 解码加速的全图。
Xiao 2022 (SmoothQuant) + GPTQ + AWQ + QuaRot → 量化的"必读四件套"。
Rajbhandari 2020 (ZeRO) + Megatron-LM tech report → 训练并行。
Frantar 2023 (SparseGPT) + Mixtral / DeepSeek-V3 tech report → 稀疏 / MoE。
Song 2023 (Consistency) + Yin 2023 (DMD) → diffusion 的极限蒸馏。
π0 + OpenVLA → VLA 部署的两种范式。
Genie 2 + CausVid + Sora tech report → world model / video DiT 的最新工程。
NSA + DeepEP + Mooncake → 2025 之后的"组合拳"工程。

顺序背后的设计

上面 12 步是按概念依赖排的，不是按发表时间：

1-3 建立"性能模型 + 一个完整 serving 框架"的基础认知；
4-5 是序列轴上的两条压缩路（共享 K/V vs 并行解码）；
6-7 是权重轴上的两条路（量化 vs 分片）；
8 桥接到 MoE/稀疏；
9 切到 diffusion；
10 切到 VLA；
11 切到 world model；
12 是 2025 之后的工业组合拳，看到这一步你已经准备好读任何新论文了。

读完之后

如果你能把以下三件事在白板上画出来—— (1) decode 的 roofline 位置、 (2) PagedAttention 的 block table 结构、 (3) speculative decoding 的 accept/reject 流—— 那么 60+ 节的内容已经在你的脑子里有了一个稳固的骨架。接下来读任何新论文，都只是在这个骨架上往特定位置加一颗螺丝。