Hub 附录
附录 · Appendix

名词表 · 阅读清单

碰到陌生术语?在 §A 里查;想按"高效路径"读原文?在 §B 里。 这份顺序按"概念依赖"而不是"发表时间"排, 每一步都建立在前一步的理解之上。

§A名词表 · Glossary

术语解释
Arithmetic IntensityFLOPs ÷ 从内存读的 bytes;roofline 横轴。见 §1.3
Attention sinkStreamingLLM 发现:softmax 必须把 "无意义" 质量倒在某处,开头若干 token 充当此角色。见 §3.3
Causal mask$M_{ij} = -\infty$ if $j > i$;保证 token 只看历史。
Chunked prefill把长 prompt 的 prefill 切成小段,与 decode 共享 batch。见 §3.5
Continuous batchingvLLM 引入;不同步长的请求动态拼 batch、随完成动态出。见 §7.1
CUDA Graph录制一段 kernel 序列、一次 launch,消除 host-side overhead。见 §13.1
FlashAttentiontile 化 + online softmax 的 IO-aware exact attention;本综述的"入门票"。见 §2.1–§2.3
Flow matching把 diffusion 当 ODE,学速度场而不是噪声;π0 用它作 VLA action head。
FP4 / NVFP4 / MXFP44-bit 浮点格式;Blackwell 起原生支持,配合 group scale 提供 PTQ 路径。
FSDPPyTorch 原生 ZeRO-3,把权重/梯度/optimizer state 切分到所有 rank。见 §8.2
GQA / MQA / MLA三种 KV head 共享或潜变量化的方案,KV cache 体积主要决定。见 §3.1
HBMHigh Bandwidth Memory;GPU 的"主存",本综述无数次出现的瓶颈。
KV Cachedecode 时缓存的历史 K/V;推理显存与 token 数线性相关。
LoRA低秩残差微调,几 MB checkpoint 撬动 70B 模型。见 §8.1
MoEMixture of Experts;token 路由到 top-K 个 expert FFN。见 §6.3
MTPMulti-Token Prediction;DeepSeek-V3 在预训练时学预测多步,免费送 spec drafter。见 §4.4
NSANative Sparse Attention;DeepSeek 把稀疏 attention 从训练时学起。见 §2.6
PagedAttention把 KV cache 按 16-token page 管理,像 OS 虚拟内存。见 §2.4
Prefill / Decodeprompt 第一次前向 vs 后续每 token 前向;roofline 上两侧。见 §1.2
RadixAttention把活跃 prefix 维护成基数树,多请求复用 KV cache。见 §3.4
Roofline$\min(\text{Peak}, \text{BW} \cdot I)$ 的性能模型,定位 memory-bound / compute-bound。见 §1.3
RoPERotary Position Embedding;旋转矩阵注入相对位置,常与 attention 算子绑定 fuse。
SH / RMSNormRMSNorm = $x / \mathrm{RMS}(x) \cdot \gamma$;LLM 的默认 norm。
Speculative Decoding小 drafter 提议 + 大 verifier 一次验证;数学上无损加速。见 §4.1
Tensor CoreNVIDIA 自 Volta 起的矩阵 MAC 单元;FP16/BF16/FP8/FP4 加速来源。
Tile / BlockSM 内分块;attention / GEMM kernel 设计的最小并行粒度。
TP / PP / SP / EP / CP张量 / 流水 / 序列 / 专家 / 上下文并行——大模型必备组合。见 §8.3
TritonPython-like GPU kernel DSL;FlashAttention、Mamba 等都用它写。
vLLM / SGLang / TRT-LLM三大推理框架;前两者开源、Berkeley 系,第三个是 NVIDIA 自家。见 第 VII 部
WGMMA / TMAHopper 的异步 matmul / DMA;FlashAttention-3 性能来源。
ZeROMicrosoft 的内存优化数据并行家族,1/2/3 三档对应切 state/grads/weights。

§B推荐阅读顺序

读完本站,下一步——按这条顺序读原文比按时间读高效:

  1. Williams & Patterson 2009 (Roofline) → 把性能模型刻进脑子。
  2. Dao 2022 (FlashAttention v1) → 把 attention 算子的思考方式打开。
  3. Kwon 2023 (vLLM / PagedAttention) → 看 serving 系统怎么改 KV cache。
  4. Ainslie 2023 (GQA) + DeepSeek-V2/V3 (MLA) → 现代 KV head 设计。
  5. Leviathan 2022 (Speculative Decoding) + EAGLE-2/3 → 解码加速的全图。
  6. Xiao 2022 (SmoothQuant) + GPTQ + AWQ + QuaRot → 量化的"必读四件套"。
  7. Rajbhandari 2020 (ZeRO) + Megatron-LM tech report → 训练并行。
  8. Frantar 2023 (SparseGPT) + Mixtral / DeepSeek-V3 tech report → 稀疏 / MoE。
  9. Song 2023 (Consistency) + Yin 2023 (DMD) → diffusion 的极限蒸馏。
  10. π0 + OpenVLA → VLA 部署的两种范式。
  11. Genie 2 + CausVid + Sora tech report → world model / video DiT 的最新工程。
  12. NSA + DeepEP + Mooncake → 2025 之后的"组合拳"工程。

顺序背后的设计

上面 12 步是按概念依赖排的,不是按发表时间:

  • 1-3 建立"性能模型 + 一个完整 serving 框架"的基础认知;
  • 4-5 是序列轴上的两条压缩路(共享 K/V vs 并行解码);
  • 6-7 是权重轴上的两条路(量化 vs 分片);
  • 8 桥接到 MoE/稀疏;
  • 9 切到 diffusion;
  • 10 切到 VLA;
  • 11 切到 world model;
  • 12 是 2025 之后的工业组合拳,看到这一步你已经准备好读任何新论文了。
读完之后

如果你能把以下三件事在白板上画出来—— (1) decode 的 roofline 位置、 (2) PagedAttention 的 block table 结构、 (3) speculative decoding 的 accept/reject 流—— 那么 60+ 节的内容已经在你的脑子里有了一个稳固的骨架。 接下来读任何新论文,都只是在这个骨架上往特定位置加一颗螺丝。

Made for learning. 完整 BibTeX、勘误、补遗欢迎 issue。 最后更新 2026-05-19。

本站所有内容基于公开发表论文 / arXiv preprint / 项目页 / 官方代码仓 / 技术博客。 交互演示是 Canvas2D 的教学玩具, 数字是数量级估计,不代表论文 / 实现的实际性能。

姊妹站:大规模 3D Gaussian Splatting 综述