Hub
›
附录
附录 · Appendix
名词表 · 阅读清单
碰到陌生术语?在 §A 里查;想按"高效路径"读原文?在 §B 里。 这份顺序按"概念依赖"而不是"发表时间"排, 每一步都建立在前一步的理解之上。
本页 2 节
- §A名词表 · Glossary
- §B推荐阅读顺序
§A名词表 · Glossary
| 术语 | 解释 |
|---|---|
| Arithmetic Intensity | FLOPs ÷ 从内存读的 bytes;roofline 横轴。见 §1.3。 |
| Attention sink | StreamingLLM 发现:softmax 必须把 "无意义" 质量倒在某处,开头若干 token 充当此角色。见 §3.3。 |
| Causal mask | $M_{ij} = -\infty$ if $j > i$;保证 token 只看历史。 |
| Chunked prefill | 把长 prompt 的 prefill 切成小段,与 decode 共享 batch。见 §3.5。 |
| Continuous batching | vLLM 引入;不同步长的请求动态拼 batch、随完成动态出。见 §7.1。 |
| CUDA Graph | 录制一段 kernel 序列、一次 launch,消除 host-side overhead。见 §13.1。 |
| FlashAttention | tile 化 + online softmax 的 IO-aware exact attention;本综述的"入门票"。见 §2.1–§2.3。 |
| Flow matching | 把 diffusion 当 ODE,学速度场而不是噪声;π0 用它作 VLA action head。 |
| FP4 / NVFP4 / MXFP4 | 4-bit 浮点格式;Blackwell 起原生支持,配合 group scale 提供 PTQ 路径。 |
| FSDP | PyTorch 原生 ZeRO-3,把权重/梯度/optimizer state 切分到所有 rank。见 §8.2。 |
| GQA / MQA / MLA | 三种 KV head 共享或潜变量化的方案,KV cache 体积主要决定。见 §3.1。 |
| HBM | High Bandwidth Memory;GPU 的"主存",本综述无数次出现的瓶颈。 |
| KV Cache | decode 时缓存的历史 K/V;推理显存与 token 数线性相关。 |
| LoRA | 低秩残差微调,几 MB checkpoint 撬动 70B 模型。见 §8.1。 |
| MoE | Mixture of Experts;token 路由到 top-K 个 expert FFN。见 §6.3。 |
| MTP | Multi-Token Prediction;DeepSeek-V3 在预训练时学预测多步,免费送 spec drafter。见 §4.4。 |
| NSA | Native Sparse Attention;DeepSeek 把稀疏 attention 从训练时学起。见 §2.6。 |
| PagedAttention | 把 KV cache 按 16-token page 管理,像 OS 虚拟内存。见 §2.4。 |
| Prefill / Decode | prompt 第一次前向 vs 后续每 token 前向;roofline 上两侧。见 §1.2。 |
| RadixAttention | 把活跃 prefix 维护成基数树,多请求复用 KV cache。见 §3.4。 |
| Roofline | $\min(\text{Peak}, \text{BW} \cdot I)$ 的性能模型,定位 memory-bound / compute-bound。见 §1.3。 |
| RoPE | Rotary Position Embedding;旋转矩阵注入相对位置,常与 attention 算子绑定 fuse。 |
| SH / RMSNorm | RMSNorm = $x / \mathrm{RMS}(x) \cdot \gamma$;LLM 的默认 norm。 |
| Speculative Decoding | 小 drafter 提议 + 大 verifier 一次验证;数学上无损加速。见 §4.1。 |
| Tensor Core | NVIDIA 自 Volta 起的矩阵 MAC 单元;FP16/BF16/FP8/FP4 加速来源。 |
| Tile / Block | SM 内分块;attention / GEMM kernel 设计的最小并行粒度。 |
| TP / PP / SP / EP / CP | 张量 / 流水 / 序列 / 专家 / 上下文并行——大模型必备组合。见 §8.3。 |
| Triton | Python-like GPU kernel DSL;FlashAttention、Mamba 等都用它写。 |
| vLLM / SGLang / TRT-LLM | 三大推理框架;前两者开源、Berkeley 系,第三个是 NVIDIA 自家。见 第 VII 部。 |
| WGMMA / TMA | Hopper 的异步 matmul / DMA;FlashAttention-3 性能来源。 |
| ZeRO | Microsoft 的内存优化数据并行家族,1/2/3 三档对应切 state/grads/weights。 |
§B推荐阅读顺序
读完本站,下一步——按这条顺序读原文比按时间读高效:
- Williams & Patterson 2009 (Roofline) → 把性能模型刻进脑子。
- Dao 2022 (FlashAttention v1) → 把 attention 算子的思考方式打开。
- Kwon 2023 (vLLM / PagedAttention) → 看 serving 系统怎么改 KV cache。
- Ainslie 2023 (GQA) + DeepSeek-V2/V3 (MLA) → 现代 KV head 设计。
- Leviathan 2022 (Speculative Decoding) + EAGLE-2/3 → 解码加速的全图。
- Xiao 2022 (SmoothQuant) + GPTQ + AWQ + QuaRot → 量化的"必读四件套"。
- Rajbhandari 2020 (ZeRO) + Megatron-LM tech report → 训练并行。
- Frantar 2023 (SparseGPT) + Mixtral / DeepSeek-V3 tech report → 稀疏 / MoE。
- Song 2023 (Consistency) + Yin 2023 (DMD) → diffusion 的极限蒸馏。
- π0 + OpenVLA → VLA 部署的两种范式。
- Genie 2 + CausVid + Sora tech report → world model / video DiT 的最新工程。
- NSA + DeepEP + Mooncake → 2025 之后的"组合拳"工程。
顺序背后的设计
上面 12 步是按概念依赖排的,不是按发表时间:
- 1-3 建立"性能模型 + 一个完整 serving 框架"的基础认知;
- 4-5 是序列轴上的两条压缩路(共享 K/V vs 并行解码);
- 6-7 是权重轴上的两条路(量化 vs 分片);
- 8 桥接到 MoE/稀疏;
- 9 切到 diffusion;
- 10 切到 VLA;
- 11 切到 world model;
- 12 是 2025 之后的工业组合拳,看到这一步你已经准备好读任何新论文了。
读完之后
如果你能把以下三件事在白板上画出来—— (1) decode 的 roofline 位置、 (2) PagedAttention 的 block table 结构、 (3) speculative decoding 的 accept/reject 流—— 那么 60+ 节的内容已经在你的脑子里有了一个稳固的骨架。 接下来读任何新论文,都只是在这个骨架上往特定位置加一颗螺丝。