A pedagogical survey · 2022.01 — 2026.05

追逐 HBM

一行字概括过去四年的所有"推理加速"工作: 把同一个矩阵乘法 / softmax / sample,挤到离 HBM 越远越好。 模型参数早已远超片上 SRAM 的容量, "把数据搬进来"在大部分场景下比"把数据算完"贵几十倍; 于是所有聪明人都在做同一件事—— 减少必须搬的字节把搬来的字节重复用到极致

本站把 LLM / VLM / VLA / Diffusion / World Model 五条线上的 推理 & 后训练加速工作拆成 13 个 part 页, 每页按"一句话关键想法 + 必要代码 + 必要时交互 demo"的格式逐个剖析。 点开下面的卡片直接进入对应专题。

13 部 · 90 小节 · 7 个交互 demo · ~270 篇 cite · 最后更新 2026-05-19

13parts
90sections
270+cited works
7interactive demos
≥2502"newer is better" cut-off

分类索引 · Taxonomy

从下方任一卡片入手都行。每张卡列出了该 part 的 1-2 个 anchor 工作 和 sub-topic chips —— 它们决定了该页 80% 的篇幅。

PART I

Primer · 基础

把 transformer、prefill/decode、roofline、显存账单一口气讲清——后续所有节都建立在这四条之上。

Transformer Roofline HBM 显存账单
§1.1–§1.4 · Demo 1
PART II

Attention 算子

FlashAttention 把 softmax 装进 SRAM,从此长上下文成为可能;PagedAttention 把 KV 当虚拟内存。

FA-1/2/3 PagedAttn Ring NSA Mamba-2
§2.1–§2.6 · Demo 2
PART III

KV Cache

长上下文 + 高并发的瓶颈不在算力而在 KV 体积。head 共享、潜变量化、量化、驱逐、前缀树共享,五条路一齐压。

MQA/GQA/MLA KIVI/KVQuant StreamingLLM RadixAttn
§3.1–§3.5 · Demo 3
PART IV

解码加速

让小 drafter 一次猜 K 个 token,verifier 一个 forward 验完;数学上无损,工程上 $3\text{-}5\times$。

Speculative Medusa EAGLE-3 Lookahead
§4.1–§4.4 · Demo 5
PART V

量化

把 FP16 weights 压到 INT4 / FP4。outlier 是头号敌人,旋转、smoothing、低秩补偿三招轮流上。

GPTQ AWQ SmoothQuant QuaRot/Spin BitNet
§5.1–§5.6 · Demo 4
PART VI

稀疏 · MoE

每 token 只激活一小撮 expert,参数 $\times N$、算力不增。DeepSeek-V3 让这条路真正可商用。

SparseGPT/Wanda 2:4 DeepSeek-V3 DeepEP
§6.1–§6.4 · Demo 7
PART VII

服务系统

把前 6 部所有思想包装成一个 llm = LLM(model) 就跑的库——vLLM、SGLang、TRT-LLM 三足鼎立。

vLLM SGLang TRT-LLM P/D Disagg
§7.1–§7.5
PART VIII

后训练加速

LoRA 把 65B 微调压进 24 GB;FSDP 把权重切到多卡;verl 让 GRPO rollout 跑 vLLM。

LoRA/QLoRA FSDP/ZeRO TP/PP/SP verl/GRPO
§8.1–§8.6
PART IX

Diffusion / DiT

DDPM 要 1000 步;现在 SDXL Turbo 一步出图。蒸馏、求解器、缓存、量化四条路同时压。

DDIM/DPM LCM/DMD DeepCache SVDQuant
§9.1–§9.6 · Demo 7
PART X

VLM

一张图轻松占几千 token,90% 是冗余。FastV 在第 2 层之后丢一半,VisionZip 在 prefill 前就剪。

FastV VisionZip SparseVLM Qwen2-VL
§10.1–§10.12
PART XI

VLA · 机器人

机器人闭环要 30-200 Hz。OpenVLA / π0 用 chunking + flow matching;Helix / HiRT 用 dual-system 慢/快脑分离;DeeR-VLA / VLA-Cache 在推理时跳层 + 跨 step 复用 KV。

OpenVLA π0/FAST Helix dual-sys DeeR-VLA VLA-Cache TinyVLA
§11.1–§11.13
PART XII

World Model

3D-causal VAE + causal video DiT + 步数蒸馏 + cache, 让"键盘 → 下一帧 20 FPS" 成真。HunyuanVideo / Wan / LTX / MAGI-1 / OASIS。

HunyuanVideo CausVid Self-Forcing TeaCache LTX-Video OASIS
§12.1–§12.13
PART XIII

通用 trick

CUDA Graph 干掉 launch overhead;torch.compile 让 Inductor 自动 fuse;混合精度还能再榨 30%。

CUDA Graph torch.compile Triton fusion
§13.1–§13.6
APPENDIX

名词表 · 阅读清单

25+ 个核心术语索引 + 12 步推荐阅读顺序——按这个表去顺序读原文,效率比按发表时间高得多。

Glossary Reading list
§A–§B

阅读路径建议 · Reading Paths

按背景选一条路。每条路 30-90 分钟,能完整地走过 LLM 推理加速主线的一个切面。

① 没碰过 transformer / GPU 性能 · 80 分钟
② 关心生产部署 (推理服务) · 60 分钟
③ 关心训练 / RLHF · 50 分钟
④ 关心多模态 (VLM / VLA / 机器人) · 60 分钟
⑤ 关心生图 / 生视频 · 60 分钟
⑥ "只看最新" 路径 (≥ 2025-Q4) · 40 分钟

本站约定 · How to read

全站 13 个 part 页都遵循同样的"配方":

  • 每篇 paper 都有一张卡片:alias + 全名 + 年份 + arXiv/code 链接 + 一句话痛点 + 关键想法(粗体)+ 必要时的小数学 / 代码片段 + 一句话"vs prior"差异。
  • 每个 part 页顶部有一个 local TOC 跳转表 + 一个 lede 段;底部有 prev/next 翻页。
  • 代码片段是教学版伪代码——不为性能、只为讲清楚。变量名故意冗长,注释直白。
  • 交互 demo 是 Canvas2D 玩具——数字是数量级估计,不代表 paper 实际性能。
  • "越新越好"——arXiv ID ≥ 2502 的工作必加,但里程碑老论文(FlashAttention v1, GPTQ, ZeRO, LoRA, RT-2 ...)一定保留。
一句话总纲

无论你在做哪种 transformer / diffusion 模型, 优化目标永远是 ① 更少字节从 HBM 进来 · ② 更多算力被复用 · ③ 通信和算尽量重叠。 所有 60+ 节都是这条主线上的某一颗螺丝。

Made for learning. 完整 BibTeX、勘误、补遗欢迎 issue。 最后更新 2026-05-19。

本站内容基于公开发表论文 / arXiv preprint / 项目页 / 官方代码仓 / 技术博客。 交互演示是 Canvas2D 教学玩具,数字是数量级估计。

姊妹站:大规模 3D Gaussian Splatting 综述