A pedagogical survey · 2022.01 — 2026.05

追逐 HBM

一行字概括过去四年的所有"推理加速"工作： 把同一个矩阵乘法 / softmax / sample，挤到离 HBM 越远越好。 模型参数早已远超片上 SRAM 的容量， "把数据搬进来"在大部分场景下比"把数据算完"贵几十倍；于是所有聪明人都在做同一件事—— 减少必须搬的字节、把搬来的字节重复用到极致。

本站把 LLM / VLM / VLA / Diffusion / World Model 五条线上的推理 & 后训练加速工作拆成 13 个 part 页，每页按"一句话关键想法 + 必要代码 + 必要时交互 demo"的格式逐个剖析。点开下面的卡片直接进入对应专题。

13 部 · 90 小节 · 7 个交互 demo · ~270 篇 cite · 最后更新 2026-05-19

13parts

90sections

270+cited works

7interactive demos

≥2502"newer is better" cut-off

分类索引 · Taxonomy

从下方任一卡片入手都行。每张卡列出了该 part 的 1-2 个 anchor 工作 和 sub-topic chips —— 它们决定了该页 80% 的篇幅。

PART I

Primer · 基础

把 transformer、prefill/decode、roofline、显存账单一口气讲清——后续所有节都建立在这四条之上。

Transformer Roofline HBM 显存账单

§1.1–§1.4 · Demo 1→

PART II

Attention 算子

FlashAttention 把 softmax 装进 SRAM，从此长上下文成为可能；PagedAttention 把 KV 当虚拟内存。

FA-1/2/3 PagedAttn Ring NSA Mamba-2

§2.1–§2.6 · Demo 2→

PART III

KV Cache

长上下文 + 高并发的瓶颈不在算力而在 KV 体积。head 共享、潜变量化、量化、驱逐、前缀树共享，五条路一齐压。

MQA/GQA/MLA KIVI/KVQuant StreamingLLM RadixAttn

§3.1–§3.5 · Demo 3→

PART IV

解码加速

让小 drafter 一次猜 K 个 token，verifier 一个 forward 验完；数学上无损，工程上 $3\text{-}5\times$。

Speculative Medusa EAGLE-3 Lookahead

§4.1–§4.4 · Demo 5→

PART V

量化

把 FP16 weights 压到 INT4 / FP4。outlier 是头号敌人，旋转、smoothing、低秩补偿三招轮流上。

GPTQ AWQ SmoothQuant QuaRot/Spin BitNet

§5.1–§5.6 · Demo 4→

PART VI

稀疏 · MoE

每 token 只激活一小撮 expert，参数 $\times N$、算力不增。DeepSeek-V3 让这条路真正可商用。

SparseGPT/Wanda 2:4 DeepSeek-V3 DeepEP

§6.1–§6.4 · Demo 7→

PART VII

服务系统

把前 6 部所有思想包装成一个 llm = LLM(model) 就跑的库——vLLM、SGLang、TRT-LLM 三足鼎立。

vLLM SGLang TRT-LLM P/D Disagg

§7.1–§7.5→

PART VIII

后训练加速

LoRA 把 65B 微调压进 24 GB；FSDP 把权重切到多卡；verl 让 GRPO rollout 跑 vLLM。

LoRA/QLoRA FSDP/ZeRO TP/PP/SP verl/GRPO

§8.1–§8.6→

PART IX

Diffusion / DiT

DDPM 要 1000 步；现在 SDXL Turbo 一步出图。蒸馏、求解器、缓存、量化四条路同时压。

DDIM/DPM LCM/DMD DeepCache SVDQuant

§9.1–§9.6 · Demo 7→

PART X

VLM

一张图轻松占几千 token，90% 是冗余。FastV 在第 2 层之后丢一半，VisionZip 在 prefill 前就剪。

FastV VisionZip SparseVLM Qwen2-VL

§10.1–§10.12→

PART XI

VLA · 机器人

机器人闭环要 30-200 Hz。OpenVLA / π0 用 chunking + flow matching；Helix / HiRT 用 dual-system 慢/快脑分离；DeeR-VLA / VLA-Cache 在推理时跳层 + 跨 step 复用 KV。

OpenVLA π0/FAST Helix dual-sys DeeR-VLA VLA-Cache TinyVLA

§11.1–§11.13→

PART XII

World Model

3D-causal VAE + causal video DiT + 步数蒸馏 + cache, 让"键盘 → 下一帧 20 FPS" 成真。HunyuanVideo / Wan / LTX / MAGI-1 / OASIS。

HunyuanVideo CausVid Self-Forcing TeaCache LTX-Video OASIS

§12.1–§12.13→

PART XIII

通用 trick

CUDA Graph 干掉 launch overhead；torch.compile 让 Inductor 自动 fuse；混合精度还能再榨 30%。

CUDA Graph torch.compile Triton fusion

§13.1–§13.6→

APPENDIX

名词表 · 阅读清单

25+ 个核心术语索引 + 12 步推荐阅读顺序——按这个表去顺序读原文，效率比按发表时间高得多。

Glossary Reading list

§A–§B→

阅读路径建议 · Reading Paths

按背景选一条路。每条路 30-90 分钟，能完整地走过 LLM 推理加速主线的一个切面。

① 没碰过 transformer / GPU 性能 · 80 分钟

I. Primer (Demo 1) → II. Attention (Demo 2) → III. KV Cache (Demo 3) → VII. vLLM / SGLang

② 关心生产部署 (推理服务) · 60 分钟

VII. 服务系统 → IV. Speculative → V. 量化 → III. KV Cache 压缩

③ 关心训练 / RLHF · 50 分钟

VIII. LoRA / FSDP / GRPO → II. Ring · 长上下文 → V. QLoRA · 量化

④ 关心多模态 (VLM / VLA / 机器人) · 60 分钟

IX. VLM token pruning → X. VLA · π0 / 实时 → VII. SGLang VLM kernel

⑤ 关心生图 / 生视频 · 60 分钟

XI. Diffusion / DiT (Demo 6) → XII. World Model → V. SVDQuant

⑥ "只看最新" 路径 (≥ 2025-Q4) · 40 分钟

NSA · DeepSeek-V3.2 → MLA · DeepSeek-V3 → EAGLE-3 → SVDQuant → CausVid

本站约定 · How to read

全站 13 个 part 页都遵循同样的"配方"：

每篇 paper 都有一张卡片：alias + 全名 + 年份 + arXiv/code 链接 + 一句话痛点 + 关键想法（粗体）+ 必要时的小数学 / 代码片段 + 一句话"vs prior"差异。
每个 part 页顶部有一个 local TOC 跳转表 + 一个 lede 段；底部有 prev/next 翻页。
代码片段是教学版伪代码——不为性能、只为讲清楚。变量名故意冗长，注释直白。
交互 demo 是 Canvas2D 玩具——数字是数量级估计，不代表 paper 实际性能。
"越新越好"——arXiv ID ≥ 2502 的工作必加，但里程碑老论文（FlashAttention v1, GPTQ, ZeRO, LoRA, RT-2 ...）一定保留。

一句话总纲

无论你在做哪种 transformer / diffusion 模型，优化目标永远是 ① 更少字节从 HBM 进来 · ② 更多算力被复用 · ③ 通信和算尽量重叠。所有 60+ 节都是这条主线上的某一颗螺丝。