追逐 HBM
一行字概括过去四年的所有"推理加速"工作: 把同一个矩阵乘法 / softmax / sample,挤到离 HBM 越远越好。 模型参数早已远超片上 SRAM 的容量, "把数据搬进来"在大部分场景下比"把数据算完"贵几十倍; 于是所有聪明人都在做同一件事—— 减少必须搬的字节、把搬来的字节重复用到极致。
本站把 LLM / VLM / VLA / Diffusion / World Model 五条线上的 推理 & 后训练加速工作拆成 13 个 part 页, 每页按"一句话关键想法 + 必要代码 + 必要时交互 demo"的格式逐个剖析。 点开下面的卡片直接进入对应专题。
分类索引 · Taxonomy
从下方任一卡片入手都行。每张卡列出了该 part 的 1-2 个 anchor 工作 和 sub-topic chips —— 它们决定了该页 80% 的篇幅。
Primer · 基础
把 transformer、prefill/decode、roofline、显存账单一口气讲清——后续所有节都建立在这四条之上。
Attention 算子
FlashAttention 把 softmax 装进 SRAM,从此长上下文成为可能;PagedAttention 把 KV 当虚拟内存。
KV Cache
长上下文 + 高并发的瓶颈不在算力而在 KV 体积。head 共享、潜变量化、量化、驱逐、前缀树共享,五条路一齐压。
解码加速
让小 drafter 一次猜 K 个 token,verifier 一个 forward 验完;数学上无损,工程上 $3\text{-}5\times$。
量化
把 FP16 weights 压到 INT4 / FP4。outlier 是头号敌人,旋转、smoothing、低秩补偿三招轮流上。
稀疏 · MoE
每 token 只激活一小撮 expert,参数 $\times N$、算力不增。DeepSeek-V3 让这条路真正可商用。
服务系统
把前 6 部所有思想包装成一个 llm = LLM(model) 就跑的库——vLLM、SGLang、TRT-LLM 三足鼎立。
后训练加速
LoRA 把 65B 微调压进 24 GB;FSDP 把权重切到多卡;verl 让 GRPO rollout 跑 vLLM。
Diffusion / DiT
DDPM 要 1000 步;现在 SDXL Turbo 一步出图。蒸馏、求解器、缓存、量化四条路同时压。
VLM
一张图轻松占几千 token,90% 是冗余。FastV 在第 2 层之后丢一半,VisionZip 在 prefill 前就剪。
VLA · 机器人
机器人闭环要 30-200 Hz。OpenVLA / π0 用 chunking + flow matching;Helix / HiRT 用 dual-system 慢/快脑分离;DeeR-VLA / VLA-Cache 在推理时跳层 + 跨 step 复用 KV。
World Model
3D-causal VAE + causal video DiT + 步数蒸馏 + cache, 让"键盘 → 下一帧 20 FPS" 成真。HunyuanVideo / Wan / LTX / MAGI-1 / OASIS。
通用 trick
CUDA Graph 干掉 launch overhead;torch.compile 让 Inductor 自动 fuse;混合精度还能再榨 30%。
名词表 · 阅读清单
25+ 个核心术语索引 + 12 步推荐阅读顺序——按这个表去顺序读原文,效率比按发表时间高得多。
阅读路径建议 · Reading Paths
按背景选一条路。每条路 30-90 分钟,能完整地走过 LLM 推理加速主线的一个切面。
本站约定 · How to read
全站 13 个 part 页都遵循同样的"配方":
- 每篇 paper 都有一张卡片:alias + 全名 + 年份 + arXiv/code 链接 + 一句话痛点 + 关键想法(粗体)+ 必要时的小数学 / 代码片段 + 一句话"vs prior"差异。
- 每个 part 页顶部有一个 local TOC 跳转表 + 一个 lede 段;底部有 prev/next 翻页。
- 代码片段是教学版伪代码——不为性能、只为讲清楚。变量名故意冗长,注释直白。
- 交互 demo 是 Canvas2D 玩具——数字是数量级估计,不代表 paper 实际性能。
- "越新越好"——arXiv ID ≥ 2502 的工作必加,但里程碑老论文(FlashAttention v1, GPTQ, ZeRO, LoRA, RT-2 ...)一定保留。
无论你在做哪种 transformer / diffusion 模型, 优化目标永远是 ① 更少字节从 HBM 进来 · ② 更多算力被复用 · ③ 通信和算尽量重叠。 所有 60+ 节都是这条主线上的某一颗螺丝。