Hub › Part XII · World Model

Part XII · World Model 推理加速

把"下一帧"当下一个 token

World model 在 2024-26 的语境是能生成未来观察的条件视频模型。它把 Part XI 的 diffusion / DiT 推到了视频域、再叠加时间因果性，工程难点比单图生成多一档：① 视频 latent 维度爆炸 → 需要专门的 3D VAE； ② 双向 attention 无法流式 → 需要 causal DiT； ③ 步数 × 帧数双重负担 → 需要 video-level 蒸馏与缓存。本部分两段：前 4 节讲范式与流式架构； 中 6 节按 5 大加速机制（解码 · attention · 量化 · MoE · 测试时算力）+ serving 横向组织； 最后 3 节给交互式 engine、LLM-移植对照、未解决问题。

本页 13 节 · realtime-video 时代

§12.1范式 · 三条路线
§12.2视频 Tokenizer · 3D-Causal VAE
§12.3流式生成 · KV + rolling buffer
§12.4Causal Video DiT · 三家代表
§12.5解码加速 · 步数蒸馏 + spec + cache
§12.6Attention 架构 · sparse / linear / hybrid
§12.7量化 · NVFP4 / 6-bit / 2-bit KV
§12.8MoE · DiT-MoE for Video
§12.9测试时算力 · adaptive sampling
§12.10Serving 系统 · 多模态 disaggregation
§12.11实时交互 · 游戏级 game engine
§12.12LLM 加速思想 → WM 移植对照
§12.13WM 还没解决的

§12.1范式 · 三条路线 (AR token · diffusion · JEPA)

"World model"是个宽泛词。能生成"下一帧"或"未来 K 帧"的模型，按表达形式大致分三派：

路线	关键想法	代表
自回归 token	把帧 VAE 成离散 token, 用 LLM next-token 训	VideoPoet, Genie 1/2, MAGI-1, ARLON
Diffusion / Flow DiT	把视频当 [T, H, W, C] 的 latent, 用 3D-DiT 去噪	Sora, HunyuanVideo, Wan, Mochi, Step-Video, CogVideoX, LTX-Video, Open-Sora, Allegro
JEPA / 表征学习	不直接生成像素, 而是预测下一段视频的表征	V-JEPA, V-JEPA 2

正交于路线，还有两个轴决定能不能做实时：

双向 vs 因果——Sora / HunyuanVideo / Wan 都是双向 attention，必须一次性给出全段； Genie / CausVid / Self-Forcing 是因果（causal）的，可以一帧一帧流式出。
action-conditioned 与否—— Genie / DIAMOND / GameNGen 接受 user input 作为条件； Sora / HunyuanVideo 只接受 text。前者才能用于交互。

2024-2026 模型景观（开源 + 工业）

模型	条件	backbone	规模	arxiv
Genie 1 (DeepMind)	动作 → 下一帧	ST-Transformer AR	11B	2402.15391
Genie 2 / Genie 3 (DeepMind)	动作 + scene	未公开	—	(blog)
VideoPoet (Google)	文 + 图 → 视频	AR token LLM	8B	2312.14125
DIAMOND	动作 → 下一帧 (Atari)	2D Diffusion	20M-100M	2405.12399
GameNGen (Google)	键盘 → Doom 帧	SD-1.4 + RL refine	0.9B	2408.14837
CogVideoX (Zhipu)	文 → 视频	3D DiT	2/5B	2408.06072
Mochi 1 (Genmo)	文 → 视频	AsymmDiT	10B	(github only)
HunyuanVideo (Tencent)	文 → 视频	双流 → 单流 MMDiT	13B	2412.03603
Wan 2.x (Alibaba)	文 / I2V → 视频	Flow MMDiT	1.3 / 14B	2503.20314
Step-Video-T2V (StepFun)	文 → 视频	DiT	30B	2502.10248
LTX-Video (Lightricks)	文 / I2V → 视频	DiT, 实时优先	2B	2501.00103
Open-Sora 2.0 (HPC-AI)	文 → 视频	DiT	11B	2412.20404
Allegro (Rhymes)	文 → 视频	DiT	2B	2410.15458
MAGI-1 (Sand AI)	文 → 长视频	autoregressive chunk DiT	24B	2505.13211
OASIS (Decart)	键盘 → Minecraft 帧	causal DiT	0.5B-2B	(blog)
Cosmos (NVIDIA)	机器人模拟	AR + diffusion	4B-13B	2501.03575
V-JEPA 2 (Meta)	自监督表征	JEPA encoder	1B	2506.09985
Matrix-Game 3.0	键盘 → 长视频	causal DiT + memory	—	2604.08995
Sora 2 / Veo 3 / Kling 2	文 / I2V	大 DiT	—	(closed)

直觉 · 视频 = 多了一个时间轴的图像

所有 Part XI 的招（DDIM、LCM、DMD、DeepCache、ToMe-SD、SVDQuant）都可以直接搬到视频，只是 token 数从 ~4096 涨到 ~40 000-400 000，attention 平方代价更狠。剩下要发明的、本部独有的招——大体只有三类： (a) 把帧压得更狠的 3D VAE； (b) 让生成支持"因果 + 流式"； (c) 跨帧 / 跨步的缓存与跳块。

§12.2视频 Tokenizer · 3D-Causal VAE 的工程

Latent diffusion 的灵魂是VAE——把高维像素压到低维 latent，让昂贵的 DiT 只在 latent 上做。SD 的 8×8 空间下采样是 64× 压缩；视频要再加一个时间维。这一节专门讲video VAE，因为它直接决定后续所有 DiT 算力 / 显存。

典型 video VAE 的压缩比

VAE	空间	时间	总压缩	latent dim
SD-VAE (图像)	8 × 8	—	64×	4
SVD VAE (视频)	8 × 8	1 (per-frame)	64×	4
HunyuanVideo VAE	8 × 8	4	256×	16
CogVideoX 3D-VAE	8 × 8	4	256×	16
Wan 2.1 Causal-VAE	8 × 8	4	256×	16
Cosmos Tokenizer (CV / DV)	16 × 16	8	2048×	16 / discrete
LTX VAE	32 × 32	8	8192×	128

关键观察 · 一个 5 秒 1080p 视频在 latent 里多大

5 秒 × 24 fps = 120 帧 × 1920×1080×3 = 750 MB 原始像素。走 256× 压缩（HunyuanVideo）→ 3 MB latent (~50 万 token); 走 8192× (LTX) → 90 KB (~16 000 token)。 DiT attention 是 $O(N^2)$，token 数 4× 就是 16× 算力—— 所以 LTX-Video 能"实时" 的根本原因不是 DiT 改得多巧， 是 VAE 把 token 数压到了 1/30。

因果 VAE · 为什么不能用普通 3D conv

普通 3D conv 的时间 kernel 是双向的（中心 frame 看前后），所以 VAE 也"看未来"。要支持流式生成，VAE 也必须 causal—— 时间 kernel 只能看历史，结构上是 dilated causal 1D conv 沿 t 维 + 2D 空间 conv。

# Causal 3D-Conv: time 轴 left-pad, 空间维常规 conv
class CausalConv3d(nn.Module):
    def __init__(self, in_c, out_c, kt, ks):
        # kt = time kernel size (例如 3)
        # ks = spatial kernel size
        super().__init__()
        self.conv = nn.Conv3d(in_c, out_c, (kt, ks, ks),
                              padding=(0, ks//2, ks//2))
        self.left_pad = kt - 1

    def forward(self, x):  # x: [B, C, T, H, W]
        # 仅在时间维左 pad, 让输出 t 位置只看 t' ≤ t
        x = F.pad(x, (0, 0,  0, 0,  self.left_pad, 0))
        return self.conv(x)

Cosmos Tokenizer (NVIDIA) — Continuous / Discrete Video Tokenizers, 8× temporal × 16² spatial

2025-01 · arXiv:2501.03575 (within Cosmos)

NVIDIA 开源的 video tokenizer 套件，提供 continuous (CV) 和 discrete (DV) 两版。比 HunyuanVideo VAE 多 8× 压缩，重建质量接近—— Cosmos 自己的 4B-13B world models 都基于此。

LTX VAE — 8192× 压缩, 让 2B DiT 在 RTX 4090 上实时

2025-01 · arXiv:2501.00103

Lightricks 的 LTX-Video VAE 是激进派：32×32×8 压缩比 + 128 维 latent。 token 数比 HunyuanVideo 少 32×，让 2B DiT 在单卡 4090 上做到 2-4 秒生成 5 秒 video。代价：重建细节略损，"皮肤纹理 / 字符"等高频可能糊。

§12.3流式生成 · KV cache + rolling buffer + sink

非流式视频 DiT 一次性生成 K 帧；流式则像 LLM decode，一帧一帧出、历史 KV 不断累积。长视频生成的根本痛：模型一次喂入越多帧、attention 越贵。几招（很多直接借鉴 §3.3 KV cache 章节）：

Causal video DiT（§12.4 详讲）—— 让前向遵循"前帧不看后帧"，可流式生成。
KV cache + sliding window—— 只保留最近 N 帧的 KV，旧帧 hibernate。
Attention sink for video—— 保留开头几帧的 KV（类比 §3.3 StreamingLLM 的 sink），让长 horizon 不退化。
chunked schedule—— 分段 denoise，每段只走 4–8 步，并行生成长视频。
frame caching—— 跨帧复用 attention 与 cross-attn 特征（§12.5）。

rolling KV buffer 的实现

# Causal Video DiT 的流式生成: 滚动 KV cache
class StreamingVideoDiT:
    def __init__(self, model, window_frames=8, tokens_per_frame=256,
                 sink_frames=2):
        self.model = model
        self.W = window_frames * tokens_per_frame
        self.sink = sink_frames * tokens_per_frame
        self.kv_cache = []                          # 全部 KV (会被 evict)

    def step(self, action):
        cond = encode_action(action)
        # attend 范围: 开头 sink + 最近 window
        attn_kv = self.kv_cache[:self.sink] + self.kv_cache[-self.W:]
        new_frame, new_kv = self.model.generate_one_frame(
            cond=cond, kv_cache=attn_kv
        )
        # 追加新 frame 的 KV
        self.kv_cache.extend(new_kv)
        # 超过两倍 window 时驱逐中间部分 (sink 永远保留, 最近 W 也保留)
        if len(self.kv_cache) > self.sink + self.W * 2:
            self.kv_cache = self.kv_cache[:self.sink] + self.kv_cache[-self.W:]
        return new_frame

StreamingT2V — Consistent, Dynamic, and Extendable Long Video Generation

2024-03 · arXiv:2403.14773

早期把 sliding window + memory module 引入视频生成的代表。用 "conditional attention module" 让当前帧的去噪能看到过去帧的 latent；用 "random blending" 让 chunk 之间的 transition 平滑。在 SD-class 模型上能跑出 ~1200 帧的连续视频。

§12.4Causal Video DiT · 三家代表

双向视频 DiT 强但慢；causal 视频 DiT 慢一档质量但能流式。 2024-Q4 起一波工作把 causal 路线推到接近双向质量—— 这是 OASIS / Genie 类"交互 world model"成为可能的关键。

CausVid — From Slow Bidirectional to Fast Autoregressive Video Diffusion Models

2024-12 · arXiv:2412.07772

把双向 video DiT 蒸馏成 causal 版（用 distillation 从 bidirectional teacher 学）。一次只生成 K 帧的 chunk，KV cache 沿时间维滚动；配合 LCM-style 步数蒸馏 → 实时 ~10 FPS。 Causal + KV cache + step distillation 是 2025 之后的标准栈。

它不发明新架构——只是把已有的 bidirectional 模型用 student-teacher 转 causal。所以 CausVid 等于"工程通用配方"，可应用到任意双向 DiT。

Self Forcing — Bridging the Train-Test Gap in Autoregressive Video Diffusion

2025-06 · arXiv:2506.08009

Causal video DiT 的致命病：训练时每帧 condition on ground-truth 历史，推理时 condition on 模型自己生成的历史 → exposure bias，长 horizon 一定漂移。

关键想法：训练时也让模型 condition 在自己的输出上（self-forcing），用 reward / consistency loss 防止 collapse。解决了 CausVid 长 horizon (>10s) 退化的问题，在 minute-scale 视频上质量稳定。

Pyramid-Flow — Pyramidal Flow Matching for Efficient Video Generative Modeling

2024-10 · arXiv:2410.05954

早 timestep 用低分辨率 / 短 chunk 做粗修；晚 timestep 才升到全分辨率。跨时间金字塔结构让总 FLOPs 接近 1 个 keyframe 的成本，长视频生成质量 / 算力比 SoTA。

ARLON — Boosting Diffusion Transformers with Autoregressive Models for Long Video

2024-10 · arXiv:2410.20502

Hybrid 思路：用一个 small AR LM 出"叙事大纲"（粗粒度未来 token），再用 DiT 把每段细化成视频。 DiT 不需要长上下文 attention → 单段算力小；长 horizon 一致性靠 AR 那一边维持。路线和 Helix 的 dual-system VLA（§11.4）同构—— "慢/快脑分离"在视频生成里也成立。

MAGI-1 — Autoregressive Video Generation at Scale

Sand AI 2025-05 · arXiv:2505.13211

24B 参数 autoregressive chunked DiT。一次出一个 ~24-frame chunk，chunk 内是 diffusion，chunk 间 AR。把 causal + chunk + step-distill 三件事打在一个模型里、训出来，开源。

Causal Forcing++ — Scalable Few-Step AR Diffusion Distillation for Real-Time Interactive Video

2026-05 · arXiv:2605.15141

Self-Forcing 的下一步：从 chunk-wise 4-step 推到 frame-wise 1-2 step。把交互视频生成延迟从 ~80 ms / 帧砍到 ~30 ms / 帧。

§12.5解码加速 · 步数蒸馏 + speculative + 缓存

把每一步前向的成本压下来或者步数减下来。本节是 Part XI（diffusion）的招在视频上的体现，加上 video 专属的 caching 工作。

步数蒸馏 · 1-step / few-step video

SF-V (Single Forward Video) — 1-step Video Generation via Adversarial Distillation

NeurIPS 2024 · arXiv:2406.04324

SDXL Turbo / ADD 的对抗蒸馏推到视频：teacher = Stable Video Diffusion 多步版， student = 1-step generator + image / video discriminator。 14-frame video 从 ~50 步压到 1 步，~50× 加速、FVD 仍接近 teacher。

LTX-Video — Realtime Video Latent Diffusion (built-for-speed DiT)

2025-01 · arXiv:2501.00103

不是后蒸馏，而是从架构层面就为速度设计：8192× VAE 压缩 + 2B 小 DiT + 双阶段训练。单卡 RTX 4090 上 5 秒 768p 视频 2-4 秒出。提醒：VAE 压缩比也是 first-class lever。

AnyFlow — Any-Step Video Diffusion via On-Policy Flow Map Distillation

2026-05 · arXiv:2605.13724

把"步数"作为推理时可选 budget——同一模型既支持 1 step 也支持 50 step 走，用 on-policy flow map distillation 训出来。给生产部署带来"按 SLA 切换 quality" 的能力——和 §12.9 测试时算力直接对接。

Speculative decoding for AR video

SDVG — Speculative Decoding for Autoregressive Video Generation

2026-04 · arXiv:2604.17397

关键洞察：视频 block 是连续的时空 tensor，没有 token-level 离散分布——传统 specdec 的 rejection sampling 不能直接用。 SDVG 提出 block-level acceptance：draft 模型出整个 future block， verifier 在隐空间比对相似度。一帧延迟 -40%。是第一个把 specdec 思想真正港到 AR video diffusion 的工作。

SpeCa — Speculative Feature Caching for Diffusion Transformers

2025-09 · arXiv:2509.11628

把 specdec 的"猜 + 验证"思想用在跨 step 特征上：猜测下一 step 的中间特征，验证后接受或重算。比 DeepCache 更激进。

缓存 / 跳块 · video DiT 上的"免费午餐"

TeaCache — Timestep Embedding Tells: Time to Cache for Video Diffusion

2024-11 · arXiv:2411.19108

用 timestep embedding 作"是否会变多"的 cheap predictor。差太小 → 跳 step 复用前一次输出。 Wan / HunyuanVideo / Mochi 上 2-3× 加速、几乎无损，现在是所有开源大 video DiT 部署的默认开关。

FasterCache — Training-Free Video Diffusion Model Acceleration

2024-10 · arXiv:2410.19355

比 TeaCache 早。组合三招： (a) attention output 跨 step 复用； (b) CFG 的 conditional / unconditional 之一可跳； (c) 跨帧 hidden 复用。 CogVideoX / Open-Sora 1.7× 加速。

Spatiotemporal Skip Guidance (STG) — Enhanced Video Diffusion Sampling

2024-11 · arXiv:2411.18664

Inference 时有意跳掉部分时空 attention，把跳过的版本当 negative （CFG-style），既加速又提质——少见的 free lunch。

§12.6Attention 架构 · sparse / linear / hybrid

视频 DiT 最贵的就是 attention——一段 5 秒 720p 视频有几万 token， $O(N^2)$ 直接吓人。把它从结构上替换是 2026 H1 最热的赛道：

SANA-WM — Efficient Minute-Scale WM with Hybrid Linear Diffusion Transformer

2026-05 · arXiv:2605.15178

2.6B 参数 open-source world model. 关键想法： Gated DeltaNet (GDN, 线性 attention) 做长 context，softmax attention 做短跨帧—— hybrid 配比是工程关键。一分钟 720p 视频成本 $\approx$ baseline DiT 的 1/3，质量持平 LingBot-World / HY-WorldPlay。第一次把 linear-attention / SSM 家族认真用在 minute-scale world model 上。

Sparse Forcing — Native Trainable Sparse Attention for Real-time AR Diffusion Video

2026-04 · arXiv:2604.21221

把 NSA（§2.6）的思想带到视频—— 训练即学的 block-sparse attention。观察：AR video rollout 里 attention 集中在持续的"salient block" 上，形成隐式时空 memory，并在滑窗内呈局部 block-sparse 模式。长 horizon 质量 + 解码延迟同时改善——"NSA-Video"的可商用版本。

Attend Locally, Remember Linearly — Linear Attention as Cross-Frame Memory for AR Video Diffusion

2026-05 · arXiv:2605.16579

Hybrid 路线：帧内用 softmax（短上下文，效果好），帧间用 linear attention 做"线性 memory"。具体做法和 SANA-WM 类似但聚焦 AR causal video。长 horizon 一致性比 sliding-window 好。

DynamicRad / AdaCluster / Ride the Wave / SVG-EAR

2026-Q2 · DynamicRad · AdaCluster · Ride the Wave · SVG-EAR

Sparse attention 的派生变种：内容自适应 / Query-Key clustering / 频率域路由 / error-aware sparse — 都是把 dense $O(N^2)$ 砍到 $O(N \log N)$ 或更激进的工程实现。

SLA2 · MonarchRT · SpargeAttention2 — Sparse-Linear hybrid + Monarch-matrix efficient attention

2026-Q1 · SLA2 · MonarchRT · SpargeAttention2

Sparse + linear 混合的多种工程实现—— SLA2 走 learnable routing + QAT；MonarchRT 用 Monarch 矩阵做高效 attention； SpargeAttention2 (SageAttention 后继) trainable hybrid top-k + top-p mask。

DSV — Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

2025-02 · arXiv:2502.07590

上面都是推理。DSV 是训练侧—— 动态选 top-K 跳过其余 attention 位置。HunyuanVideo 级模型训练 2× 加速。

§12.7量化 · NVFP4 / 6-bit / 2-bit KV

Diffusion (Part XI) 的 SVDQuant W4A4 是图像版本；视频版本因为 token 数极多、跨步分布更复杂，需要专门的工作：

LongLive-2.0 — An NVFP4 Parallel Infrastructure for Long Video Generation

2026-05 · arXiv:2605.18739

在 Blackwell NVFP4 上做的长视频生成基础设施—— 把 attention / GEMM 全走 NVFP4 tensor core, 并行调度。把 minute-scale 视频生成推到 production latency。

Quant VideoGen — Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

2026-02 · arXiv:2602.02958

AR 长视频生成时 KV 巨大；把 KV 量化到 2-bit。类比 KIVI（§3.2）但针对视频 token 的时空分布单独设计。显存 -8×、质量损失极小。

6Bit-Diffusion · SemanticDialect · AdaTSQ · LSGQuant

2026-Q1 · 6Bit · SemanticDialect · AdaTSQ · LSGQuant

Video DiT PTQ 的精细化： 6Bit-Diffusion 做 inference-time mixed-precision； SemanticDialect 做 semantic-aware mixed-format； AdaTSQ 做 temporal-sensitivity-aware； LSGQuant 做 layer-sensitivity-guided。每个都是对 Part XI 量化招在视频上的细化。

Attn-QAT — 4-Bit Attention With Quantization-Aware Training

2026-02 · arXiv:2603.00040

Attention 矩阵的 4-bit QAT。把 SageAttention（§2.3）的 INT8 思想推到 INT4，配合 QAT 防止精度坍塌。

§12.8MoE · DiT-MoE for Video

Image DiT-MoE 早已存在；视频版本因为时空维度更多、token 也更多， MoE 的"参数大 / 算力不变"优势更显著。

LongScape — Long-Horizon Embodied World Models with Context-Aware MoE

2025-09 · arXiv:2509.21790

Embodied World Model + MoE 的代表。用 context-aware router（按场景 / 任务路由）做专家选择，解决长 horizon 场景多样性导致的"single expert 学不过来"问题。路线和 VLA 的 MoE-ACT (§11.8) 同构。

Mamoda 2.5 · DiT-MoE

2026-05 · arXiv:2605.02641

统一多模态 DiT-MoE：image + video + audio 共享 backbone，用 MoE 路由按模态选 expert。比 dense 同算力强 25%。

MoCA — Identity-Preserving T2V via Mixture of Cross Attention

2025-08 · arXiv:2508.03034

MoE 不一定在 FFN——MoCA 把 cross-attention 也做成 MoE，每个 expert 负责一个"identity" 维度。展示 MoE 的应用可以更结构化。

§12.9测试时算力 · adaptive sampling / posterior probing

LLM 那边 o1-style test-time compute 已经主流；视频生成里"想清楚再生成下一帧"的思路开始萌芽。

GridProbe — Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs

2026-05 · arXiv:2605.10762

在长视频 VLM 上用 posterior probing 动态分配算力—— 简单帧用少算力, 难帧 (复杂动作 / 多对象) 多算力。给视频生成的 "想多久" 提供了第一个具体方法论。

AnyFlow（同 §12.5） — Any-Step Video Diffusion

2026-05 · arXiv:2605.13724

跨 §12.5 与本节——同模型支持 1-50 step 推理 budget 切换，是"adaptive compute" 的 generation 端解法。

直觉 · 视频生成的"想清楚"

LLM 的 test-time compute 是"先思考再答"；视频生成的等价物是"先 plan keyframe 再去噪"或"在难帧上多走几步"。目前还是萌芽期, AnyFlow + GridProbe 是已知尝试。 Sora 2 / Veo 3 内部可能已经在用类似机制但没公开。

§12.10Serving 系统 · 多模态 disaggregation

Video DiT 服务的几个 stages（text encode / VAE encode / DiT / VAE decode）在算力 / 显存 / 带宽各有不同需求——天然适合 P/D 解耦式部署。

Cornserve — Distributed Serving System for Any-to-Any Multimodal Models

2026-03 · arXiv:2603.12118

多模态生成的分布式 serving 框架。跨节点编排 encoder / DiT / decoder, 每段独立 scale。 "vLLM for multimodal generation" 的代表。

vLLM-Omni — Fully Disaggregated Serving for Any-to-Any Multimodal Models

2026-02 · arXiv:2602.02204

vLLM 项目的多模态扩展。把 encoder / prefill / decode 三段（EPD）解耦, 各自独立 scale。 Video DiT 是这个架构最直接的受益者。

EPD-Serve — Multimodal EPD Disaggregation on Ascend

2026-01 · arXiv:2601.11590

国产 Ascend NPU 上的 EPD 解耦实现, 跨厂商兼容证明。

§12.11实时交互 · 游戏级 world model engine

把 §12.2–§12.10 所有招组合起来，目标： 键盘 / 摇杆输入 → 几十毫秒后看到下一帧。这是 2024-2026 最让人兴奋的新前沿—— "用神经网络当游戏引擎跑"从 demo 走向 product。

GameNGen — Diffusion Models Are Real-Time Game Engines

Google 2024-08 · arXiv:2408.14837

第一个 20 FPS 实时神经游戏引擎——SD-1.4 finetune on Doom gameplay。单卡 TPU-v5。关键招：(a) noise augmentation 防 AR drift；(b) 仅 4 步 denoise； (c) Doom 引擎做 RL training data。

DIAMOND — Diffusion for World Modeling: Visual Details Matter in Atari

NeurIPS 2024 Spotlight · arXiv:2405.12399

Atari 上证明 diffusion world model 比 token-based (IRIS) 更高样本效率。 50M 小模型, 是 diffusion world model 路线的起点。

Genie 1 / 2 / 3 — Generative Interactive Environments

DeepMind 2024-02 / 2024-12 / 2025 · Genie 1 · Genie 2 blog

Genie 1 (2024-02): 11B ST-Transformer AR, 2D 平台游戏。 Genie 2 (2024-12): 3D 场景、动作可控、~10 秒。 Genie 3 (2025): 更长 horizon、更高分辨率、场景一致性。 DeepMind 把 foundation world model 作为可独立部署的 product。

OASIS / GameGen-X

2024-10 / 2024-11 · OASIS blog · GameGen-X arXiv

OASIS (Decart): Minecraft-style 实时 (~20 FPS) world model, 浏览器跑。工程栈: causal DiT + 4-step LCM + KV sliding + INT8。 GameGen-X (CUHK): 开放世界游戏生成开源版, 支持 multi-modal control。

Matrix-Game 3.0 · Helios

2026-Q1 · Matrix-Game 3.0 · Helios

2026 的下一代交互 world model： Matrix-Game 3.0 引入 long-horizon memory 模块解决 OASIS 的 30 秒漂移； Helios 强调"真 real-time"（不靠 chunking 假装实时）。把"交互式" 从 demo 推到产品级别。

交互 world model 加速栈（端到端）

叠加全套招——这是 OASIS / Genie / Matrix-Game 的工程菜谱：

架构：causal video DiT（§12.4）+ KV sliding + attention sink；
Tokenizer：高压缩 VAE（§12.2, LTX / Cosmos 类）—— token 数 1/30 是下限；
解码：CausVid / Self-Forcing causal 蒸馏 + LCM/DMD 步数蒸馏 + SDVG specdec + TeaCache（§12.5）；
Attention：Sparse Forcing / SANA-WM hybrid linear+softmax（§12.6）；
量化：LongLive-2.0 NVFP4 / 2-bit KV（§12.7）；
Serving：Cornserve / vLLM-Omni 三段解耦（§12.10）；
系统：FlashAttention-3 + CUDA Graph（§2.3, §13.1）。

叠完后，从 baseline ~30 s / 帧打到 ~0.05 s / 帧（20 FPS）。每一层 2-3×，7 层组合就是 ~1000× —— 这是 OASIS / Matrix-Game 3.0 真实做到的数字量级。

§12.12LLM 加速思想 → World Model 移植对照

和 VLA 那边（§11.12）同款 4 张表。关键是"WM 不是 LLM 的简单延伸"—— 视频 token 是连续时空 tensor，许多 LLM trick 港过来需要重新设计。

解码加速类

LLM trick	所在节	World Model 状态
Speculative decoding	§4.1	✓ ★ NEW: SDVG (2604.17397) 第一个 AR-video specdec; SpeCa (2509.11628) 跨 step 特征 specdec
Few-step distillation (LCM/DMD/Hyper)	§11.11-§11.12	✓ SF-V, MAGI-1 自带, AnyFlow (2605.13724) 做 any-step
EAGLE hidden-state drafter	§4.3	○ 半空白 — AR-token video (Genie/MAGI-1) 适用, 还没专门做
MTP (Multi-Token Prediction)	§4.4	○ 半空白 — MAGI-1 隐含, 没专门 head
Cross-step cache (DeepCache 类)	§12.5	✓ ★ TeaCache / FasterCache / STG / SpeCa 全有, 工业默认

Attention 架构 / KV 压缩类

LLM trick	所在节	World Model 状态
SSM / Mamba / 线性 attention	§2.6	✓ ★ SANA-WM (2605.15178) hybrid GDN; Attend Locally Remember Linearly (2605.16579); SLA2
NSA · native sparse attention	§2.6	✓ ★ Sparse Forcing (2604.21221) 是 video-NSA 的可商用版本; DynamicRad / AdaCluster / Ride-the-Wave / SVG-EAR / MonarchRT 是变种
Hybrid linear + softmax	—	✓ SANA-WM 范式已落地
MLA latent KV	§3.1	✗ 空白 — minute-scale 视频 KV 远超 LLM, 极需 latent 压缩
RadixAttention prefix 共享	§3.4	✗ 空白 — I2V 场景多请求共享起始帧, 完全可以做

量化与 MoE 类

LLM trick	所在节	World Model 状态
FP8 / NVFP4 推理	§5.1	✓ ★ LongLive-2.0 (2605.18739) NVFP4 production infra
2-bit KV	§3.2	✓ ★ Quant VideoGen (2602.02958) AR video 2-bit KV
低 bit PTQ (W4A4)	§9.6 SVDQuant	✓ 6Bit-Diffusion / SemanticDialect / AdaTSQ / LSGQuant / Attn-QAT 多种 video PTQ
MoE 视频版	§6.3	✓ LongScape (2509.21790) 是 embodied WM-MoE; Mamoda 2.5 / MoCA 是 generation 端 MoE-DiT

Serving / 系统类

LLM trick	所在节	World Model 状态
P/D / EPD disaggregation	§7.5	✓ ★ Cornserve (2603.12118) / vLLM-Omni (2602.02204) / EPD-Serve (2601.11590) 三家
Test-time compute (o1-style)	—	○ 萌芽 — GridProbe (2605.10762) posterior probing; AnyFlow 可调 step
Continuous batching	§7.1	○ 半空白 — Cornserve / vLLM-Omni 已部分支持, 但 video 端 batching 仍不成熟
CUDA Graph / torch.compile	§13.1-§13.2	✓ 部署默认
KV offload to CPU/NVMe	—	✗ 空白 — minute+ 视频 KV 完全可以 offload, 没人做

读法

上面四档表显示——video 加速比 VLA 那边成熟一档。解码 / attention / 量化 / MoE 四类核心机制各自都已经有 2026 SOTA 工作。剩下的真空地带： ① MLA-Video（KV latent 压缩）； ② RadixVideo（I2V 场景前缀共享）； ③ video 端 KV offload。

第四条更有趣—— RDT/π0 ↔ video world model 的 cross-pollination：机器人本质上也是 conditional video generator, 两边方法论可以互相套。 LongScape (2509.21790) 已经在做这种 crossover。

§12.13World Model 还没解决的

站到 2026-05，把 world model 推理 / 训练栈仍然空着的坑显式列出来—— 下一波生成式 AI 突破很大概率出现在其中某一条上。

分钟级 horizon 一致性—— Self-Forcing 在 ~1 min 稳得住, Matrix-Game 3.0 推到 ~几分钟, 再往上场景 drift 严重。 10 min+ 连贯生成是下一步突破口。
物理一致性—— 视频 DiT 学的是"看起来对"，不是"物理对"。重力 / 碰撞 / 流体在长视频里仍会出错。 PH-Dreamer (2605.18303) 走"物理约束 + 生成"的混合路线, 还是雏形。
训练算力—— HunyuanVideo 13B 训练用了 ~2000 张 H100 × 数周； DSV (§12.6) 给出训练 2× 加速但仍是天文数字预算。
评估指标—— FVD / VBench 与人眼感知偏离很大； "用户可不可控、不漂移、物理对"还没有好的 metric。整个领域 "比谁的 demo 更炫" 而不是 "比 metric"。
跨实体 → 机器人 sim2real—— Cosmos 路线起步，VLA 与 world model 之间的端到端反馈闭环尚未打通。
交互式 long-horizon—— OASIS / Matrix-Game 3.0 demo 了 ~几分钟交互, 上小时级 (i.e. 真正能玩一局游戏) 仍需要外部 memory / world state 持久化, 没有标准方案。
统一的 video VAE 标准—— HunyuanVideo / Wan / Cosmos / LTX 各家 VAE 不兼容, 模型间无法直接 transfer latent。 Video VAE 现在像 2022 年的 image VAE 一样割裂。
MLA-Video / RadixVideo / KV offload 这三个 "✗ 空白" （见 §12.12）是下一波最值得做的方向, 大概率半年内会出 paper。