Hub Part XII · World Model
Part XII · World Model 推理加速

把"下一帧"当下一个 token

World model 在 2024-26 的语境是能生成未来观察的条件视频模型。 它把 Part XI 的 diffusion / DiT 推到了视频域、再叠加时间因果性, 工程难点比单图生成多一档:① 视频 latent 维度爆炸 → 需要专门的 3D VAE; ② 双向 attention 无法流式 → 需要 causal DiT; ③ 步数 × 帧数 双重负担 → 需要 video-level 蒸馏与缓存。 本部分两段:前 4 节讲范式与流式架构; 中 6 节按 5 大加速机制(解码 · attention · 量化 · MoE · 测试时算力)+ serving 横向组织; 最后 3 节给交互式 engine、LLM-移植对照、未解决问题。

§12.1范式 · 三条路线 (AR token · diffusion · JEPA)

"World model"是个宽泛词。能生成"下一帧"或"未来 K 帧"的模型, 按表达形式大致分三派:

路线关键想法代表
自回归 token 把帧 VAE 成离散 token, 用 LLM next-token 训 VideoPoet, Genie 1/2, MAGI-1, ARLON
Diffusion / Flow DiT 把视频当 [T, H, W, C] 的 latent, 用 3D-DiT 去噪 Sora, HunyuanVideo, Wan, Mochi, Step-Video, CogVideoX, LTX-Video, Open-Sora, Allegro
JEPA / 表征学习 不直接生成像素, 而是预测下一段视频的表征 V-JEPA, V-JEPA 2

正交于路线,还有两个轴决定能不能做实时

  • 双向 vs 因果——Sora / HunyuanVideo / Wan 都是双向 attention,必须一次性给出全段; Genie / CausVid / Self-Forcing 是因果(causal)的,可以一帧一帧流式出。
  • action-conditioned 与否—— Genie / DIAMOND / GameNGen 接受 user input 作为条件; Sora / HunyuanVideo 只接受 text。前者才能用于交互

2024-2026 模型景观(开源 + 工业)

模型条件backbone规模arxiv
Genie 1 (DeepMind)动作 → 下一帧ST-Transformer AR11B2402.15391
Genie 2 / Genie 3 (DeepMind)动作 + scene未公开(blog)
VideoPoet (Google)文 + 图 → 视频AR token LLM8B2312.14125
DIAMOND动作 → 下一帧 (Atari)2D Diffusion20M-100M2405.12399
GameNGen (Google)键盘 → Doom 帧SD-1.4 + RL refine0.9B2408.14837
CogVideoX (Zhipu)文 → 视频3D DiT2/5B2408.06072
Mochi 1 (Genmo)文 → 视频AsymmDiT10B(github only)
HunyuanVideo (Tencent)文 → 视频双流 → 单流 MMDiT13B2412.03603
Wan 2.x (Alibaba)文 / I2V → 视频Flow MMDiT1.3 / 14B2503.20314
Step-Video-T2V (StepFun)文 → 视频DiT30B2502.10248
LTX-Video (Lightricks)文 / I2V → 视频DiT, 实时优先2B2501.00103
Open-Sora 2.0 (HPC-AI)文 → 视频DiT11B2412.20404
Allegro (Rhymes)文 → 视频DiT2B2410.15458
MAGI-1 (Sand AI)文 → 长视频autoregressive chunk DiT24B2505.13211
OASIS (Decart)键盘 → Minecraft 帧causal DiT0.5B-2B(blog)
Cosmos (NVIDIA)机器人模拟AR + diffusion4B-13B2501.03575
V-JEPA 2 (Meta)自监督表征JEPA encoder1B2506.09985
Matrix-Game 3.0键盘 → 长视频causal DiT + memory2604.08995
Sora 2 / Veo 3 / Kling 2文 / I2V大 DiT(closed)
直觉 · 视频 = 多了一个时间轴的图像

所有 Part XI 的招(DDIM、LCM、DMD、DeepCache、ToMe-SD、SVDQuant)都可以直接搬到视频, 只是 token 数从 ~4096 涨到 ~40 000-400 000,attention 平方代价更狠。 剩下要发明的、本部独有的招——大体只有三类: (a) 把帧压得更狠的 3D VAE; (b) 让生成支持"因果 + 流式"; (c) 跨帧 / 跨步的缓存与跳块。

§12.2视频 Tokenizer · 3D-Causal VAE 的工程

Latent diffusion 的灵魂是VAE——把高维像素压到低维 latent, 让昂贵的 DiT 只在 latent 上做。SD 的 8×8 空间下采样是 64× 压缩; 视频要再加一个时间维。这一节专门讲video VAE, 因为它直接决定后续所有 DiT 算力 / 显存。

典型 video VAE 的压缩比

VAE空间时间总压缩latent dim
SD-VAE (图像)8 × 864×4
SVD VAE (视频)8 × 81 (per-frame)64×4
HunyuanVideo VAE8 × 84256×16
CogVideoX 3D-VAE8 × 84256×16
Wan 2.1 Causal-VAE8 × 84256×16
Cosmos Tokenizer (CV / DV)16 × 1682048×16 / discrete
LTX VAE32 × 3288192×128
关键观察 · 一个 5 秒 1080p 视频在 latent 里多大

5 秒 × 24 fps = 120 帧 × 1920×1080×3 = 750 MB 原始像素。 走 256× 压缩(HunyuanVideo)→ 3 MB latent (~50 万 token); 走 8192× (LTX) → 90 KB (~16 000 token)。 DiT attention 是 $O(N^2)$,token 数 4× 就是 16× 算力—— 所以 LTX-Video 能"实时" 的根本原因不是 DiT 改得多巧, 是 VAE 把 token 数压到了 1/30

因果 VAE · 为什么不能用普通 3D conv

普通 3D conv 的时间 kernel 是双向的(中心 frame 看前后),所以 VAE 也"看未来"。 要支持流式生成,VAE 也必须 causal—— 时间 kernel 只能看历史,结构上是 dilated causal 1D conv 沿 t 维 + 2D 空间 conv。

# Causal 3D-Conv: time 轴 left-pad, 空间维常规 conv
class CausalConv3d(nn.Module):
    def __init__(self, in_c, out_c, kt, ks):
        # kt = time kernel size (例如 3)
        # ks = spatial kernel size
        super().__init__()
        self.conv = nn.Conv3d(in_c, out_c, (kt, ks, ks),
                              padding=(0, ks//2, ks//2))
        self.left_pad = kt - 1

    def forward(self, x):  # x: [B, C, T, H, W]
        # 仅在时间维左 pad, 让输出 t 位置只看 t' ≤ t
        x = F.pad(x, (0, 0,  0, 0,  self.left_pad, 0))
        return self.conv(x)
Cosmos Tokenizer (NVIDIA) — Continuous / Discrete Video Tokenizers, 8× temporal × 16² spatial
2025-01 · arXiv:2501.03575 (within Cosmos)

NVIDIA 开源的 video tokenizer 套件,提供 continuous (CV) 和 discrete (DV) 两版。 比 HunyuanVideo VAE 多 8× 压缩,重建质量接近—— Cosmos 自己的 4B-13B world models 都基于此。

LTX VAE — 8192× 压缩, 让 2B DiT 在 RTX 4090 上实时
2025-01 · arXiv:2501.00103

Lightricks 的 LTX-Video VAE 是激进派:32×32×8 压缩比 + 128 维 latent。 token 数比 HunyuanVideo 少 32×,让 2B DiT 在单卡 4090 上做到 2-4 秒生成 5 秒 video。 代价:重建细节略损,"皮肤纹理 / 字符"等高频可能糊。

§12.3流式生成 · KV cache + rolling buffer + sink

非流式视频 DiT 一次性生成 K 帧;流式则像 LLM decode, 一帧一帧出、历史 KV 不断累积。 长视频生成的根本痛:模型一次喂入越多帧、attention 越贵。 几招(很多直接借鉴 §3.3 KV cache 章节):

  • Causal video DiT§12.4 详讲)—— 让前向遵循"前帧不看后帧",可流式生成。
  • KV cache + sliding window—— 只保留最近 N 帧的 KV,旧帧 hibernate。
  • Attention sink for video—— 保留开头几帧的 KV(类比 §3.3 StreamingLLM 的 sink), 让长 horizon 不退化。
  • chunked schedule—— 分段 denoise,每段只走 4–8 步,并行生成长视频。
  • frame caching—— 跨帧复用 attention 与 cross-attn 特征(§12.5)。

rolling KV buffer 的实现

# Causal Video DiT 的流式生成: 滚动 KV cache
class StreamingVideoDiT:
    def __init__(self, model, window_frames=8, tokens_per_frame=256,
                 sink_frames=2):
        self.model = model
        self.W = window_frames * tokens_per_frame
        self.sink = sink_frames * tokens_per_frame
        self.kv_cache = []                          # 全部 KV (会被 evict)

    def step(self, action):
        cond = encode_action(action)
        # attend 范围: 开头 sink + 最近 window
        attn_kv = self.kv_cache[:self.sink] + self.kv_cache[-self.W:]
        new_frame, new_kv = self.model.generate_one_frame(
            cond=cond, kv_cache=attn_kv
        )
        # 追加新 frame 的 KV
        self.kv_cache.extend(new_kv)
        # 超过两倍 window 时驱逐中间部分 (sink 永远保留, 最近 W 也保留)
        if len(self.kv_cache) > self.sink + self.W * 2:
            self.kv_cache = self.kv_cache[:self.sink] + self.kv_cache[-self.W:]
        return new_frame
StreamingT2V — Consistent, Dynamic, and Extendable Long Video Generation
2024-03 · arXiv:2403.14773

早期把 sliding window + memory module 引入视频生成的代表。 用 "conditional attention module" 让当前帧的去噪能看到过去帧的 latent; 用 "random blending" 让 chunk 之间的 transition 平滑。 在 SD-class 模型上能跑出 ~1200 帧的连续视频。

§12.4Causal Video DiT · 三家代表

双向视频 DiT 强但慢;causal 视频 DiT 慢一档质量但能流式。 2024-Q4 起一波工作把 causal 路线推到接近双向质量—— 这是 OASIS / Genie 类"交互 world model"成为可能的关键。

CausVid — From Slow Bidirectional to Fast Autoregressive Video Diffusion Models
2024-12 · arXiv:2412.07772

把双向 video DiT 蒸馏成 causal 版(用 distillation 从 bidirectional teacher 学)。 一次只生成 K 帧的 chunk,KV cache 沿时间维滚动; 配合 LCM-style 步数蒸馏 → 实时 ~10 FPS。 Causal + KV cache + step distillation 是 2025 之后的标准栈。

它不发明新架构——只是把已有的 bidirectional 模型用 student-teacher 转 causal。 所以 CausVid 等于"工程通用配方",可应用到任意双向 DiT。

Self Forcing — Bridging the Train-Test Gap in Autoregressive Video Diffusion
2025-06 · arXiv:2506.08009

Causal video DiT 的致命病:训练时每帧 condition on ground-truth 历史, 推理时 condition on 模型自己生成的历史 → exposure bias,长 horizon 一定漂移。

关键想法:训练时也让模型 condition 在自己的输出上(self-forcing), 用 reward / consistency loss 防止 collapse。 解决了 CausVid 长 horizon (>10s) 退化的问题, 在 minute-scale 视频上质量稳定。

Pyramid-Flow — Pyramidal Flow Matching for Efficient Video Generative Modeling
2024-10 · arXiv:2410.05954

早 timestep 用低分辨率 / 短 chunk 做粗修; 晚 timestep 才升到全分辨率。 跨时间金字塔结构让总 FLOPs 接近 1 个 keyframe 的成本, 长视频生成质量 / 算力比 SoTA。

ARLON — Boosting Diffusion Transformers with Autoregressive Models for Long Video
2024-10 · arXiv:2410.20502

Hybrid 思路:用一个 small AR LM 出"叙事大纲"(粗粒度未来 token), 再用 DiT 把每段细化成视频。 DiT 不需要长上下文 attention → 单段算力小; 长 horizon 一致性靠 AR 那一边维持。 路线和 Helix 的 dual-system VLA(§11.4)同构—— "慢/快脑分离"在视频生成里也成立。

MAGI-1 — Autoregressive Video Generation at Scale
Sand AI 2025-05 · arXiv:2505.13211

24B 参数 autoregressive chunked DiT。 一次出一个 ~24-frame chunk,chunk 内是 diffusion,chunk 间 AR。 把 causal + chunk + step-distill 三件事打在一个模型里、训出来,开源。

Causal Forcing++ — Scalable Few-Step AR Diffusion Distillation for Real-Time Interactive Video
2026-05 · arXiv:2605.15141

Self-Forcing 的下一步:从 chunk-wise 4-step 推到 frame-wise 1-2 step。 把交互视频生成延迟从 ~80 ms / 帧砍到 ~30 ms / 帧。

§12.5解码加速 · 步数蒸馏 + speculative + 缓存

每一步前向的成本压下来或者步数减下来。 本节是 Part XI(diffusion)的招在视频上的体现,加上 video 专属的 caching 工作。

步数蒸馏 · 1-step / few-step video

SF-V (Single Forward Video) — 1-step Video Generation via Adversarial Distillation
NeurIPS 2024 · arXiv:2406.04324

SDXL Turbo / ADD 的对抗蒸馏推到视频:teacher = Stable Video Diffusion 多步版, student = 1-step generator + image / video discriminator。 14-frame video 从 ~50 步压到 1 步,~50× 加速、FVD 仍接近 teacher。

LTX-Video — Realtime Video Latent Diffusion (built-for-speed DiT)
2025-01 · arXiv:2501.00103

不是后蒸馏,而是从架构层面就为速度设计:8192× VAE 压缩 + 2B 小 DiT + 双阶段训练。单卡 RTX 4090 上 5 秒 768p 视频 2-4 秒出。 提醒:VAE 压缩比也是 first-class lever

AnyFlow — Any-Step Video Diffusion via On-Policy Flow Map Distillation
2026-05 · arXiv:2605.13724

把"步数"作为推理时可选 budget——同一模型既支持 1 step 也支持 50 step 走, 用 on-policy flow map distillation 训出来。 给生产部署带来"按 SLA 切换 quality" 的能力——和 §12.9 测试时算力直接对接。

Speculative decoding for AR video

SDVG — Speculative Decoding for Autoregressive Video Generation
2026-04 · arXiv:2604.17397

关键洞察:视频 block 是连续的时空 tensor, 没有 token-level 离散分布——传统 specdec 的 rejection sampling 不能直接用。 SDVG 提出 block-level acceptance:draft 模型出整个 future block, verifier 在隐空间比对相似度。一帧延迟 -40%。 是第一个把 specdec 思想真正港到 AR video diffusion 的工作。

SpeCa — Speculative Feature Caching for Diffusion Transformers
2025-09 · arXiv:2509.11628

把 specdec 的"猜 + 验证"思想用在跨 step 特征上: 猜测下一 step 的中间特征,验证后接受或重算。比 DeepCache 更激进。

缓存 / 跳块 · video DiT 上的"免费午餐"

TeaCache — Timestep Embedding Tells: Time to Cache for Video Diffusion
2024-11 · arXiv:2411.19108

用 timestep embedding 作"是否会变多"的 cheap predictor。 差太小 → 跳 step 复用前一次输出。 Wan / HunyuanVideo / Mochi 上 2-3× 加速、几乎无损, 现在是所有开源大 video DiT 部署的默认开关。

FasterCache — Training-Free Video Diffusion Model Acceleration
2024-10 · arXiv:2410.19355

比 TeaCache 早。组合三招: (a) attention output 跨 step 复用; (b) CFG 的 conditional / unconditional 之一可跳; (c) 跨帧 hidden 复用。 CogVideoX / Open-Sora 1.7× 加速。

Spatiotemporal Skip Guidance (STG) — Enhanced Video Diffusion Sampling
2024-11 · arXiv:2411.18664

Inference 时有意跳掉部分时空 attention,把跳过的版本当 negative (CFG-style),既加速又提质——少见的 free lunch。

§12.6Attention 架构 · sparse / linear / hybrid

视频 DiT 最贵的就是 attention——一段 5 秒 720p 视频有几万 token, $O(N^2)$ 直接吓人。把它从结构上替换是 2026 H1 最热的赛道:

SANA-WM — Efficient Minute-Scale WM with Hybrid Linear Diffusion Transformer
2026-05 · arXiv:2605.15178

2.6B 参数 open-source world model. 关键想法: Gated DeltaNet (GDN, 线性 attention) 做长 context,softmax attention 做短跨帧—— hybrid 配比是工程关键。 一分钟 720p 视频成本 $\approx$ baseline DiT 的 1/3,质量持平 LingBot-World / HY-WorldPlay。 第一次把 linear-attention / SSM 家族认真用在 minute-scale world model 上。

Sparse Forcing — Native Trainable Sparse Attention for Real-time AR Diffusion Video
2026-04 · arXiv:2604.21221

把 NSA(§2.6)的思想带到视频—— 训练即学的 block-sparse attention。 观察:AR video rollout 里 attention 集中在持续的"salient block" 上, 形成隐式时空 memory,并在滑窗内呈局部 block-sparse 模式。 长 horizon 质量 + 解码延迟同时改善——"NSA-Video"的可商用版本。

Attend Locally, Remember Linearly — Linear Attention as Cross-Frame Memory for AR Video Diffusion
2026-05 · arXiv:2605.16579

Hybrid 路线:帧内用 softmax(短上下文,效果好),帧间用 linear attention 做"线性 memory"。 具体做法和 SANA-WM 类似但聚焦 AR causal video。 长 horizon 一致性比 sliding-window 好。

DynamicRad / AdaCluster / Ride the Wave / SVG-EAR

Sparse attention 的派生变种:内容自适应 / Query-Key clustering / 频率域路由 / error-aware sparse — 都是把 dense $O(N^2)$ 砍到 $O(N \log N)$ 或更激进的工程实现。

SLA2 · MonarchRT · SpargeAttention2 — Sparse-Linear hybrid + Monarch-matrix efficient attention
2026-Q1 · SLA2 · MonarchRT · SpargeAttention2

Sparse + linear 混合的多种工程实现—— SLA2 走 learnable routing + QAT;MonarchRT 用 Monarch 矩阵做高效 attention; SpargeAttention2 (SageAttention 后继) trainable hybrid top-k + top-p mask。

DSV — Dynamic Sparsity to Accelerate Large-Scale Video DiT Training
2025-02 · arXiv:2502.07590

上面都是推理。DSV 是训练侧—— 动态选 top-K 跳过其余 attention 位置。HunyuanVideo 级模型训练 2× 加速。

§12.7量化 · NVFP4 / 6-bit / 2-bit KV

Diffusion (Part XI) 的 SVDQuant W4A4 是图像版本; 视频版本因为 token 数极多、跨步分布更复杂,需要专门的工作:

LongLive-2.0 — An NVFP4 Parallel Infrastructure for Long Video Generation
2026-05 · arXiv:2605.18739

在 Blackwell NVFP4 上做的长视频生成基础设施—— 把 attention / GEMM 全走 NVFP4 tensor core, 并行调度。 把 minute-scale 视频生成推到 production latency。

Quant VideoGen — Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
2026-02 · arXiv:2602.02958

AR 长视频生成时 KV 巨大;把 KV 量化到 2-bit。 类比 KIVI(§3.2)但针对视频 token 的时空分布单独设计。 显存 -8×、质量损失极小。

6Bit-Diffusion · SemanticDialect · AdaTSQ · LSGQuant
2026-Q1 · 6Bit · SemanticDialect · AdaTSQ · LSGQuant

Video DiT PTQ 的精细化: 6Bit-Diffusion 做 inference-time mixed-precision; SemanticDialect 做 semantic-aware mixed-format; AdaTSQ 做 temporal-sensitivity-aware; LSGQuant 做 layer-sensitivity-guided。 每个都是对 Part XI 量化招在视频上的细化。

Attn-QAT — 4-Bit Attention With Quantization-Aware Training
2026-02 · arXiv:2603.00040

Attention 矩阵的 4-bit QAT。把 SageAttention(§2.3)的 INT8 思想推到 INT4,配合 QAT 防止精度坍塌。

§12.8MoE · DiT-MoE for Video

Image DiT-MoE 早已存在;视频版本因为时空维度更多、token 也更多, MoE 的"参数大 / 算力不变"优势更显著。

LongScape — Long-Horizon Embodied World Models with Context-Aware MoE
2025-09 · arXiv:2509.21790

Embodied World Model + MoE 的代表。 用 context-aware router(按场景 / 任务路由)做专家选择, 解决长 horizon 场景多样性导致的"single expert 学不过来"问题。 路线和 VLA 的 MoE-ACT (§11.8) 同构。

Mamoda 2.5 · DiT-MoE
2026-05 · arXiv:2605.02641

统一多模态 DiT-MoE:image + video + audio 共享 backbone, 用 MoE 路由按模态选 expert。比 dense 同算力强 25%。

MoCA — Identity-Preserving T2V via Mixture of Cross Attention
2025-08 · arXiv:2508.03034

MoE 不一定在 FFN——MoCA 把 cross-attention 也做成 MoE, 每个 expert 负责一个"identity" 维度。 展示 MoE 的应用可以更结构化。

§12.9测试时算力 · adaptive sampling / posterior probing

LLM 那边 o1-style test-time compute 已经主流; 视频生成里"想清楚再生成下一帧"的思路开始萌芽。

GridProbe — Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs
2026-05 · arXiv:2605.10762

在长视频 VLM 上用 posterior probing 动态分配算力—— 简单帧用少算力, 难帧 (复杂动作 / 多对象) 多算力。 给视频生成的 "想多久" 提供了第一个具体方法论。

AnyFlow(同 §12.5 — Any-Step Video Diffusion
2026-05 · arXiv:2605.13724

§12.5 与本节——同模型支持 1-50 step 推理 budget 切换, 是"adaptive compute" 的 generation 端解法。

直觉 · 视频生成的"想清楚"

LLM 的 test-time compute 是"先思考再答"; 视频生成的等价物是"先 plan keyframe 再去噪"或"在难帧上多走几步"。 目前还是萌芽期, AnyFlow + GridProbe 是已知尝试。 Sora 2 / Veo 3 内部可能已经在用类似机制但没公开。

§12.10Serving 系统 · 多模态 disaggregation

Video DiT 服务的几个 stages(text encode / VAE encode / DiT / VAE decode) 在算力 / 显存 / 带宽各有不同需求——天然适合 P/D 解耦式部署。

Cornserve — Distributed Serving System for Any-to-Any Multimodal Models
2026-03 · arXiv:2603.12118

多模态生成的分布式 serving 框架。 跨节点编排 encoder / DiT / decoder, 每段独立 scale。 "vLLM for multimodal generation" 的代表。

vLLM-Omni — Fully Disaggregated Serving for Any-to-Any Multimodal Models
2026-02 · arXiv:2602.02204

vLLM 项目的多模态扩展。 把 encoder / prefill / decode 三段(EPD)解耦, 各自独立 scale。 Video DiT 是这个架构最直接的受益者。

EPD-Serve — Multimodal EPD Disaggregation on Ascend
2026-01 · arXiv:2601.11590

国产 Ascend NPU 上的 EPD 解耦实现, 跨厂商兼容证明。

§12.11实时交互 · 游戏级 world model engine

§12.2§12.10 所有招组合起来,目标: 键盘 / 摇杆输入 → 几十毫秒后看到下一帧。 这是 2024-2026 最让人兴奋的新前沿—— "用神经网络当游戏引擎跑"从 demo 走向 product。

GameNGen — Diffusion Models Are Real-Time Game Engines
Google 2024-08 · arXiv:2408.14837

第一个 20 FPS 实时神经游戏引擎——SD-1.4 finetune on Doom gameplay。 单卡 TPU-v5。关键招:(a) noise augmentation 防 AR drift;(b) 仅 4 步 denoise; (c) Doom 引擎做 RL training data。

DIAMOND — Diffusion for World Modeling: Visual Details Matter in Atari
NeurIPS 2024 Spotlight · arXiv:2405.12399

Atari 上证明 diffusion world model 比 token-based (IRIS) 更高样本效率。 50M 小模型, 是 diffusion world model 路线的起点。

Genie 1 / 2 / 3 — Generative Interactive Environments
DeepMind 2024-02 / 2024-12 / 2025 · Genie 1 · Genie 2 blog

Genie 1 (2024-02): 11B ST-Transformer AR, 2D 平台游戏。 Genie 2 (2024-12): 3D 场景、动作可控、~10 秒。 Genie 3 (2025): 更长 horizon、更高分辨率、场景一致性。 DeepMind 把 foundation world model 作为可独立部署的 product。

OASIS / GameGen-X
2024-10 / 2024-11 · OASIS blog · GameGen-X arXiv

OASIS (Decart): Minecraft-style 实时 (~20 FPS) world model, 浏览器跑。 工程栈: causal DiT + 4-step LCM + KV sliding + INT8。 GameGen-X (CUHK): 开放世界游戏生成开源版, 支持 multi-modal control。

Matrix-Game 3.0 · Helios
2026-Q1 · Matrix-Game 3.0 · Helios

2026 的下一代交互 world model: Matrix-Game 3.0 引入 long-horizon memory 模块解决 OASIS 的 30 秒漂移; Helios 强调"真 real-time"(不靠 chunking 假装实时)。 把"交互式" 从 demo 推到产品级别。

交互 world model 加速栈(端到端)

叠加全套招——这是 OASIS / Genie / Matrix-Game 的工程菜谱:

  1. 架构:causal video DiT(§12.4)+ KV sliding + attention sink;
  2. Tokenizer:高压缩 VAE(§12.2, LTX / Cosmos 类)—— token 数 1/30 是下限;
  3. 解码:CausVid / Self-Forcing causal 蒸馏 + LCM/DMD 步数蒸馏 + SDVG specdec + TeaCache(§12.5);
  4. Attention:Sparse Forcing / SANA-WM hybrid linear+softmax(§12.6);
  5. 量化:LongLive-2.0 NVFP4 / 2-bit KV(§12.7);
  6. Serving:Cornserve / vLLM-Omni 三段解耦(§12.10);
  7. 系统:FlashAttention-3 + CUDA Graph(§2.3, §13.1)。

叠完后,从 baseline ~30 s / 帧打到 ~0.05 s / 帧(20 FPS)。 每一层 2-3×,7 层组合就是 ~1000× —— 这是 OASIS / Matrix-Game 3.0 真实做到的数字量级。

§12.12LLM 加速思想 → World Model 移植对照

和 VLA 那边(§11.12)同款 4 张表。 关键是"WM 不是 LLM 的简单延伸"—— 视频 token 是连续时空 tensor,许多 LLM trick 港过来需要重新设计。

解码加速类

LLM trick所在节World Model 状态
Speculative decoding§4.1✓ ★ NEW: SDVG (2604.17397) 第一个 AR-video specdec; SpeCa (2509.11628) 跨 step 特征 specdec
Few-step distillation (LCM/DMD/Hyper)§11.11-§11.12✓ SF-V, MAGI-1 自带, AnyFlow (2605.13724) 做 any-step
EAGLE hidden-state drafter§4.3○ 半空白 — AR-token video (Genie/MAGI-1) 适用, 还没专门做
MTP (Multi-Token Prediction)§4.4○ 半空白 — MAGI-1 隐含, 没专门 head
Cross-step cache (DeepCache 类)§12.5✓ ★ TeaCache / FasterCache / STG / SpeCa 全有, 工业默认

Attention 架构 / KV 压缩类

LLM trick所在节World Model 状态
SSM / Mamba / 线性 attention§2.6✓ ★ SANA-WM (2605.15178) hybrid GDN; Attend Locally Remember Linearly (2605.16579); SLA2
NSA · native sparse attention§2.6✓ ★ Sparse Forcing (2604.21221) 是 video-NSA 的可商用版本; DynamicRad / AdaCluster / Ride-the-Wave / SVG-EAR / MonarchRT 是变种
Hybrid linear + softmax✓ SANA-WM 范式已落地
MLA latent KV§3.1✗ 空白 — minute-scale 视频 KV 远超 LLM, 极需 latent 压缩
RadixAttention prefix 共享§3.4✗ 空白 — I2V 场景多请求共享起始帧, 完全可以做

量化与 MoE 类

LLM trick所在节World Model 状态
FP8 / NVFP4 推理§5.1✓ ★ LongLive-2.0 (2605.18739) NVFP4 production infra
2-bit KV§3.2✓ ★ Quant VideoGen (2602.02958) AR video 2-bit KV
低 bit PTQ (W4A4)§9.6 SVDQuant✓ 6Bit-Diffusion / SemanticDialect / AdaTSQ / LSGQuant / Attn-QAT 多种 video PTQ
MoE 视频版§6.3LongScape (2509.21790) 是 embodied WM-MoE; Mamoda 2.5 / MoCA 是 generation 端 MoE-DiT

Serving / 系统类

LLM trick所在节World Model 状态
P/D / EPD disaggregation§7.5✓ ★ Cornserve (2603.12118) / vLLM-Omni (2602.02204) / EPD-Serve (2601.11590) 三家
Test-time compute (o1-style)○ 萌芽 — GridProbe (2605.10762) posterior probing; AnyFlow 可调 step
Continuous batching§7.1○ 半空白 — Cornserve / vLLM-Omni 已部分支持, 但 video 端 batching 仍不成熟
CUDA Graph / torch.compile§13.1-§13.2✓ 部署默认
KV offload to CPU/NVMe✗ 空白 — minute+ 视频 KV 完全可以 offload, 没人做
读法

上面四档表显示——video 加速比 VLA 那边成熟一档。 解码 / attention / 量化 / MoE 四类核心机制各自都已经有 2026 SOTA 工作。 剩下的真空地带: ① MLA-Video(KV latent 压缩); ② RadixVideo(I2V 场景前缀共享); ③ video 端 KV offload

第四条更有趣—— RDT/π0 ↔ video world model 的 cross-pollination: 机器人本质上也是 conditional video generator, 两边方法论可以互相套。 LongScape (2509.21790) 已经在做这种 crossover。

§12.13World Model 还没解决的

站到 2026-05,把 world model 推理 / 训练栈仍然空着的坑显式列出来—— 下一波生成式 AI 突破很大概率出现在其中某一条上。

  • 分钟级 horizon 一致性—— Self-Forcing 在 ~1 min 稳得住, Matrix-Game 3.0 推到 ~几分钟, 再往上场景 drift 严重。 10 min+ 连贯生成是下一步突破口。
  • 物理一致性—— 视频 DiT 学的是"看起来对",不是"物理对"。 重力 / 碰撞 / 流体在长视频里仍会出错。 PH-Dreamer (2605.18303) 走"物理约束 + 生成"的混合路线, 还是雏形。
  • 训练算力—— HunyuanVideo 13B 训练用了 ~2000 张 H100 × 数周; DSV (§12.6) 给出训练 2× 加速但仍是天文数字预算。
  • 评估指标—— FVD / VBench 与人眼感知偏离很大; "用户可不可控、不漂移、物理对"还没有好的 metric。 整个领域 "比谁的 demo 更炫" 而不是 "比 metric"。
  • 跨实体 → 机器人 sim2real—— Cosmos 路线起步,VLA 与 world model 之间的端到端反馈闭环尚未打通。
  • 交互式 long-horizon—— OASIS / Matrix-Game 3.0 demo 了 ~几分钟交互, 上小时级 (i.e. 真正能一局游戏) 仍需要外部 memory / world state 持久化, 没有标准方案。
  • 统一的 video VAE 标准—— HunyuanVideo / Wan / Cosmos / LTX 各家 VAE 不兼容, 模型间无法直接 transfer latent。 Video VAE 现在像 2022 年的 image VAE 一样割裂。
  • MLA-Video / RadixVideo / KV offload 这三个 "✗ 空白" (见 §12.12)是下一波最值得做的方向, 大概率半年内会出 paper。