Hub Part XI · VLA · 机器人加速
Part XI · VLA · 机器人加速

让 7B VLM 也能 100 Hz 控机器人

VLA 模型 = VLM + 动作头。任务:把"图像 + 语言"映射到一段连续动作。 工程难点是实时频率:双臂操作要 ~30 Hz, 人形要 50–200 Hz,触觉伺服要 ~500 Hz+。 本部按 "范式 → 加速机制 → 系统部署" 三段组织: §11.1-§11.4 讲范式与 dual-system 架构; §11.5-§11.10 按 6 大加速机制(解码 · attention · 量化 · MoE · 测试时算力 · serving)横切; §11.11-§11.13 给实时部署、LLM-移植对照、未解决问题。

§11.1VLA 范式 · "把动作当 token 自回归生成"

RT-2 / OpenVLA / Octo — Vision-Language-Action Foundation Models
2023 / 2024 DeepMind / Stanford / Berkeley · RT-2 · OpenVLA · Octo

把机器人动作(7 维连续:xyz + RPY + 夹爪)离散化为 256 个 bin, 每维一个 token,整个动作 $\approx$ 7 token。 把它们 append 到 VLM 词表 → 拿 PaliGemma / Llama backbone 自回归生成动作。 一个 VLA 模型 $\approx$ "VLM + 7 个动作 token"。

数据基础是 Open X-Embodiment(DeepMind 2024)—— 把 22 个 lab 的机器人 demo 用统一格式打包成 ~1M 条 trajectory, 让 VLA 像 LLM 一样吃"开源数据" pretraining。

工程上:机器人控制循环要 10–30 Hz,每个 step 都要等 VLA 出 7 个 token。 模型 7B 时 latency ~150 ms → 闭环只能跑 ~6 Hz, 远低于双臂可用频率。 剩下 9 节都是在解决这件事。

把动作离散化的简单代码

# RT-2 / OpenVLA: 7 维连续动作 → 7 个离散 token
ACTION_BOUNDS = {  # 各维取值范围
    'x': (-0.5, 0.5), 'y': (-0.5, 0.5), 'z': (0, 1.0),
    'roll': (-3.14, 3.14), 'pitch': (-3.14, 3.14), 'yaw': (-3.14, 3.14),
    'gripper': (0, 1),
}
N_BINS = 256

def discretize(action_7d):
    tokens = []
    for dim, (lo, hi) in ACTION_BOUNDS.items():
        v = action_7d[dim]
        b = int((v - lo) / (hi - lo) * N_BINS)
        b = min(N_BINS - 1, max(0, b))
        tokens.append(VOCAB_SIZE - N_BINS + b)
    return tokens
直觉 · VLA = VLM + 几个 token

动作只是另一种语言。把机器人的 256 个动作 bin 加进 vocab, 模型不需要新结构、不需要新损失——就用 next-token prediction 训。 这让 VLA 直接继承 VLM 的所有加速(FlashAttention、量化、speculative decode), 本部其余 6 节大半篇幅都是怎么让这个 7-token 出得更快

§11.2Action Chunking & Diffusion Policy · 一次出多步

ACT / Diffusion Policy — Chunked Action Prediction
RSS 2023 Zhao et al. · Stanford · ACT · Diffusion Policy

与其每步预测一个动作,不如一次预测未来 H 步的动作 chunk。 控制频率 → 推理频率 / H。 OpenVLA-OFT、π0、π0.5、RDT 都是这套。 H 取 16–64 时延迟从 100 ms 摊到 ~5 ms / 步。

Receding horizon · 不要等 chunk 跑完才更新

纯 chunking 的 bug:vision 在 H 步内不更新,机器人遇到扰动反应不过来。 实际 production 用 receding horizon—— 每 H/k 步重新推理一次,仅执行新 chunk 的前 H/k 步。k=4 是常见值。

RDT-1B — Robotics Diffusion Transformer (1B scale)
ICLR 2025 Liu et al. · 清华 · arXiv:2410.07864

把 Diffusion Policy 推到 1B + DiT backbone。 专为双臂任务设计——输出 [chunk=64, action_dim=14] 连续动作矩阵, 1k+ 小时双臂数据预训练。第一次证明 diffusion-policy 路线也能做 foundation 规模。

相比 OpenVLA discrete-token AR:RDT 输出连续动作矩阵, 精度上限高; 代价:inference 时要跑 5-10 步 denoise,单 step 偏慢。 π0 / π0.5 沿此路线。

§11.3π0 家族 · Flow Matching + FAST tokens

π0 / π0.5 — Physical Intelligence's Flow-based VLA
PI 2024-10 / 2025-04 · π0 · π0.5 blog

π0:动作头换成flow matching——一次 forward 出 50 步动作(50Hz)。 PaliGemma 3B VLM 输出 hidden state 作 condition, flow head 条件生成 [50, 7] 矩阵。 比 RT-2 的"7 token 自回归" 快 20×、不需要离散化。

π0.5(2025-04)扩展到open-world 泛化:100+ 家庭多样化数据预训练。 架构引入两层:高层离散 token 出 sub-task, 低层 flow head 出动作—— 是 §11.4 dual-system 思路的前身。

# π0 flow matching action head (简化)
class FlowActionHead(nn.Module):
    def __init__(self, D_cond, action_dim=7, H=50):
        self.net = TransformerDecoder(...)
    def forward(self, h_cond, n_flow_steps=10):
        x = torch.randn(B, H, action_dim)        # 初始噪声
        for t in torch.linspace(0, 1, n_flow_steps):
            v = self.net(x, h_cond, t)            # 速度场
            x = x + (1.0/n_flow_steps) * v
        return x                                  # [B, 50, 7] 动作序列
# 10 个 flow step: 整套 chunk 推理 ~25ms on H100
FAST · FAST+ — Frequency-Aware Action Sequence Tokenization
2025-01 / 2025-Q2 · FAST

用 DCT 把连续动作压成更短的离散 token 序列。 一段 1 秒钟 50 Hz 动作 (50×7 维),DCT 取 top-k 后 ~20 token, 再 BPE 离散化。AR backbone 出 20 token 比 50×7 个连续值便宜得多。 FAST+ 加 task-specific 词表 + 残差量化,精细任务再减半。

§11.4Dual-System · 慢/快脑分离

Kahneman 的 System 1 / System 2 隐喻:S2 慢但深思(高层推理), S1 快而反射(低层运动)。 把 VLA 拆成两个网络—— 大 VLM 慢速做规划(~10 Hz)、 小快网络高频出动作(200 Hz+)—— 是 2024-2025 realtime-VLA 的最大共同思想。

Helix — Figure's 200 Hz Humanoid VLA
Figure AI 2025-02 (blog) · figure.ai/news/helix

Figure 02 的 dual-system 架构: S2 = 7B VLM 在 ~7 Hz 输出 hidden state 作条件信号; S1 = 80M 小 transformer 在 ~200 Hz 把条件 + 最新 proprioception 转扭矩。 把"全 7B 自回归 → 200Hz" 从不可能变成默认。

# Helix 风格 dual-system: S2 ~7Hz, S1 ~200Hz
import asyncio

class DualSystemVLA:
    def __init__(self, S2_vlm, S1_actor):
        self.S2 = S2_vlm; self.S1 = S1_actor
        self.latest_cond = None

    async def s2_loop(self, obs_stream):
        while True:
            obs = await obs_stream.latest()
            self.latest_cond = self.S2(obs)   # ~140 ms
            await asyncio.sleep(0)

    async def s1_loop(self, robot):
        while True:
            propio = robot.read_propio()
            cond = self.latest_cond           # 读最新 (可能 stale 100 ms)
            torque = self.S1(propio, cond)    # ~3 ms
            robot.send_torque(torque)
            await asyncio.sleep(1/200)
HiRT — Hierarchical Robot Transformers
2024-10 · arXiv:2410.05273

比 Helix 早半年的"分层"思路:高层 ViT-VLM ~2 Hz 输出 latent, 低层小 transformer ~100 Hz 出动作。 更偏研究、规模小但证明 dual-system 在标准 benchmark 有效。

GR00T-N1 / GR00T-N1.5 — NVIDIA Humanoid Foundation Model
NVIDIA 2025-03 · arXiv:2503.14734

NVIDIA 开源 2B 人形 VLA。架构 dual-process: Eagle-2 VLM 做 S2 + DiT-Policy 做 S1。 配套数据合成 (GR00T-Mimic / GR00T-Dreams)。 通过 Cosmos World Model(§12.4)做 sim → real。

TacMamba — Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA
2026-03 · arXiv:2603.01700

Dual-system 的具体架构落地:S1 用什么 backbone? TacMamba 给出清晰答案——Mamba SSM。 痛点描述精准:"tactile perception 要 >100Hz + long-horizon memory; Transformer 跑不动这个频率,LSTM 又记不住长历史"—— SSM 的 $O(1)$ memory + 线性时间正好同时满足。

本节最值得记的"VLA 用上 linear attention 的角度"—— 并非"全 VLA 换成 Mamba",而是 把 SSM 放在 dual-system 的 S1 那一侧

Latent Bridge — Feature Delta Prediction for Efficient Dual-System VLA
2026-05 · arXiv:2605.02739

Dual-system 的"接口"问题:S2 的 hidden state 在 chunk 内变化怎么传给 S1? Latent Bridge 让 S1 自己预测 S2 hidden 的 delta, 把"S2 stall 100ms"时 S1 不空转。

§11.5解码加速 · spec / parallel / 早退 / 块扩散

把"每步出 N 个 action token" 的总 forward 数 / 串行步数压下来。 2026 H1 这一类涌现了 6-8 个新工作。

Speculative decoding for VLA

Realtime-VLA FLASH — Speculative Inference Framework for Diffusion-based VLAs
2026-05 · arXiv:2605.13778

关键想法:drafter = 轻量 flow 头并行 propose 整个动作 chunk; 主模型 Action Expert 做并行验证。 第一次让"specdec"思想真正 port 到 diffusion VLA, replanning 从 ~5 Hz → ~30 Hz。

HeiSD — Hybrid Speculative Decoding for Embodied VLA with Kinematic Awareness
2026-03 · arXiv:2603.17573

Hybrid specdec:用运动学先验(关节空间相邻动作不会跳变) 构造 drafter 候选,比 LLM 通用 specdec 接受率高。 Kinematic-aware verification 解决"draft 看着对但物理上不可达"的问题。

KERV — Kinematic-Rectified Speculative Decoding for Embodied VLA
2026-03 · arXiv:2603.01581

和 HeiSD 同期独立工作,关键也是用 kinematic constraint rectify drafter 输出。 两篇互为对照——说明运动学先验是 VLA specdec 的关键 differentiator。

Spec Policy Orchestration · CogACT · TriVLA
2024-2026 · Spec Policy Orch

其他 VLA specdec 工作: Spec Policy Orchestration (2603.19418) 做云-机器人 latency-resilient framework; CogACT / TriVLA 走 self-spec(同模型早几层作 drafter)。

Block-diffusion · AR/diffusion 边界打通

BlockVLA — Accelerating AR VLA via Block Diffusion Finetuning
2026-05 · arXiv:2605.13382

把 AR VLA backbone 微调成"块状 discrete diffusion"—— 每步一次出一个 block 的 token, 块内 bidirectional 迭代精修。 既享 AR backbone 语义先验,又获 diffusion 并行 NFE 优势。 LIBERO 上 1 forward 出 16 token 而不是 16 forward。

Fast-dVLM — Efficient Block-Diffusion VLM via Direct Conversion from AR VLM
2026-04 · arXiv:2604.06832

BlockVLA 的同期 cousin:把 AR VLM 直接转为 block-diffusion, 无需端到端重训。

Parallel decoding · 一次出 N 个 action token

OpenVLA-OFT — Fine-Tuning VLA: Optimizing Speed and Success (26× Decode)

OpenVLA 改为并行解码——7 个动作 token 一个 forward 同时出。 类似 NAT 的思路,质量略掉 1-2%,速度 26×。

AsyncVLA — Asynchronous Flow Matching for Vision-Language-Action Models
2025-11 · arXiv:2511.14148

把 flow matching 的多步去噪做成 async 并行: 视觉编码、condition、flow step 可重叠。π0 类模型 1.5-2× 加速。

Early-exit · 简单动作走浅层

DeeR-VLA — Dynamic Inference of Multimodal LLMs for Efficient Robot Execution
NeurIPS 2024 · arXiv:2411.02359

每层加 early-exit head + confidence。简单动作 ~12 层即出,复杂跑满 32 层。 平均 ~2.5× decode 加速、几乎不掉成功率。

MoLe-VLA — Dynamic Layer-skipping VLA via Mixture-of-Layers

比 DeeR 激进:per-token / per-layer 稀疏路由—— 每 token 独立决定要不要跳过这一层。OpenVLA-7B 1.5-2× 加速。

DySL-VLA · DeeAD
2026-02 / 2025-11 · DySL-VLA · DeeAD

DySL-VLA: Dynamic-Static Layer-Skipping for VLA。 DeeAD: Dynamic Early Exit for Autonomous Driving VLA。 早退家族的最新两个变种。

§11.6Attention 架构 · SSM / linear / 视觉 token / KV 压缩

把 Transformer attention从根上替换或压缩。VLA 端比 LLM 端更激进—— 机器人 history 是连续 sensor stream, SSM / linear attention 结构上贴合。

SSM / Mamba backbone

RoboMamba — Efficient VLA Model via SSM Backbone
2024-06 · arXiv:2406.04339

第一个用 Mamba 整体替换 Transformer backbone 的 VLA。 decode 内存与 history 长度无关、$O(1)$ memory。 SoTA 仍是 attention-based, 但开了"换 backbone"的口子。

TacMamba(同 §11.4
2026-03 · arXiv:2603.01700

跨节——Mamba 不是替换整个 backbone, 而是放在 dual-system 的 S1 那一侧。 Sweet spot: 局部 SSM 适配器 > 全 Mamba。

RWKV / linear attention

Decision-RWKV — RWKV-based Recurrent Sequence Modeling for Lifelong Manipulation
2024-07 · arXiv:2407.16306

把 RWKV 用在机器人 lifelong learning—— 线性 memory 防止 catastrophic forgetting。

KAN-We-Flow · PRISM
2026-Q1 · KAN-We-Flow · PRISM

KAN-We-Flow: RWKV + KAN 替换大 UNet 做 flow matching policy。 PRISM: Performer (真线性 attention) 做 single-pass multisensory imitation。 都展示 linear-attention family 在 VLA 各子场景的应用。

视觉 token 压缩 / KV cache 管理

VLA-Cache — Efficient VLA Manipulation via Adaptive Token Caching
2025-02 · arXiv:2502.02175

跨 timestep 复用 visual token KV——相机帧间相似度高时, 只重编码变化的 patch。 StreamingLLM (§3.3) 的多 step VLA 版本。

# VLA-Cache 差分检测核心
class VLACache:
    def __init__(self, vlm, diff_thr=0.05):
        self.vlm = vlm; self.thr = diff_thr
        self.prev_patches = None; self.prev_kv = None

    def step(self, img, instr):
        patches = patchify(img)
        if self.prev_patches is None:
            kv = self.vlm.prefill_vision(patches)
            self.prev_kv, self.prev_patches = kv, patches
        else:
            diff = (patches - self.prev_patches).norm(dim=-1)
            changed = (diff > self.thr).nonzero()
            new_kv = self.vlm.partial_prefill_vision(
                patches[changed], cached_kv=self.prev_kv, changed_idx=changed)
            self.prev_kv, self.prev_patches = new_kv, patches
        return self.vlm.decode_action(instr, self.prev_kv)
ETA-VLA — Efficient Token Adaptation via Temporal Fusion + Intra-LLM Sparsification
2026-03 · arXiv:2603.25766

§10.3 VLM 的 FastV / VisionZip 思路迁到 VLA: temporal-aware 选择 token + LLM 内 layer-wise 稀疏。

CSR — Infinite-Horizon Real-Time Policies with Massive Cached State Representations
2026-05 · arXiv:2605.07325

极长 horizon (小时级) policy。 用 massive cached state representation 解决"history 越来越大"的 KV 爆炸—— 类似 MLA 但是 VLA-specific 设计。

Long-Horizon VLA · Static-Dynamic Disentanglement
2026-02 · arXiv:2602.03983

把 history 拆成"静态" (背景/桌面) 与"动态" (手/物体) 两路 KV。 静态部分大幅压缩复用——VLA 端的 latent KV 压缩思路, 比 MLA 更具语义。

§11.7量化与小型化 · PTQ / 1-bit / 边缘部署

把权重 / KV / activation 压到 4-bit 乃至 1-bit—— VLA 端 2026 H1 涌现了至少 6 个专门工作, 已经赶上 LLM 量化的成熟度。

QuantVLA — Scale-Calibrated Post-Training Quantization for VLA
2026-02 · arXiv:2602.20309

把 GPTQ / AWQ (Part V) 拓展到 VLA: scale-calibrated 处理动作 token 的特殊分布。 OpenVLA-7B INT4 几乎无损。

QVLA · DyQ-VLA · DA-PTQ
2026-Q1 · QVLA · DyQ-VLA · DA-PTQ

QVLA: "Not All Channels Are Equal"——AWQ 思想的 VLA 版。 DyQ-VLA: Temporal-Dynamic-Aware Quantization——按时间步动态调精度。 DA-PTQ: Drift-Aware PTQ——处理机器人数据 drift。

HBVLA — Pushing 1-Bit Post-Training Quantization for VLA
2026-02 · arXiv:2602.13710

把 BitNet b1.58 (§5.6) 路线推到 VLA: 1-bit weights, PTQ (不重训)。在 OpenVLA 上几乎无损, 意味着 VLA 边缘部署有了"准 BitNet"路径。

TinyVLA / LiteVLA-Edge
2024-09 / 2026-03 · TinyVLA · LiteVLA-Edge

底座换成 Qwen2-0.5B / Phi-3-mini 级小 LM + 轻 ViT。 在 LIBERO 上和 OpenVLA-7B 持平、5-10× 快、几 GB 显存。 LiteVLA-Edge 进一步做 quantized on-device multimodal control。

边缘部署的标准配方

# Jetson Orin / Thor 上 TinyVLA 1B 的部署
# 1. 量化: W4A16 (QuantVLA) 或 1-bit (HBVLA)
quantize_vla(model, n_bits=4, method='QuantVLA')

# 2. 任务 LoRA: 每个机器人/任务一个 5-10MB adapter
load_lora(model, 'cleanup_table.lora')

# 3. KV cache 用 FP8 + DyQ-VLA temporal-aware
model.kv_dtype = 'fp8_e4m3'

# 4. CUDA Graph 编一份 decode 图 (固定 batch=1)
compiled = torch.compile(model, mode='reduce-overhead')

§11.8MoE · 按任务 / 实体路由的稀疏专家

Task / embodiment 路由是 VLA 天然的 MoE 场景。 2026 H1 涌现一批 MoE-VLA 工作:

MoE-ACT — Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned MoE
2026-03 · arXiv:2603.15265

最直接的 MoE-VLA:language-conditioned router 按指令选 expert。 "clean table" vs "put bowl" 走不同 expert。 多任务双臂场景大幅提升。

HEX — Humanoid-Aligned Experts for Cross-Embodiment Whole-Body
2026-04 · arXiv:2604.07993

跨实体 (single-arm / bimanual / 人形) MoE: 每个 embodiment 一个 expert。 一个 backbone 通用、router 处理实体差异。

LAR-MoE · ATG-MoE
2026-03 · LAR-MoE · ATG-MoE

LAR-MoE: Latent-Aligned Routing 解决 expert 间表征对齐。 ATG-MoE: Autoregressive Trajectory Generation with MoE for assembly。 把 MoE 用在 VLA 不同 sub-task 上的变种。

§11.9测试时算力 · 想再行动

LLM 端 o1-style test-time compute 已经主流;VLA 端的等价物是 "复杂任务多花点时间想清楚, 简单任务直接出动作"。

ECoT — Robotic Control via Embodied Chain-of-Thought Reasoning
2024-07 · arXiv:2407.08693

显式 "perceive → plan → act" 链式推理。 把 LLM 的 CoT 思想港到 VLA, 在复杂场景 (multi-step manipulation) 明显胜过 OpenVLA。

VLA-ATTC — Adaptive Test-Time Compute for VLA with Relative Action Critic
2026-05 · arXiv:2605.01194

关键想法:用一个 critic model 判断"当前情境是否需要多想一下"。 简单步骤直接出动作, 复杂步骤进入 deliberation mode (run more inference passes)。 第一个明确的 VLA test-time compute 框架。

Sentinel-VLA — Metacognitive VLA with Active Status Monitoring
2026-05 · arXiv:2605.01191

"Sentinel" 模块实时监控执行状态—— 检测异常或初始 planning 时才触发深度推理, 常规情况快速反射。 on-demand reasoning 范式。

Think Twice, Act Once
2026-05 · arXiv:2605.12620

Verifier-guided action selection: 候选动作 → verifier 评分 → 选最优。 Best-of-N sampling 的 VLA 版本。

§11.10Serving 系统 · 多任务并行 · P/D 解耦

VLA serving infra 之前是空白—— 2026 这一年终于出现了几个像样的工作:

OxyGen — Unified KV Cache Management for VLA Inference under Multi-Task Parallelism
2026-03 · arXiv:2603.14371

第一个 VLA serving 系统。 Mixture-of-Transformers VLA 同时跑 manipulation / conversation / memory construction 三任务, 共享观察、不同时间约束。 OxyGen 做 unified KV cache 管理 + 任务间资源调度—— 解决 multi-task VLA 的"vLLM-equivalent" 问题。

Auras · 感知-生成解耦 — Boosting Embodied AI via Perception-Generation Disaggregation
2025-09 · arXiv:2509.09560

把 perception (ViT) 与 generation (LLM + action) 解耦成异步 pipeline—— 类似 LLM 的 P/D 解耦, 但搬到 embodied AI 场景。 高频感知 / 中频生成可以独立 scale。

ActionFlow — Pipelined Action Acceleration for VLM on Edge
2025-12 · arXiv:2512.20276

边缘端的 VLM-VLA pipeline。 Vision encode / LLM forward / action decode 三段流水化, 隐藏 VLA latency 至单步 ~10 ms。

D-VLA — Distributed Asynchronous RL Framework for VLA
2026-05 · arXiv:2605.13276

多机分布式 RL 训练 VLA, async 异步 rollout 聚合。 把 verl / OpenRLHF (§8.5) 的训练系统专门为 VLA 优化。

§11.11实时控制 · latency 拆解 + 部署配方

机器人 vs LLM serving 的关键不同: 延迟一致性比平均吞吐重要——偶尔一帧抖到 100 ms 比稳定 30 ms 糟糕得多。 这一节给数字与具体配方。

把所有招组合 · 7B VLA 实测 latency 拆解

阶段baseline H100+ FP8 quant+ chunking 16+ KV warm + cache+ dual-system
ViT 视觉编码40 ms15153 (差分 cache)3 / S2 only
LLM prefill (~1k tok)12045455 (warm)40 / 7Hz
动作 decode (7 tok)401515 / 16 = 11S1: 3 / 200Hz
合计 / step200 ms (5Hz)75 ms (13Hz)61 ms (16Hz)9 ms (110Hz)5 ms (200Hz)

(H100 数字。Jetson Orin 整体 ×3-5 倍。)

边缘卡 · TinyVLA 1B + Jetson Orin AGX 64GB

配置step latency控制频率
FP16 baseline~80 ms12 Hz
+ W4A16 QuantVLA~30 ms30 Hz
+ chunking 8 + CUDA Graph~6 ms>100 Hz
+ dual-system S1 only~3 ms200+ Hz (扭矩级)

realtime-VLA 工程清单(按性价比排)

  1. Keep KV warm——不重置 cache,新观察 append。最便宜的招, 单独省 30%+ latency。
  2. 差分视觉——VLA-Cache 风格 (§11.6), 只重编码变化的 patch。
  3. Receding chunking——chunk H=16, 每 4 步重推一次。
  4. Dual-system§11.4)——100Hz+ 控制频率的唯一路径。
  5. Inference 跳层——DeeR-VLA / MoLe-VLA / DySL-VLA (§11.5)。
  6. 并行 action decode——OpenVLA-OFT 一次出 N tok。
  7. 边缘量化——QuantVLA W4A8 + DyQ-VLA KV (§11.7)。
  8. CUDA Graph§13.1)——decode 阶段必开。
  9. Spec-decoding——HeiSD / KERV / Realtime-VLA FLASH (§11.5)。

生产 realtime-VLA 6 步搭建配方

  1. 基线选型:30Hz 桌面 → OpenVLA-OFT 7B + 量化;100Hz+ 人形 → Helix dual-system;边缘 → TinyVLA。
  2. 架构:S2 用 PaliGemma/Eagle-2 3-7B;S1 用 80M ~ 250M small transformer;S1 拿 S2 hidden state 当 condition。
  3. 量化:S2 W4A16 + KV FP8;S1 BF16(小模型量化收益少)。
  4. 缓存:VLA-Cache 差分 + 多机器人场景叠 RadixAttention prefix。
  5. 解码:chunking 16-64 + parallel action decode + spec-decoding。
  6. 调度:S2 + S1 两个 CUDA stream,asyncio 各跑各的, shared cond buffer; serving 走 OxyGen / Auras P/D 解耦。

§11.12LLM 加速思想 → VLA 移植对照

把 LLM 那边过去三年卷出来的 trick 对照 VLA 端状态。 这一节按本部 6 个加速节(§11.5-§11.10)的分类组织—— 每条都给出实际 cite,不再有"✗ 完全空白"的虚位(2026 H1 几乎所有空白都被填上了)。

① 解码加速类(对应 §11.5)

LLM trick所在节VLA 状态
Speculative decoding§4.1-§4.4✓ ★ HeiSD (2603.17573) / KERV (2603.01581) kinematic-aware; Realtime-VLA FLASH (2605.13778) diffusion-VLA; CogACT/TriVLA self-spec
Block-diffusion (dLLM 类)✓ ★ BlockVLA (2605.13382) / Fast-dVLM (2604.06832)
EAGLE hidden-state drafter§4.3○ 半空白 — 暂无 EAGLE-VLA, 但 self-spec 是近邻
MTP (Multi-Token Prediction)§4.4○ 半空白 — action chunking 隐含, 没专门 head
Parallel decode (NAT 类)OpenVLA-OFT 26× decode; AsyncVLA
Early-exit / 跳层DeeR-VLA, MoLe-VLA, DySL-VLA, DeeAD

② Attention 架构 / KV 压缩类(对应 §11.6)

LLM trick所在节VLA 状态
SSM / Mamba backbone§2.6RoboMamba 整 backbone; TacMamba 把 SSM 放 dual-system S1 (200Hz 触觉) 一侧——结构最贴合
RWKV / linear attention§2.6Decision-RWKV lifelong; KAN-We-Flow RWKV+flow; PRISM Performer 单步 imitation
NSA · native sparse attention§2.6✗ 空白 — 长 horizon rollout 是天然稀疏场景
Hybrid linear + softmax (SANA-WM 范式)§12.6✗ 空白 — TacMamba 是 S1/S2 分系统而非单模型内混合
视觉 token 缓存 / 差分§10.2-§10.3VLA-Cache 差分 KV; ETA-VLA temporal token fusion
MLA latent KV (DeepSeek)§3.1○ 萌芽 — CSR (2605.07325) 与 Static-Dynamic Disentanglement (2602.03983) 是 VLA-style 的近邻方案; 严格 MLA-VLA 仍空白

③ 量化 · MoE · 测试时算力类(对应 §11.7-§11.9)

LLM trick所在节VLA 状态
PTQ (GPTQ / AWQ)§5.2-§5.3QuantVLA, QVLA 各家 VLA-specific PTQ
1-bit weights (BitNet)§5.6✓ ★ HBVLA (2602.13710) 1-bit PTQ for VLA
Temporal / drift-aware quantDyQ-VLA, DA-PTQ 是 VLA-specific 的扩展
FP4 / NVFP4§5.1○ 半空白 — Blackwell-class 边缘卡刚出, VLA 端还在适配中
MoE per-task experts§6.3MoE-ACT 双臂多任务, HEX 跨实体, LAR-MoE, ATG-MoE
Test-time compute (o1 类)ECoT, Sentinel-VLA, VLA-ATTC, Think Twice Act Once

④ Serving · 底层工程类(对应 §11.10)

LLM trick所在节VLA 状态
Continuous batching (vLLM 类)§7.1○ 半空白 — OxyGen (2603.14371) 已做 multi-task KV 调度, 但 fleet-scale batching 仍欠
P/D / EPD disaggregation§7.5✓ ★ Auras (2509.09560) 感知-生成解耦; ActionFlow 边缘流水
RadixAttention 跨请求 prefix§3.4✗ 空白 — 多机器人共享 prompt 完全可以做
Chunked prefill (Sarathi)§3.5✗ 空白 — 长 episode replay 适用
CUDA Graph + torch.compile§13.1-§13.2✓ 部署默认
KV offload to CPU/NVMe✗ 空白 — 跨小时尺度的 episodic memory 完全可以 offload
Distributed async training (verl)§8.5D-VLA (2605.13276) VLA-specific async RL
读法 · 2026 H1 的状态

一年前同一张表 80% 是 "✗ 空白",现在 80% 至少有萌芽。 VLA 加速已经追上 LLM 加速的成熟度—— 特别是解码 / 量化 / MoE / 测试时算力四类, 都有 VLA 自有的 SOTA 工作。 剩下真空地带主要在 系统层:MLA-VLA / RadixAttention 多机器人 / KV offload / Chunked prefill。 本质是在等 "vLLM-for-VLA" 这种生态级 infra 成熟——OxyGen 是雏形。

§11.13VLA 还没解决的

站到 2026-05,把 VLA 推理 / 训练栈仍空着的坑显式列出来。 每一条做出来都是顶级会议 oral 级别。

  • 200 Hz+ 触觉伺服在边缘卡上还不行—— Helix 双 GPU 才把 S1 推到 200Hz; 单 Jetson Orin ~80Hz。 500 Hz+ 力控伺服仍是传统控制器领地。 下一步可能要走专用 ASIC 或 distillation-to-MLP 极端方向。
  • Chunking 长 H 一遇扰动就崩—— SDF-conditioned / closed-loop chunking 仍是研究方向。
  • Dual-system 训练协议不统一—— Helix / GR00T / HiRT / TacMamba 四家做法都不同, 缺一个"标准接口"。
  • 跨实体迁移—— Open X-Embodiment 是单臂为主, 双足 / 灵巧手 / 软体的开源大规模数据还少。 HEX (MoE 跨实体) 只是局部解。
  • VLA serving infrastructure—— OxyGen 是雏形, 但 "vLLM-for-VLA" 等级的成熟开源生态还没出现。 多机器人 fleet 共享 backbone 的标准实现仍空白。
  • Sim2Real 端到端闭环—— Cosmos (§12.4) 与 VLA 之间的反馈闭环尚未打通。
  • Long-horizon planning—— 现在 chunking ~1 秒 horizon, 多步骤任务靠 system 2 reasoning, 但 reasoning 又卡死实时。 VLA-ATTC / ECoT 是萌芽。
  • MLA-VLA / RadixAttention 多机器人 / KV offload—— §11.12 表里那几条"✗ 空白" 是 6-12 个月内最可能出 paper 的方向。