Hub › Part XI · VLA · 机器人加速

Part XI · VLA · 机器人加速

让 7B VLM 也能 100 Hz 控机器人

VLA 模型 = VLM + 动作头。任务：把"图像 + 语言"映射到一段连续动作。工程难点是实时频率：双臂操作要 ~30 Hz，人形要 50–200 Hz，触觉伺服要 ~500 Hz+。本部按 "范式 → 加速机制 → 系统部署" 三段组织： §11.1-§11.4 讲范式与 dual-system 架构； §11.5-§11.10 按 6 大加速机制（解码 · attention · 量化 · MoE · 测试时算力 · serving）横切； §11.11-§11.13 给实时部署、LLM-移植对照、未解决问题。

本页 13 节 · realtime-VLA 完整地图

§11.1VLA 范式 · 把动作变 token
§11.2Action Chunking & Diffusion Policy
§11.3π0 家族 · Flow Matching + FAST
§11.4Dual-System · 慢/快脑分离
§11.5解码加速 · spec / parallel / 早退
§11.6Attention 架构 · SSM / linear / KV 压缩
§11.7量化与小型化 · PTQ / 1-bit / 边缘
§11.8MoE · 专家路由
§11.9测试时算力 · 想再行动
§11.10Serving 系统 · 多任务并行
§11.11实时控制 · latency 拆解 + 部署配方
§11.12LLM 加速思想 → VLA 移植对照
§11.13VLA 还没解决的

§11.1VLA 范式 · "把动作当 token 自回归生成"

RT-2 / OpenVLA / Octo — Vision-Language-Action Foundation Models

2023 / 2024 DeepMind / Stanford / Berkeley · RT-2 · OpenVLA · Octo

把机器人动作（7 维连续：xyz + RPY + 夹爪）离散化为 256 个 bin，每维一个 token，整个动作 $\approx$ 7 token。把它们 append 到 VLM 词表 → 拿 PaliGemma / Llama backbone 自回归生成动作。一个 VLA 模型 $\approx$ "VLM + 7 个动作 token"。

数据基础是 Open X-Embodiment（DeepMind 2024）—— 把 22 个 lab 的机器人 demo 用统一格式打包成 ~1M 条 trajectory，让 VLA 像 LLM 一样吃"开源数据" pretraining。

工程上：机器人控制循环要 10–30 Hz，每个 step 都要等 VLA 出 7 个 token。模型 7B 时 latency ~150 ms → 闭环只能跑 ~6 Hz, 远低于双臂可用频率。剩下 9 节都是在解决这件事。

把动作离散化的简单代码

# RT-2 / OpenVLA: 7 维连续动作 → 7 个离散 token
ACTION_BOUNDS = {  # 各维取值范围
    'x': (-0.5, 0.5), 'y': (-0.5, 0.5), 'z': (0, 1.0),
    'roll': (-3.14, 3.14), 'pitch': (-3.14, 3.14), 'yaw': (-3.14, 3.14),
    'gripper': (0, 1),
}
N_BINS = 256

def discretize(action_7d):
    tokens = []
    for dim, (lo, hi) in ACTION_BOUNDS.items():
        v = action_7d[dim]
        b = int((v - lo) / (hi - lo) * N_BINS)
        b = min(N_BINS - 1, max(0, b))
        tokens.append(VOCAB_SIZE - N_BINS + b)
    return tokens

直觉 · VLA = VLM + 几个 token

动作只是另一种语言。把机器人的 256 个动作 bin 加进 vocab，模型不需要新结构、不需要新损失——就用 next-token prediction 训。这让 VLA 直接继承 VLM 的所有加速（FlashAttention、量化、speculative decode），本部其余 6 节大半篇幅都是怎么让这个 7-token 出得更快。

§11.2Action Chunking & Diffusion Policy · 一次出多步

ACT / Diffusion Policy — Chunked Action Prediction

RSS 2023 Zhao et al. · Stanford · ACT · Diffusion Policy

与其每步预测一个动作，不如一次预测未来 H 步的动作 chunk。控制频率 → 推理频率 / H。 OpenVLA-OFT、π0、π0.5、RDT 都是这套。 H 取 16–64 时延迟从 100 ms 摊到 ~5 ms / 步。

Receding horizon · 不要等 chunk 跑完才更新

纯 chunking 的 bug：vision 在 H 步内不更新，机器人遇到扰动反应不过来。实际 production 用 receding horizon—— 每 H/k 步重新推理一次，仅执行新 chunk 的前 H/k 步。k=4 是常见值。

RDT-1B — Robotics Diffusion Transformer (1B scale)

ICLR 2025 Liu et al. · 清华 · arXiv:2410.07864

把 Diffusion Policy 推到 1B + DiT backbone。专为双臂任务设计——输出 [chunk=64, action_dim=14] 连续动作矩阵， 1k+ 小时双臂数据预训练。第一次证明 diffusion-policy 路线也能做 foundation 规模。

相比 OpenVLA discrete-token AR：RDT 输出连续动作矩阵, 精度上限高；代价：inference 时要跑 5-10 步 denoise，单 step 偏慢。 π0 / π0.5 沿此路线。

§11.3π0 家族 · Flow Matching + FAST tokens

π0 / π0.5 — Physical Intelligence's Flow-based VLA

PI 2024-10 / 2025-04 · π0 · π0.5 blog

π0：动作头换成flow matching——一次 forward 出 50 步动作（50Hz）。 PaliGemma 3B VLM 输出 hidden state 作 condition, flow head 条件生成 [50, 7] 矩阵。比 RT-2 的"7 token 自回归" 快 20×、不需要离散化。

π0.5（2025-04）扩展到open-world 泛化：100+ 家庭多样化数据预训练。架构引入两层：高层离散 token 出 sub-task, 低层 flow head 出动作—— 是 §11.4 dual-system 思路的前身。

# π0 flow matching action head (简化)
class FlowActionHead(nn.Module):
    def __init__(self, D_cond, action_dim=7, H=50):
        self.net = TransformerDecoder(...)
    def forward(self, h_cond, n_flow_steps=10):
        x = torch.randn(B, H, action_dim)        # 初始噪声
        for t in torch.linspace(0, 1, n_flow_steps):
            v = self.net(x, h_cond, t)            # 速度场
            x = x + (1.0/n_flow_steps) * v
        return x                                  # [B, 50, 7] 动作序列
# 10 个 flow step: 整套 chunk 推理 ~25ms on H100

FAST · FAST+ — Frequency-Aware Action Sequence Tokenization

2025-01 / 2025-Q2 · FAST

用 DCT 把连续动作压成更短的离散 token 序列。一段 1 秒钟 50 Hz 动作 (50×7 维)，DCT 取 top-k 后 ~20 token，再 BPE 离散化。AR backbone 出 20 token 比 50×7 个连续值便宜得多。 FAST+ 加 task-specific 词表 + 残差量化，精细任务再减半。

§11.4Dual-System · 慢/快脑分离

Kahneman 的 System 1 / System 2 隐喻：S2 慢但深思（高层推理）， S1 快而反射（低层运动）。把 VLA 拆成两个网络—— 大 VLM 慢速做规划（~10 Hz）、 小快网络高频出动作（200 Hz+）—— 是 2024-2025 realtime-VLA 的最大共同思想。

Helix — Figure's 200 Hz Humanoid VLA

Figure AI 2025-02 (blog) · figure.ai/news/helix

Figure 02 的 dual-system 架构： S2 = 7B VLM 在 ~7 Hz 输出 hidden state 作条件信号； S1 = 80M 小 transformer 在 ~200 Hz 把条件 + 最新 proprioception 转扭矩。把"全 7B 自回归 → 200Hz" 从不可能变成默认。

# Helix 风格 dual-system: S2 ~7Hz, S1 ~200Hz
import asyncio

class DualSystemVLA:
    def __init__(self, S2_vlm, S1_actor):
        self.S2 = S2_vlm; self.S1 = S1_actor
        self.latest_cond = None

    async def s2_loop(self, obs_stream):
        while True:
            obs = await obs_stream.latest()
            self.latest_cond = self.S2(obs)   # ~140 ms
            await asyncio.sleep(0)

    async def s1_loop(self, robot):
        while True:
            propio = robot.read_propio()
            cond = self.latest_cond           # 读最新 (可能 stale 100 ms)
            torque = self.S1(propio, cond)    # ~3 ms
            robot.send_torque(torque)
            await asyncio.sleep(1/200)

HiRT — Hierarchical Robot Transformers

2024-10 · arXiv:2410.05273

比 Helix 早半年的"分层"思路：高层 ViT-VLM ~2 Hz 输出 latent，低层小 transformer ~100 Hz 出动作。更偏研究、规模小但证明 dual-system 在标准 benchmark 有效。

GR00T-N1 / GR00T-N1.5 — NVIDIA Humanoid Foundation Model

NVIDIA 2025-03 · arXiv:2503.14734

NVIDIA 开源 2B 人形 VLA。架构 dual-process： Eagle-2 VLM 做 S2 + DiT-Policy 做 S1。配套数据合成 (GR00T-Mimic / GR00T-Dreams)。通过 Cosmos World Model（§12.4）做 sim → real。

TacMamba — Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA

2026-03 · arXiv:2603.01700

Dual-system 的具体架构落地：S1 用什么 backbone？ TacMamba 给出清晰答案——Mamba SSM。痛点描述精准："tactile perception 要 >100Hz + long-horizon memory； Transformer 跑不动这个频率，LSTM 又记不住长历史"—— SSM 的 $O(1)$ memory + 线性时间正好同时满足。

本节最值得记的"VLA 用上 linear attention 的角度"—— 并非"全 VLA 换成 Mamba"，而是 把 SSM 放在 dual-system 的 S1 那一侧。

Latent Bridge — Feature Delta Prediction for Efficient Dual-System VLA

2026-05 · arXiv:2605.02739

Dual-system 的"接口"问题：S2 的 hidden state 在 chunk 内变化怎么传给 S1？ Latent Bridge 让 S1 自己预测 S2 hidden 的 delta，把"S2 stall 100ms"时 S1 不空转。

§11.5解码加速 · spec / parallel / 早退 / 块扩散

把"每步出 N 个 action token" 的总 forward 数 / 串行步数压下来。 2026 H1 这一类涌现了 6-8 个新工作。

Speculative decoding for VLA

Realtime-VLA FLASH — Speculative Inference Framework for Diffusion-based VLAs

2026-05 · arXiv:2605.13778

关键想法：drafter = 轻量 flow 头并行 propose 整个动作 chunk；主模型 Action Expert 做并行验证。第一次让"specdec"思想真正 port 到 diffusion VLA, replanning 从 ~5 Hz → ~30 Hz。

HeiSD — Hybrid Speculative Decoding for Embodied VLA with Kinematic Awareness

2026-03 · arXiv:2603.17573

Hybrid specdec：用运动学先验（关节空间相邻动作不会跳变）构造 drafter 候选，比 LLM 通用 specdec 接受率高。 Kinematic-aware verification 解决"draft 看着对但物理上不可达"的问题。

KERV — Kinematic-Rectified Speculative Decoding for Embodied VLA

2026-03 · arXiv:2603.01581

和 HeiSD 同期独立工作，关键也是用 kinematic constraint rectify drafter 输出。两篇互为对照——说明运动学先验是 VLA specdec 的关键 differentiator。

Spec Policy Orchestration · CogACT · TriVLA

2024-2026 · Spec Policy Orch

其他 VLA specdec 工作： Spec Policy Orchestration (2603.19418) 做云-机器人 latency-resilient framework； CogACT / TriVLA 走 self-spec（同模型早几层作 drafter）。

Block-diffusion · AR/diffusion 边界打通

BlockVLA — Accelerating AR VLA via Block Diffusion Finetuning

2026-05 · arXiv:2605.13382

把 AR VLA backbone 微调成"块状 discrete diffusion"—— 每步一次出一个 block 的 token, 块内 bidirectional 迭代精修。既享 AR backbone 语义先验，又获 diffusion 并行 NFE 优势。 LIBERO 上 1 forward 出 16 token 而不是 16 forward。

Fast-dVLM — Efficient Block-Diffusion VLM via Direct Conversion from AR VLM

2026-04 · arXiv:2604.06832

BlockVLA 的同期 cousin：把 AR VLM 直接转为 block-diffusion，无需端到端重训。

Parallel decoding · 一次出 N 个 action token

OpenVLA-OFT — Fine-Tuning VLA: Optimizing Speed and Success (26× Decode)

2025 · arXiv:2502.19645

OpenVLA 改为并行解码——7 个动作 token 一个 forward 同时出。类似 NAT 的思路，质量略掉 1-2%，速度 26×。

AsyncVLA — Asynchronous Flow Matching for Vision-Language-Action Models

2025-11 · arXiv:2511.14148

把 flow matching 的多步去噪做成 async 并行: 视觉编码、condition、flow step 可重叠。π0 类模型 1.5-2× 加速。

Early-exit · 简单动作走浅层

DeeR-VLA — Dynamic Inference of Multimodal LLMs for Efficient Robot Execution

NeurIPS 2024 · arXiv:2411.02359

每层加 early-exit head + confidence。简单动作 ~12 层即出，复杂跑满 32 层。平均 ~2.5× decode 加速、几乎不掉成功率。

MoLe-VLA — Dynamic Layer-skipping VLA via Mixture-of-Layers

2025 · arXiv:2503.20384

比 DeeR 激进：per-token / per-layer 稀疏路由—— 每 token 独立决定要不要跳过这一层。OpenVLA-7B 1.5-2× 加速。

DySL-VLA · DeeAD

2026-02 / 2025-11 · DySL-VLA · DeeAD

DySL-VLA: Dynamic-Static Layer-Skipping for VLA。 DeeAD: Dynamic Early Exit for Autonomous Driving VLA。早退家族的最新两个变种。

§11.6Attention 架构 · SSM / linear / 视觉 token / KV 压缩

把 Transformer attention从根上替换或压缩。VLA 端比 LLM 端更激进—— 机器人 history 是连续 sensor stream, SSM / linear attention 结构上贴合。

SSM / Mamba backbone

RoboMamba — Efficient VLA Model via SSM Backbone

2024-06 · arXiv:2406.04339

第一个用 Mamba 整体替换 Transformer backbone 的 VLA。 decode 内存与 history 长度无关、$O(1)$ memory。 SoTA 仍是 attention-based, 但开了"换 backbone"的口子。

TacMamba（同 §11.4）

2026-03 · arXiv:2603.01700

跨节——Mamba 不是替换整个 backbone, 而是放在 dual-system 的 S1 那一侧。 Sweet spot: 局部 SSM 适配器 > 全 Mamba。

RWKV / linear attention

Decision-RWKV — RWKV-based Recurrent Sequence Modeling for Lifelong Manipulation

2024-07 · arXiv:2407.16306

把 RWKV 用在机器人 lifelong learning—— 线性 memory 防止 catastrophic forgetting。

KAN-We-Flow · PRISM

2026-Q1 · KAN-We-Flow · PRISM

KAN-We-Flow: RWKV + KAN 替换大 UNet 做 flow matching policy。 PRISM: Performer (真线性 attention) 做 single-pass multisensory imitation。都展示 linear-attention family 在 VLA 各子场景的应用。

视觉 token 压缩 / KV cache 管理

VLA-Cache — Efficient VLA Manipulation via Adaptive Token Caching

2025-02 · arXiv:2502.02175

跨 timestep 复用 visual token KV——相机帧间相似度高时, 只重编码变化的 patch。 StreamingLLM (§3.3) 的多 step VLA 版本。

# VLA-Cache 差分检测核心
class VLACache:
    def __init__(self, vlm, diff_thr=0.05):
        self.vlm = vlm; self.thr = diff_thr
        self.prev_patches = None; self.prev_kv = None

    def step(self, img, instr):
        patches = patchify(img)
        if self.prev_patches is None:
            kv = self.vlm.prefill_vision(patches)
            self.prev_kv, self.prev_patches = kv, patches
        else:
            diff = (patches - self.prev_patches).norm(dim=-1)
            changed = (diff > self.thr).nonzero()
            new_kv = self.vlm.partial_prefill_vision(
                patches[changed], cached_kv=self.prev_kv, changed_idx=changed)
            self.prev_kv, self.prev_patches = new_kv, patches
        return self.vlm.decode_action(instr, self.prev_kv)

ETA-VLA — Efficient Token Adaptation via Temporal Fusion + Intra-LLM Sparsification

2026-03 · arXiv:2603.25766

把 §10.3 VLM 的 FastV / VisionZip 思路迁到 VLA： temporal-aware 选择 token + LLM 内 layer-wise 稀疏。

CSR — Infinite-Horizon Real-Time Policies with Massive Cached State Representations

2026-05 · arXiv:2605.07325

极长 horizon (小时级) policy。用 massive cached state representation 解决"history 越来越大"的 KV 爆炸—— 类似 MLA 但是 VLA-specific 设计。

Long-Horizon VLA · Static-Dynamic Disentanglement

2026-02 · arXiv:2602.03983

把 history 拆成"静态" (背景/桌面) 与"动态" (手/物体) 两路 KV。静态部分大幅压缩复用——VLA 端的 latent KV 压缩思路, 比 MLA 更具语义。

§11.7量化与小型化 · PTQ / 1-bit / 边缘部署

把权重 / KV / activation 压到 4-bit 乃至 1-bit—— VLA 端 2026 H1 涌现了至少 6 个专门工作, 已经赶上 LLM 量化的成熟度。

QuantVLA — Scale-Calibrated Post-Training Quantization for VLA

2026-02 · arXiv:2602.20309

把 GPTQ / AWQ (Part V) 拓展到 VLA: scale-calibrated 处理动作 token 的特殊分布。 OpenVLA-7B INT4 几乎无损。

QVLA · DyQ-VLA · DA-PTQ

2026-Q1 · QVLA · DyQ-VLA · DA-PTQ

QVLA: "Not All Channels Are Equal"——AWQ 思想的 VLA 版。 DyQ-VLA: Temporal-Dynamic-Aware Quantization——按时间步动态调精度。 DA-PTQ: Drift-Aware PTQ——处理机器人数据 drift。

HBVLA — Pushing 1-Bit Post-Training Quantization for VLA

2026-02 · arXiv:2602.13710

把 BitNet b1.58 (§5.6) 路线推到 VLA： 1-bit weights, PTQ (不重训)。在 OpenVLA 上几乎无损, 意味着 VLA 边缘部署有了"准 BitNet"路径。

TinyVLA / LiteVLA-Edge

2024-09 / 2026-03 · TinyVLA · LiteVLA-Edge

底座换成 Qwen2-0.5B / Phi-3-mini 级小 LM + 轻 ViT。在 LIBERO 上和 OpenVLA-7B 持平、5-10× 快、几 GB 显存。 LiteVLA-Edge 进一步做 quantized on-device multimodal control。

边缘部署的标准配方

# Jetson Orin / Thor 上 TinyVLA 1B 的部署
# 1. 量化: W4A16 (QuantVLA) 或 1-bit (HBVLA)
quantize_vla(model, n_bits=4, method='QuantVLA')

# 2. 任务 LoRA: 每个机器人/任务一个 5-10MB adapter
load_lora(model, 'cleanup_table.lora')

# 3. KV cache 用 FP8 + DyQ-VLA temporal-aware
model.kv_dtype = 'fp8_e4m3'

# 4. CUDA Graph 编一份 decode 图 (固定 batch=1)
compiled = torch.compile(model, mode='reduce-overhead')

§11.8MoE · 按任务 / 实体路由的稀疏专家

Task / embodiment 路由是 VLA 天然的 MoE 场景。 2026 H1 涌现一批 MoE-VLA 工作：

MoE-ACT — Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned MoE

2026-03 · arXiv:2603.15265

最直接的 MoE-VLA：language-conditioned router 按指令选 expert。 "clean table" vs "put bowl" 走不同 expert。多任务双臂场景大幅提升。

HEX — Humanoid-Aligned Experts for Cross-Embodiment Whole-Body

2026-04 · arXiv:2604.07993

跨实体 (single-arm / bimanual / 人形) MoE: 每个 embodiment 一个 expert。一个 backbone 通用、router 处理实体差异。

LAR-MoE · ATG-MoE

2026-03 · LAR-MoE · ATG-MoE

LAR-MoE: Latent-Aligned Routing 解决 expert 间表征对齐。 ATG-MoE: Autoregressive Trajectory Generation with MoE for assembly。把 MoE 用在 VLA 不同 sub-task 上的变种。

§11.9测试时算力 · 想再行动

LLM 端 o1-style test-time compute 已经主流；VLA 端的等价物是 "复杂任务多花点时间想清楚, 简单任务直接出动作"。

ECoT — Robotic Control via Embodied Chain-of-Thought Reasoning

2024-07 · arXiv:2407.08693

显式 "perceive → plan → act" 链式推理。把 LLM 的 CoT 思想港到 VLA, 在复杂场景 (multi-step manipulation) 明显胜过 OpenVLA。

VLA-ATTC — Adaptive Test-Time Compute for VLA with Relative Action Critic

2026-05 · arXiv:2605.01194

关键想法：用一个 critic model 判断"当前情境是否需要多想一下"。简单步骤直接出动作, 复杂步骤进入 deliberation mode (run more inference passes)。第一个明确的 VLA test-time compute 框架。

Sentinel-VLA — Metacognitive VLA with Active Status Monitoring

2026-05 · arXiv:2605.01191

"Sentinel" 模块实时监控执行状态—— 检测异常或初始 planning 时才触发深度推理, 常规情况快速反射。 on-demand reasoning 范式。

Think Twice, Act Once

2026-05 · arXiv:2605.12620

Verifier-guided action selection: 候选动作 → verifier 评分 → 选最优。 Best-of-N sampling 的 VLA 版本。

§11.10Serving 系统 · 多任务并行 · P/D 解耦

VLA serving infra 之前是空白—— 2026 这一年终于出现了几个像样的工作:

OxyGen — Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

2026-03 · arXiv:2603.14371

第一个 VLA serving 系统。 Mixture-of-Transformers VLA 同时跑 manipulation / conversation / memory construction 三任务, 共享观察、不同时间约束。 OxyGen 做 unified KV cache 管理 + 任务间资源调度—— 解决 multi-task VLA 的"vLLM-equivalent" 问题。

Auras · 感知-生成解耦 — Boosting Embodied AI via Perception-Generation Disaggregation

2025-09 · arXiv:2509.09560

把 perception (ViT) 与 generation (LLM + action) 解耦成异步 pipeline—— 类似 LLM 的 P/D 解耦, 但搬到 embodied AI 场景。高频感知 / 中频生成可以独立 scale。

ActionFlow — Pipelined Action Acceleration for VLM on Edge

2025-12 · arXiv:2512.20276

边缘端的 VLM-VLA pipeline。 Vision encode / LLM forward / action decode 三段流水化, 隐藏 VLA latency 至单步 ~10 ms。

D-VLA — Distributed Asynchronous RL Framework for VLA

2026-05 · arXiv:2605.13276

多机分布式 RL 训练 VLA, async 异步 rollout 聚合。把 verl / OpenRLHF (§8.5) 的训练系统专门为 VLA 优化。

§11.11实时控制 · latency 拆解 + 部署配方

机器人 vs LLM serving 的关键不同： 延迟一致性比平均吞吐重要——偶尔一帧抖到 100 ms 比稳定 30 ms 糟糕得多。这一节给数字与具体配方。

把所有招组合 · 7B VLA 实测 latency 拆解

阶段	baseline H100	+ FP8 quant	+ chunking 16	+ KV warm + cache	+ dual-system
ViT 视觉编码	40 ms	15	15	3 (差分 cache)	3 / S2 only
LLM prefill (~1k tok)	120	45	45	5 (warm)	40 / 7Hz
动作 decode (7 tok)	40	15	15 / 16 = 1	1	S1: 3 / 200Hz
合计 / step	200 ms (5Hz)	75 ms (13Hz)	61 ms (16Hz)	9 ms (110Hz)	5 ms (200Hz)

（H100 数字。Jetson Orin 整体 ×3-5 倍。）

边缘卡 · TinyVLA 1B + Jetson Orin AGX 64GB

配置	step latency	控制频率
FP16 baseline	~80 ms	12 Hz
+ W4A16 QuantVLA	~30 ms	30 Hz
+ chunking 8 + CUDA Graph	~6 ms	>100 Hz
+ dual-system S1 only	~3 ms	200+ Hz (扭矩级)

realtime-VLA 工程清单（按性价比排）

Keep KV warm——不重置 cache，新观察 append。最便宜的招, 单独省 30%+ latency。
差分视觉——VLA-Cache 风格 (§11.6), 只重编码变化的 patch。
Receding chunking——chunk H=16, 每 4 步重推一次。
Dual-system（§11.4）——100Hz+ 控制频率的唯一路径。
Inference 跳层——DeeR-VLA / MoLe-VLA / DySL-VLA (§11.5)。
并行 action decode——OpenVLA-OFT 一次出 N tok。
边缘量化——QuantVLA W4A8 + DyQ-VLA KV (§11.7)。
CUDA Graph（§13.1）——decode 阶段必开。
Spec-decoding——HeiSD / KERV / Realtime-VLA FLASH (§11.5)。

生产 realtime-VLA 6 步搭建配方

基线选型：30Hz 桌面 → OpenVLA-OFT 7B + 量化；100Hz+ 人形 → Helix dual-system；边缘 → TinyVLA。
架构：S2 用 PaliGemma/Eagle-2 3-7B；S1 用 80M ~ 250M small transformer；S1 拿 S2 hidden state 当 condition。
量化：S2 W4A16 + KV FP8；S1 BF16（小模型量化收益少）。
缓存：VLA-Cache 差分 + 多机器人场景叠 RadixAttention prefix。
解码：chunking 16-64 + parallel action decode + spec-decoding。
调度：S2 + S1 两个 CUDA stream，asyncio 各跑各的, shared cond buffer; serving 走 OxyGen / Auras P/D 解耦。

§11.12LLM 加速思想 → VLA 移植对照

把 LLM 那边过去三年卷出来的 trick 对照 VLA 端状态。这一节按本部 6 个加速节（§11.5-§11.10）的分类组织—— 每条都给出实际 cite，不再有"✗ 完全空白"的虚位（2026 H1 几乎所有空白都被填上了）。

① 解码加速类（对应 §11.5）

LLM trick	所在节	VLA 状态
Speculative decoding	§4.1-§4.4	✓ ★ HeiSD (2603.17573) / KERV (2603.01581) kinematic-aware; Realtime-VLA FLASH (2605.13778) diffusion-VLA; CogACT/TriVLA self-spec
Block-diffusion (dLLM 类)	—	✓ ★ BlockVLA (2605.13382) / Fast-dVLM (2604.06832)
EAGLE hidden-state drafter	§4.3	○ 半空白 — 暂无 EAGLE-VLA, 但 self-spec 是近邻
MTP (Multi-Token Prediction)	§4.4	○ 半空白 — action chunking 隐含, 没专门 head
Parallel decode (NAT 类)	—	✓ OpenVLA-OFT 26× decode; AsyncVLA
Early-exit / 跳层	—	✓ DeeR-VLA, MoLe-VLA, DySL-VLA, DeeAD

② Attention 架构 / KV 压缩类（对应 §11.6）

LLM trick	所在节	VLA 状态
SSM / Mamba backbone	§2.6	✓ RoboMamba 整 backbone; TacMamba 把 SSM 放 dual-system S1 (200Hz 触觉) 一侧——结构最贴合
RWKV / linear attention	§2.6	✓ Decision-RWKV lifelong; KAN-We-Flow RWKV+flow; PRISM Performer 单步 imitation
NSA · native sparse attention	§2.6	✗ 空白 — 长 horizon rollout 是天然稀疏场景
Hybrid linear + softmax (SANA-WM 范式)	§12.6	✗ 空白 — TacMamba 是 S1/S2 分系统而非单模型内混合
视觉 token 缓存 / 差分	§10.2-§10.3	✓ VLA-Cache 差分 KV; ETA-VLA temporal token fusion
MLA latent KV (DeepSeek)	§3.1	○ 萌芽 — CSR (2605.07325) 与 Static-Dynamic Disentanglement (2602.03983) 是 VLA-style 的近邻方案; 严格 MLA-VLA 仍空白

③ 量化 · MoE · 测试时算力类（对应 §11.7-§11.9）

LLM trick	所在节	VLA 状态
PTQ (GPTQ / AWQ)	§5.2-§5.3	✓ QuantVLA, QVLA 各家 VLA-specific PTQ
1-bit weights (BitNet)	§5.6	✓ ★ HBVLA (2602.13710) 1-bit PTQ for VLA
Temporal / drift-aware quant	—	✓ DyQ-VLA, DA-PTQ 是 VLA-specific 的扩展
FP4 / NVFP4	§5.1	○ 半空白 — Blackwell-class 边缘卡刚出, VLA 端还在适配中
MoE per-task experts	§6.3	✓ MoE-ACT 双臂多任务, HEX 跨实体, LAR-MoE, ATG-MoE
Test-time compute (o1 类)	—	✓ ECoT, Sentinel-VLA, VLA-ATTC, Think Twice Act Once

④ Serving · 底层工程类（对应 §11.10）

LLM trick	所在节	VLA 状态
Continuous batching (vLLM 类)	§7.1	○ 半空白 — OxyGen (2603.14371) 已做 multi-task KV 调度, 但 fleet-scale batching 仍欠
P/D / EPD disaggregation	§7.5	✓ ★ Auras (2509.09560) 感知-生成解耦; ActionFlow 边缘流水
RadixAttention 跨请求 prefix	§3.4	✗ 空白 — 多机器人共享 prompt 完全可以做
Chunked prefill (Sarathi)	§3.5	✗ 空白 — 长 episode replay 适用
CUDA Graph + torch.compile	§13.1-§13.2	✓ 部署默认
KV offload to CPU/NVMe	—	✗ 空白 — 跨小时尺度的 episodic memory 完全可以 offload
Distributed async training (verl)	§8.5	✓ D-VLA (2605.13276) VLA-specific async RL

读法 · 2026 H1 的状态

一年前同一张表 80% 是 "✗ 空白"，现在 80% 至少有萌芽。 VLA 加速已经追上 LLM 加速的成熟度—— 特别是解码 / 量化 / MoE / 测试时算力四类, 都有 VLA 自有的 SOTA 工作。剩下真空地带主要在 系统层：MLA-VLA / RadixAttention 多机器人 / KV offload / Chunked prefill。本质是在等 "vLLM-for-VLA" 这种生态级 infra 成熟——OxyGen 是雏形。

§11.13VLA 还没解决的

站到 2026-05，把 VLA 推理 / 训练栈仍空着的坑显式列出来。每一条做出来都是顶级会议 oral 级别。

200 Hz+ 触觉伺服在边缘卡上还不行—— Helix 双 GPU 才把 S1 推到 200Hz; 单 Jetson Orin ~80Hz。 500 Hz+ 力控伺服仍是传统控制器领地。下一步可能要走专用 ASIC 或 distillation-to-MLP 极端方向。
Chunking 长 H 一遇扰动就崩—— SDF-conditioned / closed-loop chunking 仍是研究方向。
Dual-system 训练协议不统一—— Helix / GR00T / HiRT / TacMamba 四家做法都不同, 缺一个"标准接口"。
跨实体迁移—— Open X-Embodiment 是单臂为主, 双足 / 灵巧手 / 软体的开源大规模数据还少。 HEX (MoE 跨实体) 只是局部解。
VLA serving infrastructure—— OxyGen 是雏形, 但 "vLLM-for-VLA" 等级的成熟开源生态还没出现。多机器人 fleet 共享 backbone 的标准实现仍空白。
Sim2Real 端到端闭环—— Cosmos (§12.4) 与 VLA 之间的反馈闭环尚未打通。
Long-horizon planning—— 现在 chunking ~1 秒 horizon, 多步骤任务靠 system 2 reasoning, 但 reasoning 又卡死实时。 VLA-ATTC / ECoT 是萌芽。
MLA-VLA / RadixAttention 多机器人 / KV offload—— §11.12 表里那几条"✗ 空白" 是 6-12 个月内最可能出 paper 的方向。