Hub
›
Part XI · VLA · 机器人加速
§11.1VLA 范式 · "把动作当 token 自回归生成"
RT-2 / OpenVLA / Octo
— Vision-Language-Action Foundation Models
把机器人动作(7 维连续:xyz + RPY + 夹爪)离散化为 256 个 bin,
每维一个 token,整个动作 $\approx$ 7 token。
把它们 append 到 VLM 词表 → 拿 PaliGemma / Llama backbone 自回归生成动作。
一个 VLA 模型 $\approx$ "VLM + 7 个动作 token"。
数据基础是 Open X-Embodiment(DeepMind 2024)——
把 22 个 lab 的机器人 demo 用统一格式打包成 ~1M 条 trajectory,
让 VLA 像 LLM 一样吃"开源数据" pretraining。
工程上:机器人控制循环要 10–30 Hz,每个 step 都要等 VLA 出 7 个 token。
模型 7B 时 latency ~150 ms → 闭环只能跑 ~6 Hz, 远低于双臂可用频率。
剩下 9 节都是在解决这件事。
把动作离散化的简单代码
# RT-2 / OpenVLA: 7 维连续动作 → 7 个离散 token
ACTION_BOUNDS = { # 各维取值范围
'x': (-0.5, 0.5), 'y': (-0.5, 0.5), 'z': (0, 1.0),
'roll': (-3.14, 3.14), 'pitch': (-3.14, 3.14), 'yaw': (-3.14, 3.14),
'gripper': (0, 1),
}
N_BINS = 256
def discretize(action_7d):
tokens = []
for dim, (lo, hi) in ACTION_BOUNDS.items():
v = action_7d[dim]
b = int((v - lo) / (hi - lo) * N_BINS)
b = min(N_BINS - 1, max(0, b))
tokens.append(VOCAB_SIZE - N_BINS + b)
return tokens
直觉 · VLA = VLM + 几个 token
动作只是另一种语言。把机器人的 256 个动作 bin 加进 vocab,
模型不需要新结构、不需要新损失——就用 next-token prediction 训。
这让 VLA 直接继承 VLM 的所有加速(FlashAttention、量化、speculative decode),
本部其余 6 节大半篇幅都是怎么让这个 7-token 出得更快。
§11.2Action Chunking & Diffusion Policy · 一次出多步
ACT / Diffusion Policy
— Chunked Action Prediction
与其每步预测一个动作,不如一次预测未来 H 步的动作 chunk。
控制频率 → 推理频率 / H。
OpenVLA-OFT、π0、π0.5、RDT 都是这套。
H 取 16–64 时延迟从 100 ms 摊到 ~5 ms / 步。
Receding horizon · 不要等 chunk 跑完才更新
纯 chunking 的 bug:vision 在 H 步内不更新,机器人遇到扰动反应不过来。
实际 production 用 receding horizon——
每 H/k 步重新推理一次,仅执行新 chunk 的前 H/k 步。k=4 是常见值。
RDT-1B
— Robotics Diffusion Transformer (1B scale)
把 Diffusion Policy 推到 1B + DiT backbone。
专为双臂任务设计——输出 [chunk=64, action_dim=14] 连续动作矩阵,
1k+ 小时双臂数据预训练。第一次证明 diffusion-policy 路线也能做 foundation 规模。
相比 OpenVLA discrete-token AR:RDT 输出连续动作矩阵, 精度上限高;
代价:inference 时要跑 5-10 步 denoise,单 step 偏慢。
π0 / π0.5 沿此路线。
§11.3π0 家族 · Flow Matching + FAST tokens
π0 / π0.5
— Physical Intelligence's Flow-based VLA
π0:动作头换成flow matching——一次 forward 出 50 步动作(50Hz)。
PaliGemma 3B VLM 输出 hidden state 作 condition, flow head 条件生成 [50, 7] 矩阵。
比 RT-2 的"7 token 自回归" 快 20×、不需要离散化。
π0.5(2025-04)扩展到open-world 泛化:100+ 家庭多样化数据预训练。
架构引入两层:高层离散 token 出 sub-task, 低层 flow head 出动作——
是 §11.4 dual-system 思路的前身。
# π0 flow matching action head (简化)
class FlowActionHead(nn.Module):
def __init__(self, D_cond, action_dim=7, H=50):
self.net = TransformerDecoder(...)
def forward(self, h_cond, n_flow_steps=10):
x = torch.randn(B, H, action_dim) # 初始噪声
for t in torch.linspace(0, 1, n_flow_steps):
v = self.net(x, h_cond, t) # 速度场
x = x + (1.0/n_flow_steps) * v
return x # [B, 50, 7] 动作序列
# 10 个 flow step: 整套 chunk 推理 ~25ms on H100
FAST · FAST+
— Frequency-Aware Action Sequence Tokenization
用 DCT 把连续动作压成更短的离散 token 序列。
一段 1 秒钟 50 Hz 动作 (50×7 维),DCT 取 top-k 后 ~20 token,
再 BPE 离散化。AR backbone 出 20 token 比 50×7 个连续值便宜得多。
FAST+ 加 task-specific 词表 + 残差量化,精细任务再减半。
§11.4Dual-System · 慢/快脑分离
Kahneman 的 System 1 / System 2 隐喻:S2 慢但深思(高层推理),
S1 快而反射(低层运动)。
把 VLA 拆成两个网络——
大 VLM 慢速做规划(~10 Hz)、
小快网络高频出动作(200 Hz+)——
是 2024-2025 realtime-VLA 的最大共同思想。
Helix
— Figure's 200 Hz Humanoid VLA
Figure 02 的 dual-system 架构:
S2 = 7B VLM 在 ~7 Hz 输出 hidden state 作条件信号;
S1 = 80M 小 transformer 在 ~200 Hz 把条件 + 最新 proprioception 转扭矩。
把"全 7B 自回归 → 200Hz" 从不可能变成默认。
# Helix 风格 dual-system: S2 ~7Hz, S1 ~200Hz
import asyncio
class DualSystemVLA:
def __init__(self, S2_vlm, S1_actor):
self.S2 = S2_vlm; self.S1 = S1_actor
self.latest_cond = None
async def s2_loop(self, obs_stream):
while True:
obs = await obs_stream.latest()
self.latest_cond = self.S2(obs) # ~140 ms
await asyncio.sleep(0)
async def s1_loop(self, robot):
while True:
propio = robot.read_propio()
cond = self.latest_cond # 读最新 (可能 stale 100 ms)
torque = self.S1(propio, cond) # ~3 ms
robot.send_torque(torque)
await asyncio.sleep(1/200)
HiRT
— Hierarchical Robot Transformers
比 Helix 早半年的"分层"思路:高层 ViT-VLM ~2 Hz 输出 latent,
低层小 transformer ~100 Hz 出动作。
更偏研究、规模小但证明 dual-system 在标准 benchmark 有效。
GR00T-N1 / GR00T-N1.5
— NVIDIA Humanoid Foundation Model
NVIDIA 开源 2B 人形 VLA。架构 dual-process:
Eagle-2 VLM 做 S2 + DiT-Policy 做 S1。
配套数据合成 (GR00T-Mimic / GR00T-Dreams)。
通过 Cosmos World Model(§12.4)做 sim → real。
TacMamba
— Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA
Dual-system 的具体架构落地:S1 用什么 backbone?
TacMamba 给出清晰答案——Mamba SSM。
痛点描述精准:"tactile perception 要 >100Hz + long-horizon memory;
Transformer 跑不动这个频率,LSTM 又记不住长历史"——
SSM 的 $O(1)$ memory + 线性时间正好同时满足。
本节最值得记的"VLA 用上 linear attention 的角度"——
并非"全 VLA 换成 Mamba",而是
把 SSM 放在 dual-system 的 S1 那一侧。
Latent Bridge
— Feature Delta Prediction for Efficient Dual-System VLA
Dual-system 的"接口"问题:S2 的 hidden state 在 chunk 内变化怎么传给 S1?
Latent Bridge 让 S1 自己预测 S2 hidden 的 delta,
把"S2 stall 100ms"时 S1 不空转。
§11.5解码加速 · spec / parallel / 早退 / 块扩散
把"每步出 N 个 action token" 的总 forward 数 / 串行步数压下来。
2026 H1 这一类涌现了 6-8 个新工作。
Speculative decoding for VLA
Realtime-VLA FLASH
— Speculative Inference Framework for Diffusion-based VLAs
关键想法:drafter = 轻量 flow 头并行 propose 整个动作 chunk;
主模型 Action Expert 做并行验证。
第一次让"specdec"思想真正 port 到 diffusion VLA, replanning 从 ~5 Hz → ~30 Hz。
HeiSD
— Hybrid Speculative Decoding for Embodied VLA with Kinematic Awareness
Hybrid specdec:用运动学先验(关节空间相邻动作不会跳变)
构造 drafter 候选,比 LLM 通用 specdec 接受率高。
Kinematic-aware verification 解决"draft 看着对但物理上不可达"的问题。
KERV
— Kinematic-Rectified Speculative Decoding for Embodied VLA
和 HeiSD 同期独立工作,关键也是用 kinematic constraint rectify drafter 输出。
两篇互为对照——说明运动学先验是 VLA specdec 的关键 differentiator。
Spec Policy Orchestration · CogACT · TriVLA
其他 VLA specdec 工作:
Spec Policy Orchestration (2603.19418) 做云-机器人 latency-resilient framework;
CogACT / TriVLA 走 self-spec(同模型早几层作 drafter)。
Block-diffusion · AR/diffusion 边界打通
BlockVLA
— Accelerating AR VLA via Block Diffusion Finetuning
把 AR VLA backbone 微调成"块状 discrete diffusion"——
每步一次出一个 block 的 token, 块内 bidirectional 迭代精修。
既享 AR backbone 语义先验,又获 diffusion 并行 NFE 优势。
LIBERO 上 1 forward 出 16 token 而不是 16 forward。
Fast-dVLM
— Efficient Block-Diffusion VLM via Direct Conversion from AR VLM
BlockVLA 的同期 cousin:把 AR VLM 直接转为 block-diffusion,
无需端到端重训。
Parallel decoding · 一次出 N 个 action token
OpenVLA-OFT
— Fine-Tuning VLA: Optimizing Speed and Success (26× Decode)
OpenVLA 改为并行解码——7 个动作 token 一个 forward 同时出。
类似 NAT 的思路,质量略掉 1-2%,速度 26×。
AsyncVLA
— Asynchronous Flow Matching for Vision-Language-Action Models
把 flow matching 的多步去噪做成 async 并行: 视觉编码、condition、flow step
可重叠。π0 类模型 1.5-2× 加速。
Early-exit · 简单动作走浅层
DeeR-VLA
— Dynamic Inference of Multimodal LLMs for Efficient Robot Execution
每层加 early-exit head + confidence。简单动作 ~12 层即出,复杂跑满 32 层。
平均 ~2.5× decode 加速、几乎不掉成功率。
MoLe-VLA
— Dynamic Layer-skipping VLA via Mixture-of-Layers
比 DeeR 激进:per-token / per-layer 稀疏路由——
每 token 独立决定要不要跳过这一层。OpenVLA-7B 1.5-2× 加速。
DySL-VLA · DeeAD
DySL-VLA: Dynamic-Static Layer-Skipping for VLA。
DeeAD: Dynamic Early Exit for Autonomous Driving VLA。
早退家族的最新两个变种。
§11.6Attention 架构 · SSM / linear / 视觉 token / KV 压缩
把 Transformer attention从根上替换或压缩。VLA 端比 LLM 端更激进——
机器人 history 是连续 sensor stream, SSM / linear attention 结构上贴合。
SSM / Mamba backbone
RoboMamba
— Efficient VLA Model via SSM Backbone
第一个用 Mamba 整体替换 Transformer backbone 的 VLA。
decode 内存与 history 长度无关、$O(1)$ memory。
SoTA 仍是 attention-based, 但开了"换 backbone"的口子。
跨节——Mamba 不是替换整个 backbone, 而是放在 dual-system 的 S1 那一侧。
Sweet spot: 局部 SSM 适配器 > 全 Mamba。
RWKV / linear attention
Decision-RWKV
— RWKV-based Recurrent Sequence Modeling for Lifelong Manipulation
把 RWKV 用在机器人 lifelong learning——
线性 memory 防止 catastrophic forgetting。
KAN-We-Flow · PRISM
KAN-We-Flow: RWKV + KAN 替换大 UNet 做 flow matching policy。
PRISM: Performer (真线性 attention) 做 single-pass multisensory imitation。
都展示 linear-attention family 在 VLA 各子场景的应用。
视觉 token 压缩 / KV cache 管理
VLA-Cache
— Efficient VLA Manipulation via Adaptive Token Caching
跨 timestep 复用 visual token KV——相机帧间相似度高时, 只重编码变化的 patch。
StreamingLLM (§3.3) 的多 step VLA 版本。
# VLA-Cache 差分检测核心
class VLACache:
def __init__(self, vlm, diff_thr=0.05):
self.vlm = vlm; self.thr = diff_thr
self.prev_patches = None; self.prev_kv = None
def step(self, img, instr):
patches = patchify(img)
if self.prev_patches is None:
kv = self.vlm.prefill_vision(patches)
self.prev_kv, self.prev_patches = kv, patches
else:
diff = (patches - self.prev_patches).norm(dim=-1)
changed = (diff > self.thr).nonzero()
new_kv = self.vlm.partial_prefill_vision(
patches[changed], cached_kv=self.prev_kv, changed_idx=changed)
self.prev_kv, self.prev_patches = new_kv, patches
return self.vlm.decode_action(instr, self.prev_kv)
ETA-VLA
— Efficient Token Adaptation via Temporal Fusion + Intra-LLM Sparsification
把 §10.3 VLM 的 FastV / VisionZip 思路迁到 VLA:
temporal-aware 选择 token + LLM 内 layer-wise 稀疏。
CSR
— Infinite-Horizon Real-Time Policies with Massive Cached State Representations
极长 horizon (小时级) policy。
用 massive cached state representation 解决"history 越来越大"的 KV 爆炸——
类似 MLA 但是 VLA-specific 设计。
Long-Horizon VLA · Static-Dynamic Disentanglement
把 history 拆成"静态" (背景/桌面) 与"动态" (手/物体) 两路 KV。
静态部分大幅压缩复用——VLA 端的 latent KV 压缩思路, 比 MLA 更具语义。
§11.7量化与小型化 · PTQ / 1-bit / 边缘部署
把权重 / KV / activation 压到 4-bit 乃至 1-bit——
VLA 端 2026 H1 涌现了至少 6 个专门工作, 已经赶上 LLM 量化的成熟度。
QuantVLA
— Scale-Calibrated Post-Training Quantization for VLA
把 GPTQ / AWQ (Part V) 拓展到 VLA: scale-calibrated 处理动作 token 的特殊分布。
OpenVLA-7B INT4 几乎无损。
QVLA · DyQ-VLA · DA-PTQ
QVLA: "Not All Channels Are Equal"——AWQ 思想的 VLA 版。
DyQ-VLA: Temporal-Dynamic-Aware Quantization——按时间步动态调精度。
DA-PTQ: Drift-Aware PTQ——处理机器人数据 drift。
HBVLA
— Pushing 1-Bit Post-Training Quantization for VLA
把 BitNet b1.58 (§5.6) 路线推到 VLA:
1-bit weights, PTQ (不重训)。在 OpenVLA 上几乎无损,
意味着 VLA 边缘部署有了"准 BitNet"路径。
TinyVLA / LiteVLA-Edge
底座换成 Qwen2-0.5B / Phi-3-mini 级小 LM + 轻 ViT。
在 LIBERO 上和 OpenVLA-7B 持平、5-10× 快、几 GB 显存。
LiteVLA-Edge 进一步做 quantized on-device multimodal control。
边缘部署的标准配方
# Jetson Orin / Thor 上 TinyVLA 1B 的部署
# 1. 量化: W4A16 (QuantVLA) 或 1-bit (HBVLA)
quantize_vla(model, n_bits=4, method='QuantVLA')
# 2. 任务 LoRA: 每个机器人/任务一个 5-10MB adapter
load_lora(model, 'cleanup_table.lora')
# 3. KV cache 用 FP8 + DyQ-VLA temporal-aware
model.kv_dtype = 'fp8_e4m3'
# 4. CUDA Graph 编一份 decode 图 (固定 batch=1)
compiled = torch.compile(model, mode='reduce-overhead')
§11.8MoE · 按任务 / 实体路由的稀疏专家
Task / embodiment 路由是 VLA 天然的 MoE 场景。
2026 H1 涌现一批 MoE-VLA 工作:
MoE-ACT
— Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned MoE
最直接的 MoE-VLA:language-conditioned router 按指令选 expert。
"clean table" vs "put bowl" 走不同 expert。
多任务双臂场景大幅提升。
HEX
— Humanoid-Aligned Experts for Cross-Embodiment Whole-Body
跨实体 (single-arm / bimanual / 人形) MoE: 每个 embodiment 一个 expert。
一个 backbone 通用、router 处理实体差异。
LAR-MoE · ATG-MoE
LAR-MoE: Latent-Aligned Routing 解决 expert 间表征对齐。
ATG-MoE: Autoregressive Trajectory Generation with MoE for assembly。
把 MoE 用在 VLA 不同 sub-task 上的变种。
§11.9测试时算力 · 想再行动
LLM 端 o1-style test-time compute 已经主流;VLA 端的等价物是
"复杂任务多花点时间想清楚, 简单任务直接出动作"。
ECoT
— Robotic Control via Embodied Chain-of-Thought Reasoning
显式 "perceive → plan → act" 链式推理。
把 LLM 的 CoT 思想港到 VLA, 在复杂场景 (multi-step manipulation) 明显胜过 OpenVLA。
VLA-ATTC
— Adaptive Test-Time Compute for VLA with Relative Action Critic
关键想法:用一个 critic model 判断"当前情境是否需要多想一下"。
简单步骤直接出动作, 复杂步骤进入 deliberation mode (run more inference passes)。
第一个明确的 VLA test-time compute 框架。
Sentinel-VLA
— Metacognitive VLA with Active Status Monitoring
"Sentinel" 模块实时监控执行状态——
检测异常或初始 planning 时才触发深度推理, 常规情况快速反射。
on-demand reasoning 范式。
Think Twice, Act Once
Verifier-guided action selection: 候选动作 → verifier 评分 → 选最优。
Best-of-N sampling 的 VLA 版本。
§11.10Serving 系统 · 多任务并行 · P/D 解耦
VLA serving infra 之前是空白——
2026 这一年终于出现了几个像样的工作:
OxyGen
— Unified KV Cache Management for VLA Inference under Multi-Task Parallelism
第一个 VLA serving 系统。
Mixture-of-Transformers VLA 同时跑 manipulation / conversation / memory construction 三任务,
共享观察、不同时间约束。
OxyGen 做 unified KV cache 管理 + 任务间资源调度——
解决 multi-task VLA 的"vLLM-equivalent" 问题。
Auras · 感知-生成解耦
— Boosting Embodied AI via Perception-Generation Disaggregation
把 perception (ViT) 与 generation (LLM + action) 解耦成异步 pipeline——
类似 LLM 的 P/D 解耦, 但搬到 embodied AI 场景。
高频感知 / 中频生成可以独立 scale。
ActionFlow
— Pipelined Action Acceleration for VLM on Edge
边缘端的 VLM-VLA pipeline。
Vision encode / LLM forward / action decode 三段流水化, 隐藏 VLA latency 至单步 ~10 ms。
D-VLA
— Distributed Asynchronous RL Framework for VLA
多机分布式 RL 训练 VLA, async 异步 rollout 聚合。
把 verl / OpenRLHF (§8.5) 的训练系统专门为 VLA 优化。
§11.11实时控制 · latency 拆解 + 部署配方
机器人 vs LLM serving 的关键不同:
延迟一致性比平均吞吐重要——偶尔一帧抖到 100 ms 比稳定 30 ms 糟糕得多。
这一节给数字与具体配方。
把所有招组合 · 7B VLA 实测 latency 拆解
| 阶段 | baseline H100 | + FP8 quant | + chunking 16 | + KV warm + cache | + dual-system |
| ViT 视觉编码 | 40 ms | 15 | 15 | 3 (差分 cache) | 3 / S2 only |
| LLM prefill (~1k tok) | 120 | 45 | 45 | 5 (warm) | 40 / 7Hz |
| 动作 decode (7 tok) | 40 | 15 | 15 / 16 = 1 | 1 | S1: 3 / 200Hz |
| 合计 / step | 200 ms (5Hz) | 75 ms (13Hz) | 61 ms (16Hz) | 9 ms (110Hz) | 5 ms (200Hz) |
(H100 数字。Jetson Orin 整体 ×3-5 倍。)
边缘卡 · TinyVLA 1B + Jetson Orin AGX 64GB
| 配置 | step latency | 控制频率 |
| FP16 baseline | ~80 ms | 12 Hz |
| + W4A16 QuantVLA | ~30 ms | 30 Hz |
| + chunking 8 + CUDA Graph | ~6 ms | >100 Hz |
| + dual-system S1 only | ~3 ms | 200+ Hz (扭矩级) |
realtime-VLA 工程清单(按性价比排)
- Keep KV warm——不重置 cache,新观察 append。最便宜的招, 单独省 30%+ latency。
- 差分视觉——VLA-Cache 风格 (§11.6), 只重编码变化的 patch。
- Receding chunking——chunk H=16, 每 4 步重推一次。
- Dual-system(§11.4)——100Hz+ 控制频率的唯一路径。
- Inference 跳层——DeeR-VLA / MoLe-VLA / DySL-VLA (§11.5)。
- 并行 action decode——OpenVLA-OFT 一次出 N tok。
- 边缘量化——QuantVLA W4A8 + DyQ-VLA KV (§11.7)。
- CUDA Graph(§13.1)——decode 阶段必开。
- Spec-decoding——HeiSD / KERV / Realtime-VLA FLASH (§11.5)。
生产 realtime-VLA 6 步搭建配方
- 基线选型:30Hz 桌面 → OpenVLA-OFT 7B + 量化;100Hz+ 人形 → Helix dual-system;边缘 → TinyVLA。
- 架构:S2 用 PaliGemma/Eagle-2 3-7B;S1 用 80M ~ 250M small transformer;S1 拿 S2 hidden state 当 condition。
- 量化:S2 W4A16 + KV FP8;S1 BF16(小模型量化收益少)。
- 缓存:VLA-Cache 差分 + 多机器人场景叠 RadixAttention prefix。
- 解码:chunking 16-64 + parallel action decode + spec-decoding。
- 调度:S2 + S1 两个 CUDA stream,asyncio 各跑各的, shared cond buffer; serving 走 OxyGen / Auras P/D 解耦。
§11.12LLM 加速思想 → VLA 移植对照
把 LLM 那边过去三年卷出来的 trick 对照 VLA 端状态。
这一节按本部 6 个加速节(§11.5-§11.10)的分类组织——
每条都给出实际 cite,不再有"✗ 完全空白"的虚位(2026 H1 几乎所有空白都被填上了)。
① 解码加速类(对应 §11.5)
| LLM trick | 所在节 | VLA 状态 |
| Speculative decoding | §4.1-§4.4 | ✓ ★ HeiSD (2603.17573) / KERV (2603.01581) kinematic-aware; Realtime-VLA FLASH (2605.13778) diffusion-VLA; CogACT/TriVLA self-spec |
| Block-diffusion (dLLM 类) | — | ✓ ★ BlockVLA (2605.13382) / Fast-dVLM (2604.06832) |
| EAGLE hidden-state drafter | §4.3 | ○ 半空白 — 暂无 EAGLE-VLA, 但 self-spec 是近邻 |
| MTP (Multi-Token Prediction) | §4.4 | ○ 半空白 — action chunking 隐含, 没专门 head |
| Parallel decode (NAT 类) | — | ✓ OpenVLA-OFT 26× decode; AsyncVLA |
| Early-exit / 跳层 | — | ✓ DeeR-VLA, MoLe-VLA, DySL-VLA, DeeAD |
② Attention 架构 / KV 压缩类(对应 §11.6)
| LLM trick | 所在节 | VLA 状态 |
| SSM / Mamba backbone | §2.6 | ✓ RoboMamba 整 backbone; TacMamba 把 SSM 放 dual-system S1 (200Hz 触觉) 一侧——结构最贴合 |
| RWKV / linear attention | §2.6 | ✓ Decision-RWKV lifelong; KAN-We-Flow RWKV+flow; PRISM Performer 单步 imitation |
| NSA · native sparse attention | §2.6 | ✗ 空白 — 长 horizon rollout 是天然稀疏场景 |
| Hybrid linear + softmax (SANA-WM 范式) | §12.6 | ✗ 空白 — TacMamba 是 S1/S2 分系统而非单模型内混合 |
| 视觉 token 缓存 / 差分 | §10.2-§10.3 | ✓ VLA-Cache 差分 KV; ETA-VLA temporal token fusion |
| MLA latent KV (DeepSeek) | §3.1 | ○ 萌芽 — CSR (2605.07325) 与 Static-Dynamic Disentanglement (2602.03983) 是 VLA-style 的近邻方案; 严格 MLA-VLA 仍空白 |
③ 量化 · MoE · 测试时算力类(对应 §11.7-§11.9)
| LLM trick | 所在节 | VLA 状态 |
| PTQ (GPTQ / AWQ) | §5.2-§5.3 | ✓ QuantVLA, QVLA 各家 VLA-specific PTQ |
| 1-bit weights (BitNet) | §5.6 | ✓ ★ HBVLA (2602.13710) 1-bit PTQ for VLA |
| Temporal / drift-aware quant | — | ✓ DyQ-VLA, DA-PTQ 是 VLA-specific 的扩展 |
| FP4 / NVFP4 | §5.1 | ○ 半空白 — Blackwell-class 边缘卡刚出, VLA 端还在适配中 |
| MoE per-task experts | §6.3 | ✓ MoE-ACT 双臂多任务, HEX 跨实体, LAR-MoE, ATG-MoE |
| Test-time compute (o1 类) | — | ✓ ECoT, Sentinel-VLA, VLA-ATTC, Think Twice Act Once |
④ Serving · 底层工程类(对应 §11.10)
| LLM trick | 所在节 | VLA 状态 |
| Continuous batching (vLLM 类) | §7.1 | ○ 半空白 — OxyGen (2603.14371) 已做 multi-task KV 调度, 但 fleet-scale batching 仍欠 |
| P/D / EPD disaggregation | §7.5 | ✓ ★ Auras (2509.09560) 感知-生成解耦; ActionFlow 边缘流水 |
| RadixAttention 跨请求 prefix | §3.4 | ✗ 空白 — 多机器人共享 prompt 完全可以做 |
| Chunked prefill (Sarathi) | §3.5 | ✗ 空白 — 长 episode replay 适用 |
| CUDA Graph + torch.compile | §13.1-§13.2 | ✓ 部署默认 |
| KV offload to CPU/NVMe | — | ✗ 空白 — 跨小时尺度的 episodic memory 完全可以 offload |
| Distributed async training (verl) | §8.5 | ✓ D-VLA (2605.13276) VLA-specific async RL |
读法 · 2026 H1 的状态
一年前同一张表 80% 是 "✗ 空白",现在 80% 至少有萌芽。
VLA 加速已经追上 LLM 加速的成熟度——
特别是解码 / 量化 / MoE / 测试时算力四类, 都有 VLA 自有的 SOTA 工作。
剩下真空地带主要在 系统层:MLA-VLA / RadixAttention 多机器人 / KV offload / Chunked prefill。
本质是在等 "vLLM-for-VLA" 这种生态级 infra 成熟——OxyGen 是雏形。
§11.13VLA 还没解决的
站到 2026-05,把 VLA 推理 / 训练栈仍空着的坑显式列出来。
每一条做出来都是顶级会议 oral 级别。
- 200 Hz+ 触觉伺服在边缘卡上还不行——
Helix 双 GPU 才把 S1 推到 200Hz; 单 Jetson Orin ~80Hz。
500 Hz+ 力控伺服仍是传统控制器领地。
下一步可能要走专用 ASIC 或 distillation-to-MLP 极端方向。
- Chunking 长 H 一遇扰动就崩——
SDF-conditioned / closed-loop chunking 仍是研究方向。
- Dual-system 训练协议不统一——
Helix / GR00T / HiRT / TacMamba 四家做法都不同, 缺一个"标准接口"。
- 跨实体迁移——
Open X-Embodiment 是单臂为主, 双足 / 灵巧手 / 软体的开源大规模数据还少。
HEX (MoE 跨实体) 只是局部解。
- VLA serving infrastructure——
OxyGen 是雏形, 但 "vLLM-for-VLA" 等级的成熟开源生态还没出现。
多机器人 fleet 共享 backbone 的标准实现仍空白。
- Sim2Real 端到端闭环——
Cosmos (§12.4) 与 VLA 之间的反馈闭环尚未打通。
- Long-horizon planning——
现在 chunking ~1 秒 horizon, 多步骤任务靠 system 2 reasoning, 但 reasoning 又卡死实时。
VLA-ATTC / ECoT 是萌芽。
- MLA-VLA / RadixAttention 多机器人 / KV offload——
§11.12 表里那几条"✗ 空白" 是 6-12 个月内最可能出 paper 的方向。