从 3DGS 到 VGGT

Feedforward 3D Gaussian Splatting 学术综述 (2023 — 2026)
· 面向 NeRF / SDF / 基本 ML 入门读者 · 覆盖 40+ 篇代表作 · 更新至 2026 年 5 月

序章 · PREFACE写在前面

2023 年 8 月,Kerbl 等人的 3D Gaussian Splatting(3DGS)让"实时神经渲染"从奢侈品变成了日用品。但原始 3DGS 仍然继承了 NeRF 的一个痛点:每来一个新场景,都要从头优化一遍,少则几分钟,多则几小时。

很快,一个新问题被提出:能否让一个神经网络看几张图,一次前向就吐出整个 Gaussian 场景? 这就是 Feedforward 3D Gaussian Splatting。从 2023 年 12 月的 Splatter Image、pixelSplat,到 2025 年 CVPR Best Paper 的 VGGT,再到 2026 年最新的 StreamVGGT、π³,短短两年半内,这个方向产出了 40 多篇有影响力的工作,且**深度**远超想象——它逐步合并了 NeRF、SfM、MVS、SLAM 与 3D 生成模型四大方向。

这份综述是为写的:

  • 你熟悉基本的 NeRF(神经辐射场)和 SDF(有向距离场);
  • 你有基础的机器学习经验(CNN、Transformer 大致知道在做什么);
  • 你有高数 + 线性代数的基本素养(不怵协方差矩阵、四元数、可微渲染);
  • 但你从未系统读过 feedforward GS 的论文,希望一次看清整片森林。

我会尽量用类比渐进的叙事,而不是公式罗列,来讲清每个工作"在做什么、解决了什么、为什么重要"。技术术语会用英文原词保留(如 pointmapepipolar transformercost volume),并在术语表中给出解释。

怎么读? 如果你完全没接触过 feedforward GS,请从第 0 章顺序读到第 8 章。如果你只想看最新进展(VGGT、StreamVGGT、π³ 等),可以直接跳到第 5 章。最后的推荐阅读路径给出了三条不同强度的"入门曲线"。

第 0 章 · PREREQUISITES起点:3DGS 与 Feedforward

在跳进 40 篇论文之前,先用 5 分钟把"3DGS 是什么"和"feedforward 意味着什么"装进脑子。这两件事确定了,后面所有工作都只是它们的变奏。

0.1 什么是 3D Gaussian Splatting?

想象你要把一座教堂"装进电脑",让别人能从任意角度看它。NeRF 的做法是训一个 MLP,给它一个 3D 坐标 (x,y,z),它返回那个点的颜色和密度——整个场景被"隐式"地写进神经网络的权重里。3DGS 反其道而行之:场景被"显式"地写成一堆 3D 椭球体——3D Gaussian——漂浮在空间中。

每个 Gaussian 携带 5 个参数:

  • 位置 $\mu \in \mathbb{R}^3$ — 球心在哪
  • 协方差矩阵 $\Sigma \in \mathbb{R}^{3\times 3}$ — 球的形状和朝向(实际用一个四元数 $q$ 加三轴 scale $s$ 表示,保证 $\Sigma$ 永远是半正定的)
  • 不透明度 $\alpha \in [0,1]$ — 球的"实"还是"虚"
  • 颜色 c — 用球谐函数 (spherical harmonics, SH) 表示,让颜色可以随观察方向变化(这样玻璃才会反光)
把一个场景想象成一团彩色的"果冻球"在空间里浮着。从某个角度看过去,离你近的果冻球先把屏幕的像素"染色",剩下的颜色再由后面的球补上去。这就是$\alpha$-合成 (alpha compositing),也就是 Gaussian "splatting" 这个词的来历——把球"溅射"到 2D 屏幕上。

3DGS 真正的工程突破在于可微分的 tile-based 光栅化器:它把屏幕分成 16×16 的小块,每个 Gaussian 只参与它真正覆盖到的小块,因此整个渲染管线既快又对参数可导。给定一堆已知相机参数的图片,可以用反向传播让 Gaussians 拟合这些图片。这就是per-scene 优化:每个场景,几万到几十万个 Gaussian,反复迭代几万步。

所以原始 3DGS 的"训练"本质上是:把若干 2D 图片"反卷"成一个 3D Gaussian 集合。这跟训练神经网络没关系——网络在哪?没有网络。它就是一次大型几何拟合

0.2 什么是 Feedforward?为什么是个革命?

原始 3DGS 的痛点显而易见:

  • 对每个新场景都要单独跑一次拟合(10 分钟到几小时不等);
  • 需要已知的相机内外参(一般用 COLMAP 先跑一遍,本身也很慢);
  • 视图必须密集,稀疏视图下严重过拟合或塌陷。

Feedforward GS 的目标是把这一整套流程替换成一次神经网络前向

N 张图 + (可选)相机参数 Neural Network 一次前向 ~ 0.1–2 秒 (已在大型数据集上预训练) 3D Gaussians (可立即渲染)
Feedforward GS 的标准范式:图片 → 神经网络 → 3D Gaussians。一次前向,无需 per-scene 优化。
原始 3DGS 像每写一篇文章都现编一本字典:精确但费时。Feedforward GS 像用预训练好的大模型:扫一眼几张图就能"读懂"场景,几乎实时输出 3D。代价是:泛化得好不好,要看训练数据的覆盖范围。

整个 2023–2026 年的 feedforward GS 史,本质上就是三个问题的拉锯战:

  1. 怎么把 2D 像素变成 3D Gaussian? (像素对齐?体素对齐?还是直接 transformer 出?)
  2. 需要多少先验? (相机参数?深度?还是什么都不要?)
  3. 怎么扩展到更多视图、更大场景? (epipolar attention?cost volume?Mamba?VGGT 风格的全局注意力?)

下面 8 章的故事,就是这三个问题在每一年被推进的过程。

时间线 · TIMELINE两年半的拉力赛

先看一眼这场赛事的节奏感。注意 2023 年 12 月那个"同时被四组人想出来"的爆炸瞬间,以及 2025 年 3 月 VGGT 落地后整个领域的重排。

2023.083D Gaussian Splatting · Kerbl et al., SIGGRAPH 2023
2023.12GPS-Gaussian · CVPR 2024 Highlight
2023.12TriplaneGaussian · CVPR 2024
2023.12pixelSplat · CVPR 2024 Best Paper Honorable Mention
2023.12Splatter Image · CVPR 2024
2023.12DUSt3R · CVPR 2024 (奠基了后来一切 pose-free GS)
2024.01AGG · TMLR 2024
2024.02LGM · ECCV 2024 Oral
2024.03MVSplat · ECCV 2024
2024.03GRM · ECCV 2024
2024.03latentSplat · ECCV 2024
2024.04GS-LRM · ECCV 2024
2024.05FreeSplat · NeurIPS 2024
2024.06MASt3R · ECCV 2024 Oral
2024.08Splatt3R · arXiv
2024.08Spann3R · 3DV 2025
2024.10Long-LRM · arXiv (Adobe)
2024.10DepthSplat · CVPR 2025
2024.10NoPoSplat · ICLR 2025 Oral
2024.10MonST3R · ICLR 2025 Spotlight
2024.10PF3plat · ICML 2025
2024.11MVSplat360 · NeurIPS 2024
2024.12MV-DUSt3R+ · CVPR 2025 Oral
2024.12Wonderland · CVPR 2025
2025.01CUT3R · CVPR 2025 Oral
2025.01Fast3R · CVPR 2025
2025.02FLARE · CVPR 2025
2025.03VGGT · CVPR 2025 BEST PAPER
2025.03Aether · ICCV 2025 Outstanding RIWM
2025.05AnySplat · SIGGRAPH Asia 2025
2025.05VGGT-SLAM · arXiv
2025.07StreamVGGT · ICLR 2026
2025.07π³ (Pi-Cubed) · ICLR 2026
2025.07VGGT-Long · arXiv
2025.09VolSplat · arXiv
2025.09VGGT-X · arXiv (1000+ images)
2025.10VGD (Driving) · arXiv
2025.12FlashVGGT · arXiv
2026.02XStreamVGGT · arXiv
2026.04GlobalSplat · arXiv

家族树 · LINEAGE谁是谁的爹

这棵树是后面所有章节的"地图"。两条主线最初互不相干:左边是渲染派(从 pixelSplat 一路走过来的 feedforward 3DGS),右边是几何派(DUSt3R 开创的 pointmap)。它们在 2025 年的 VGGT/AnySplat 处合流。

3D Gaussian Splatting (2023.08) Splatter Image / pixelSplat MVSplat (cost volume) LGM / GRM / GS-LRM latentSplat / FreeSplat Long-LRM / MVSplat360 DUSt3R (pointmap) MASt3R (+ matching) Splatt3R / NoPoSplat / PF3plat Spann3R / CUT3R (流式) Fast3R / MV-DUSt3R+ VGGT (CVPR 2025 Best Paper) 两派合流:一个 transformer 输出一切 StreamVGGT (causal) π³ (permutation-equivariant) VGGT-Long / SLAM / X 2025-2026 当下: AnySplat / FLARE / VolSplat / VGD — 都是 VGGT-backbone + Gaussian 头 "feedforward 3DGS = VGGT 骨干 + 一个轻量 GS 头"已经成为新范式 开山 LRM Pose-Free 大场景 统一 流式/等变 VGGT 时代
两条主线在 VGGT 处合流;2025 年下半年的所有 feedforward GS 工作都建立在 VGGT 风格 backbone 之上。

第 1 章 · PIONEERS — 2023.12 / 2024 初春"Gaussian 是像素的伪装"

2023 年 12 月,仅仅在 3DGS 发表 4 个月后,整整四组人在 16 天内同时把同一个 idea 投上了 arXiv:用 2D 神经网络一次预测出一组 3D Gaussians

这一章的所有论文都共享同一个核心 trick——per-pixel Gaussian 预测。把输入图像送进一个 U-Net 或 Transformer,让网络对每个输入像素预测出一个 3D Gaussian 的全部参数(位置、协方差、不透明度、颜色)。直观地说:

想象一张 256×256 的图,本来每个像素只有 RGB 三个数;现在让网络在每个像素位置吐出 14 个数(3 位置 + 4 四元数 + 3 scale + 1 透明度 + 3 颜色)。这张"超级图"里每个像素都对应空间中一个 3D Gaussian。因此 Splatter Image 起了一个绝妙的名字——这就是一张溅射图

这个观察非常有力,因为它让所有 2D 视觉的工具(U-Net、Swin Transformer、cost volume)都能直接拿来做 3D 重建——只需要换个输出头。下面的所有工作都是这个范式的变奏。

Splatter Image"3D Gaussians 就是 U-Net 的像素"
CVPR 2024 · arXiv:2312.13150
Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi (Oxford VGG)
用一个普通的 2D U-Net 一次性预测每个像素对应的 3D Gaussian——单图秒级 3D 重建。
输入
1 张物体图像 (可扩展到多图,加 cross-view attention)
输出
每像素一个 3D Gaussian,组成物体的 3D 表示
架构
就是个 2D U-Net,输出通道从 3 变成 14(一个 Gaussian 全部参数)。完全没有 3D 模块。
关键 trick
把背面(看不见的部分)"借"给前景或背景的像素来表示——一个像素可以代表一个"漂在场景前面"或"远处"的 Gaussian。换句话说,U-Net 学会了用某些像素"代表"它看不到的几何
速度
38 FPS 重建,588 FPS 渲染(128×128)
局限
SH 仅到 L=1(视角依赖弱);分辨率受限;遮挡区域的"借位"策略容量有限。
看清这一个 idea,后面 30 篇论文就理解了一半:"Gaussian 本质就是一张 14 通道的图,2D 神经网络是天然的预测器。"
pixelSplat"epipolar transformer + 概率深度"
CVPR 2024 Best Paper HM · arXiv:2312.12337
David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann (MIT)
两张已知位姿的图,通过 epipolar attention 加可微"深度抽样",一次前向预测整个场景的 Gaussian 场。
输入
2 张已知位姿的场景图像(房间、户外等)
输出
两张图各自的 per-pixel Gaussian,叠在一起就是场景
关键 trick 1
Epipolar Transformer。对图 A 的每个像素,找出它在图 B 中的对极线,沿这条线采样若干个点,让这些点的特征 cross-attend 到图 A 的当前像素。这把传统几何(对极几何)直接嵌进了 attention 里。
关键 trick 2
概率深度抽样。直接回归一个深度值,梯度很容易陷入局部极小(深度跳过遮挡边界时不可导)。pixelSplat 改成预测深度分布,从分布里抽样 Gaussian 的中心位置(用 reparameterization trick 让梯度可流),优雅地绕开了这个坑。
局限
反光物体被预测成透明;从奇怪角度看 Gaussian 像广告牌;两个视图的 Gaussian 简单叠加,没去重。
pixelSplat 把 feedforward GS 从"物体"推到"真实场景",是 CVPR 2024 Best Paper Honorable Mention,也是接下来一年所有场景级 feedforward GS 工作的参照基准。
MVSplat"经典 MVS 的 cost volume 完美移植"
ECCV 2024 · arXiv:2403.14627
Yuedong Chen, Haofei Xu, Chuanxia Zheng, et al.
与其用 pixelSplat 的概率深度,不如直接搭一个 plane-sweep cost volume——经典 MVS 的几何先验恰好就是 feedforward GS 缺的那块。
输入
2–3 张已知位姿的稀疏图像
输出
per-pixel Gaussians,仅用光度损失训练(无需 GT 深度)
架构
ResNet + Swin Transformer 提特征 → plane-sweep cost volume (经典 MVSNet 那一套) → U-Net 精修深度 → 每像素 Gaussian 头
为什么 cost volume 重要
cost volume 就是把"假设深度=d,两图特征匹配得多好"这件事算 N 次(N 个深度候选),变成一个 (H,W,N) 的张量。这是 20 年来 MVS 的看家本领,把"对极几何 + 多视图一致性"显式写进了网络结构里。
效果
参数量是 pixelSplat 的 1/10,速度快 2×,PSNR 还更高。
局限
反光面(玻璃)依然失效;仅 RealEstate10K 上训练,泛化弱。
MVSplat 是"经典几何 + 现代 feedforward"的教科书例子:当你有一个被验证了 20 年的几何 inductive bias,硬塞进网络里通常打败"全靠 attention 学"的方案。
GPS-Gaussian"人体专用:2K 实时新视角合成"
CVPR 2024 Highlight · arXiv:2312.02155
Shunyuan Zheng, Boyao Zhou, Ruizhi Shao, et al. (HIT + 清华)
围着人转一圈的相机阵列里,对每个目标视角挑最近的两台相机做学习型双目立体匹配,把 2D Gaussian 参数图反投影到 3D——人体新视角实时 2K 渲染。
输入
围绕人体的稀疏多相机阵列(典型 ~8 台),每次用最近两台做 stereo pair
输出
2K 分辨率新视角,实时
架构
两路并行的 2D 头:(1) 参数图头预测 Gaussian 属性;(2) RAFT-Stereo 风格的迭代深度估计器。两路结果反投影到 3D 拼成 Gaussian 集合。
局限
需要前景抠图(不能直接拍现实环境);训练需要 GT 深度(数据获取贵);只针对人体;少于 ~8 台相机就糊。
GPS-Gaussian 是"领域专用先验"的最佳样本——当你把任务限定到人体,可以用经典双目立体匹配 + 一个学习头,做到 general 模型几年都达不到的 2K 实时。
TriplaneGaussian"triplane × Gaussian 的杂交"
CVPR 2024 · arXiv:2312.09147
Zi-Xin Zou, et al. (清华 + VAST)
单图 → 先用 transformer 解出点云(Gaussian 中心),再用另一个 transformer 解出 triplane 特征体,每个点在 triplane 里查询自己的其他属性。
为什么混合
直接回归所有 Gaussian 属性的网络容易学崩(位置和颜色尺度差太多)。TriplaneGaussian 把"位置"做显式预测(点解码器),把"颜色/形状"做隐式查询(triplane 解码器)。
历史地位
与 LRM (NeRF + triplane) 一脉相承,是 triplane 这个表示首次嫁接到 GS 上的工作。后被 LGM / GRM / GS-LRM 用更纯粹的方案超越。
如果你想理解为什么 2024 后期开始出现 "LRM 风格"的 feedforward GS(如 GS-LRM、GRM),TriplaneGaussian 是中间过渡——它把 NeRF-LRM 的 triplane idea 第一次掰到了 GS 这边。
AGG"摊销式生成单图 3D"
TMLR 2024 · arXiv:2401.04099
Dejia Xu, et al. (UT Austin + NVIDIA)
把 DreamFusion 那种 per-instance score-distillation 优化"摊销"到一个 feedforward 网络里——单图直接出 Gaussian。
关键设计
把 "Gaussian 在哪 (位置)" 和 "Gaussian 长什么样 (属性)" 拆成两个子任务联合训。Coarse-to-fine 级联结构,最后用一个 "Gaussian 超分模块" 上采样。
历史地位
DreamFusion / DreamGaussian 是 per-instance 优化(每生成一个物体要等几分钟),AGG 把它变成一次前向。是从"优化式生成"过渡到"摊销式生成"的桥梁。
AGG 现在已被 LGM、GRM 等后辈大幅超越,但它是 2024 年 1 月的标志性早期工作,是 single-image-to-3D 的"摊销化拐点"。

第 2 章 · LRM ERA — 2024 春夏用 Transformer 把 LRM 套到 Gaussian 上

2023 年 NeRF 一侧已经诞生了 LRM (Large Reconstruction Model) — 用 GPT 一样大的 Transformer 把"多视图 → 3D"摊成一次前向。2024 年春,三组人几乎同时把这个 recipe 移植到 Gaussian Splatting 上:多视图 → 大 Transformer → 一堆 Gaussian

这一章和第 1 章的区别:第 1 章是"U-Net + 几何先验" (cost volume / epipolar),第 2 章是"纯 Transformer + 大数据"。这场对决是"bitter lesson"的一次小型重演——纯 transformer 最终赢了,但赢得不那么干净,因为它需要海量已知位姿的数据。

另一个关键背景:多视图 diffusion model (MVDream、ImageDream、SV3D) 在 2024 年初成熟,能从一张图或一段文字生成几张视角一致的图像。这给了 feedforward GS 一个完美的上游——"我幻想出 4 张视角,再把它们一次性变成 3D"。这就是 LGM、GRM 这一类"文本/单图 → 3D 生成"的标准 pipeline。

LGM"非对称 U-Net 横扫 2024 3D 生成"
ECCV 2024 Oral · arXiv:2402.05054
Jiaxiang Tang, Zhaoxi Chen, et al. (北大 + NTU S-Lab)
用多视图 diffusion 幻想出 4 张正交视图 → 一个非对称 U-Net 读 4 张图 → 输出 65,536 个 Gaussian,5 秒搞定 512² 渲染。
输入
文本 (经 MVDream) 或单图 (经 ImageDream) → 4 张 256² 多视图图像 (方位角 0/90/180/270)
输出
~65K Gaussians 的物体资产,512² 渲染。也支持转 Mesh。
架构关键
非对称 U-Net:6 个下采样、5 个上采样,输入 256² 但输出 Gaussian 图 128²。每个 down/up block 里有 cross-view self-attention(4 张图的 token 拼起来一起算)。输入还拼了 Plücker 射线,这样 U-Net "知道每个像素对应的射线方向"。
数据 trick
训练时给输入图加 grid distortion + orbital camera jitter,模拟 diffusion 给出的视图不完全 3D 一致的真实情况——这是从 Objaverse 渲染图迁移到 diffusion 输出的关键。
局限
上游 diffusion 不 3D 一致 → floater;4 张 256² 图限制了细节;细长结构(椅子腿)失败。
LGM 证明 "多视图 diffusion 想象 + feedforward GS 融合" 是 2024 年最强的 3D 生成范式。这个两段式 pipeline 后来被广泛模仿。
GRM"纯 Transformer + 窗口注意力 upsampler"
ECCV 2024 · arXiv:2403.14621
Yinghao Xu, et al. (Stanford + HKUST)
LGM 的双胞胎,但把 U-Net 全部换成 Transformer——包括上采样模块,最终 0.1 秒出 Gaussian。
输入/输出
4 张已知位姿视图 → per-pixel Gaussian (物体)
独门绝活
Transformer Upsampler。一般人用 CNN 或 PixelShuffle 上采样,GRM 用窗口自注意力 (Swin 风格) + PixelShuffle,整个网络"transformer all the way down",包括 upsampler。
速度
0.1 秒重建;接上多视图 diffusion (Instant3D/SV3D) 后端到端 8 秒以内出 3D。
和 LGM 是同期的"transformer 双子星"。LGM 押注 U-Net,GRM 押注 transformer。结论:在物体级、4 视图、Objaverse 数据规模下,两者打平,transformer 拓展性更好。
GS-LRM"bitter lesson:堆 Transformer 就行了"
ECCV 2024 · arXiv:2404.19702
Kai Zhang, Sai Bi, Hao Tan, et al. (Adobe + Cornell)
把图片 patchify 成 token,全部丢进一个朴素 transformer 栈,最后线性 decode 出 per-pixel Gaussian——物体和场景都能做,0.23 秒。
输入
2–4 张已知位姿图像 (~512×900)
输出
per-pixel Gaussian,物体或场景
架构
朴素得令人困惑:每张图 patchify → 所有视图 token 拼起来 → 多层标准 Transformer block(带 Plücker 射线 embedding)→ 线性头解码 Gaussian。没有 cost volume,没有 epipolar attention,没有 U-Net。FlashAttention-2 + 梯度 checkpointing 让它能扩展。
局限
需要已知相机参数(同期 pose-free 的 NoPoSplat 还没出);分辨率上限 ~512×900;遮挡区域无想象能力。
GS-LRM 是 feedforward GS 版的 "bitter lesson"——堆参数、堆数据、简单架构,照样打败精心设计的几何 prior。这是后来 Long-LRM、VGGT 走"巨型 transformer"路线的精神源头。

第 3 章 · POSE-FREE REVOLUTION — 2023.12 起把相机参数甩进垃圾桶

前两章所有方法都默认相机内外参已知——这是 NeRF 时代的标准假设。但 COLMAP 跑一遍要几十分钟到几小时,且容易失败。2023 年 12 月,DUSt3R 横空出世,提出"能不能不算相机?"——这一脚踢开的门,是后面 VGGT 时代的真正入口。

3.1 DUSt3R 的核心:pointmap

这是整个 2024 下半年 + 2025 年 feedforward 3D 的最重要一个概念。先把它讲透,后面一切都顺。

传统 SfM/MVS 的步骤:

  1. 对每张图提特征点 (SIFT/SuperPoint)
  2. 跨图匹配 → 得到对应关系
  3. RANSAC 估相机外参(哪台相机站在哪、朝哪)
  4. 三角化对应点 → 稀疏 3D 点云
  5. 稠密化 (MVS) → 稠密 3D

整条链上每一步都可能崩——纹理不足时特征匹配挂,相机姿态估错就一切完蛋。

DUSt3R 的做法是跳过 1-4 步,直接训一个网络让它对每个像素回归一个 3D 坐标。这张 (H, W, 3) 的图就叫 pointmap

图 A (I¹) 图 B (I²) DUSt3R Siamese ViT (CroCo init) + 跨视 cross-attention Pointmap X¹ 图 A 每像素的 (x,y,z) 在 A 的相机坐标系 Pointmap X²,¹ 图 B 每像素的 (x,y,z) 也在 A 的坐标系
DUSt3R 的核心输出:两张 pointmap,都表示在第一张图的相机坐标系下。相机参数?不需要——网络已经把整个几何拼好了。

关键魔法在于两张 pointmap 都表示在第一张图的相机坐标系里。这意味着:

  • 不需要单独估相机外参——它已经"隐含"在两张 pointmap 的对齐里;
  • 不需要特征匹配——网络通过 cross-attention 学会了隐式对应;
  • 相机内参也不需要给——网络在数百万对图像上见过太多内参分布,自己有先验;
  • 需要时,从 pointmap 反推回内外参就是个小型优化问题。
传统 SfM 像考古学家:先量出每根柱子的位置,再推断房子怎么搭。DUSt3R 像直接拿一支"3D 描线笔"在图上点 3D 点——它已经在 100 万个房子上练过手,知道"看起来像房间的图"对应的几何长什么样。

DUSt3R 的具体架构后来被几乎所有 pose-free GS 工作继承:

  • 双塔 Siamese ViT 编码器(权重共享,从 CroCo Cross-View Completion 预训练初始化);
  • 两个解码器,互相 cross-attend 对方的特征;
  • DPT 风格的 dense regression head 输出 pointmap。

下面看几个把 DUSt3R 改造成"输出 Gaussian"的工作。

DUSt3R"几何 3D 视觉变简单了"
CVPR 2024 · arXiv:2312.14132
Shuzhe Wang, Vincent Leroy, Yohann Cabon, et al. (Naver)
从两张未标定图像直接回归 pointmap,绕开所有传统 SfM 步骤——这是 2024-2026 整个 feedforward 3D 浪潮的鼻祖。
输入
2 张图。什么都不知道——没有相机参数。
输出
两张 pointmap + 每像素 confidence。多视图时需要后处理 global alignment。
局限
每次只吃两张图;多于 2 张要 pairwise + global alignment,慢且累积误差;反光面、无纹理面表现差。
如果你在 2024 后只读一篇论文了解 3D 视觉的范式转移,就读 DUSt3R。VGGT、StreamVGGT、AnySplat 全都是它的后裔。
MASt3R"DUSt3R + 匹配头"
ECCV 2024 Oral · arXiv:2406.09756
Vincent Leroy, Yohann Cabon, Jerome Revaud (Naver)
在 DUSt3R 上加一个 dense 特征匹配头——同一个网络同时做 3D 重建和像素匹配。
为什么重要
"匹配"现在不再是 2D 问题,而是 3D 问题——两个像素是否对应,取决于它们的 3D 点是否重合。换框架后,极大视角变化下的匹配鲁棒性大幅提升 (+30% AUC on Map-free localization)。
下游
Splatt3R 选择基于 MASt3R 而非 DUSt3R 构建,正是因为这个 dense 特征头能给 Gaussian-prediction 头更干净的输入。
MASt3R = "DUSt3R 但匹配更好"。它和 DUSt3R 几乎可以一起当作"地基"。
Splatt3R"冻住 MASt3R,只学一个 Gaussian 头"
arXiv 2024.08 · arXiv:2408.13912
Brandon Smart, Chuanxia Zheng, Iro Laina, Victor Prisacariu (Oxford)
把 MASt3R 当 3D 估计器冻起来,只训一个轻量头预测每像素 Gaussian 属性——零样本 pose-free Gaussian Splatting。
输入
2 张未标定图。无内参、无外参、无深度。
架构
MASt3R 主干冻结,外加一个新的 Gaussian 头预测每像素的协方差(四元数 + scale)、SH 系数、不透明度、以及一个 mean-offset(让 Gaussian 中心可以略微偏离 MASt3R 预测的 3D 点)。
训练 trick
两阶段训练:先训几何损失,再训新视角合成损失,避免直接训 Gaussian 陷入局部极小。对外推视角 mask 损失,避免拉伸。
速度
~4 FPS 重建 (512²),实时渲染。
Splatt3R 是最简洁的 pose-free GS 演示——"懂 DUSt3R 你就懂 Splatt3R"。它把"加一个 Gaussian 头"这件事做到了字面意义。
NoPoSplat"出乎意料地简单的 pose-free GS"
ICLR 2025 Oral · arXiv:2410.24207
Botao Ye, Sifei Liu, Haofei Xu, et al. (ETH + NVIDIA)
直接预测所有视图的 Gaussian 到同一个规范坐标系(第一张图的相机坐标系)里——一次前向,纯光度训练,无需任何几何监督。
输入
2 张未标定 (稀疏) 图。但是要求已知内参(intrinsics 被 token 化进 transformer),位姿不要求
输出
所有 Gaussian 都在第一视图坐标系里。如果需要位姿,事后做 PnP 即可。
架构
MASt3R 初始化的双塔 ViT + 两个 DPT 风格头(一个预测 Gaussian 中心 = pointmap,另一个预测其余属性,第二个还吃原始 RGB 作为额外输入)。
关键洞察
"把所有 Gaussian 锚到一个 reference frame" 直接消灭了 "per-view 预测 + 后期对齐" 这条路里所有的累积误差。论文标题就是 punchline:No Pose, No Problem
局限
仍要内参;无生成先验,遮挡区域细节差;主要在 RealEstate10K/ACID/DL3DV 训练。
NoPoSplat 是 pose-free feedforward GS 路线的代表作。读完 DUSt3R 接读它,你会发现 idea 几乎是必然的——但把所有 Gaussian 锚到一个坐标系这一招是其他人没明确做到的。
PF3plat"另一条路:mono-depth + matching 代替 DUSt3R"
ICML 2025 · arXiv:2410.22128
Sunghwan Hong, Jaewoo Jung, et al. (KAIST)
不走 DUSt3R 路线——用预训练的单目深度 (UniDepth v2) + 匹配 (LightGlue) 给出初始粗对齐,再用轻量模块细化深度和姿态,纯前向。
血统
基于 pixelSplat / MVSplat 一系("per-pixel Gaussian"派),而非 DUSt3R 派。
核心洞察
pixelSplat 在无位姿时崩,原因是错位的 Gaussian 梯度会让训练发散。PF3plat 加了 confidence-weighted Gaussian 预测,让低置信度区域不参与训练。
PF3plat 是 pose-free GS 的"第二条路"——告诉你这一目标不必须靠 DUSt3R 实现,单目深度 + 匹配也可以。两条路在 2025 年之后逐步收敛到 VGGT。
SelfSplat"什么先验都不要"
arXiv 2024.11 · arXiv:2411.17190
Gyeongjin Kang, et al.
既不用相机参数,也不用 DUSt3R 等 3D 基础模型——纯端到端自监督学习深度 + 姿态 + Gaussian。
为什么重要
SelfSplat 是 pose-free GS 路线的反例——它证明不需要 DUSt3R/MASt3R 这种几何 foundation model 也能做 pose-free。基础模型只是充分条件,不是必要条件。
值得作为"反向参照"知道。它的存在让我们清楚看到:DUSt3R 提供的几何先验是有帮助但不是必需的工程选择。
InstantSplat"⚠ 注意:这是混合方法,不是纯 feedforward"
arXiv 2024.03 · arXiv:2403.20309
Zhiwen Fan, et al. (NVIDIA + UT Austin)
用 MASt3R 初始化 Gaussian 与位姿,再跑一个非常快的联合优化——本质是"COLMAP 被换成了基础模型"的快速 3DGS pipeline。
为什么单列出来
很多博客把 InstantSplat 和 NoPoSplat/Splatt3R 并列为 "pose-free feedforward GS",这是错误的。InstantSplat 在推断时仍然要做优化(几秒到 1 分钟),它只是把 COLMAP 那步换掉了,不是把整个优化换成一次前向。
价值
实际工程上是目前 pose-free 3DGS 最好用的 baseline 之一(30× 快于 COLMAP+3DGS)。但它不属于"feedforward 流派"。
教训:"用了 foundation model" $\ne$ "是 feedforward 方法"。InstantSplat 是这条边界上的典型反例。

第 4 章 · SCALING UP — 2024 下半年从两张图到一整间房

第 1-3 章的方法基本只能吃 2-4 张图,且场景不大。要把整个房间或整个 360° 户外塞进 feedforward 网络,需要解决三个新问题:(1) 视图多了,重复 Gaussian 怎么处理;(2) 视图基线宽了,epipolar attention 失效;(3) 看不到的区域,怎么"想象"。这一章三条主线各破一题。

latentSplat"变分 Gaussian + VAE 解码器"
ECCV 2024 · arXiv:2403.16292
Christopher Wewer, Kevin Raj, Eddy Ilg, et al.
Gaussian 不直接装 RGB,而是装一个学到的latent 向量;先把它们 splat 成 feature map,再用一个轻量 VAE 解码器把 feature map 变成图像。
为什么
纯回归方法(pixelSplat)的遮挡区域只能糊;纯生成方法(GeNVS)慢且视角不一致。latentSplat 让 Gaussian 携带"带不确定性"的 latent,VAE 在解码时填补合理的细节,同时光度训练保证视角一致。
规模
2 张图,CO3Dv2 物体 / RealEstate10K 房间,~83ms,~2000× 快于 GeNVS。
"splat features, decode with 2D net" 这个范式将在 MVSplat360 (用 SVD) 等后续工作里反复出现。latentSplat 是最简的样板。
HiSplat"层级化 Gaussian:先粗后细"
ICLR 2025 · arXiv:2410.06245
用粗 Gaussian 表达大结构、细 Gaussian 表达纹理细节——层级化预测。
为什么
单尺度 per-pixel Gaussian 在大结构 (墙) 和纹理细节 (画框) 上无法两全。
"多尺度 Gaussian" 这个 idea 后面在 Long-LRM 的 token merge 等地方反复出现。HiSplat 是最易读的版本。
FreeSplat"室内长序列 + Pixel-wise Triplet Fusion"
NeurIPS 2024 · arXiv:2405.17958
Yunsong Wang, Tianxin Huang, Hanlin Chen, Gim Hee Lee (NUS)
轻量 CNN backbone + 邻近视图的 adaptive cost volume + Pixel-wise Triplet Fusion (PTF) 显式合并重叠 Gaussian——一次前向吃 10+ 张视图,Gaussian 减少 ~55%。
关键贡献
PTF:跨视图三元组比对 per-pixel Gaussian,如果两个像素映射到几乎同一 3D 点,就合并它们。这是第一个在 feedforward GS 里显式"去重"的模块。
规模
2-10+ 视图 (室内房间),10 视图推断 ~0.6s,72 FPS 渲染。
局限
>50 张图时 GPU 显存 >40GB;无纹理 / 反光区域深度估计差。
FreeSplat 是 feedforward GS 离开"两张图立体" → "长序列房间扫描"的分水岭。PTF 这种"显式合并 Gaussian"的思路在后面 FreeSplat++ 和 Long-LRM 里继承下来。
eFreeSplat"丢掉 epipolar attention"
NeurIPS 2024 · arXiv:2410.22817
基线越宽,epipolar 区域越窄,注意力越退化——干脆全用 CroCo 风格的 cross-view completion 预训练 ViT 做全图匹配。
为什么重要
pixelSplat / MVSplat 的 epipolar attention 在宽基线下失效(极线穿过的大部分像素都不重叠)。eFreeSplat 用学到的跨视先验代替了几何先验。
想引用一篇"为什么 attention > epipolar"的代表作,就是 eFreeSplat。它的精神后来被 VGGT 全面继承。
Long-LRM"Mamba + Transformer 混合:32 视图 ~1 秒"
arXiv 2024.10 · arXiv:2410.12781
Chen Ziwen, Hao Tan, et al. (Adobe Research)
把 GS-LRM 的纯 transformer 换成 7 个 Mamba2 块 + 1 个 transformer 块的混合结构——线性注意力让 32 视图 250K token 在一张 A100 上 ~1 秒搞定。
输入/输出
32 张 960×540 → ~250K tokens → ~1s 出 Gaussian。比 GS-LRM 多吃 60× 视图。
规模 trick
Mamba2 是线性复杂度(O(N) 而非 transformer 的 O(N²)),让长序列 tractable;中间一层做token merging 砍半序列;训练和推理都做 Gaussian opacity pruning。
局限
>32 视图收益骤减;FOV 差异大时表现不稳。
Long-LRM 是把 LLM 里"长上下文 Mamba/Transformer 混合"的设计第一次移植到 3D 视觉的代表作。它和 VGGT 是两条不同的"扩展性"路线。
MVSplat360"Gaussian 输出 latent → SVD 去噪成图"
NeurIPS 2024 · arXiv:2411.04924
5 张稀疏视图覆盖 360° → MVSplat 给出 Gaussians → 把它们 splat 到 Stable Video Diffusion 的 latent 空间 → SVD 去噪出光照真实的 360° 视频。
为什么
5 视图覆盖 360° 时基线极宽,纯回归出来一片糊。SVD 的视频先验填补空隙,让看不见的方向也"看起来合理"。
"几何来自 GS,外观来自视频 diffusion" 是 2024-2025 稀疏 360° 重建的主流配方。MVSplat360 是经典样本。
Splatter-360"在球面上做 cost volume"
CVPR 2025 · arXiv:2412.06250
输入是全景图 (panorama) 不是普通视图——既然球面投影几何变了,cost volume 也要在球面上算。
关键设计
Spherical sweep + 兼容透视/等距柱状投影的双投影编码器。
每当输入模态变化(pano、鱼眼、激光雷达),cost volume 的几何也要变。Splatter-360 是最干净的"换坐标系"演示。
DepthSplat"用 GS 当深度模型的预训练任务"
CVPR 2025 · arXiv:2410.13862
Haofei Xu, et al. (ETH + Tübingen)
深度估计和 GS 互为先验——预训练单目深度特征稳住多视图深度,GS 渲染损失反过来当作深度模型的无监督预训练目标。
规模
12 视图 512×960 → 0.6 秒(A100),处于 MVSplat 显存爆掉的输入规模。
深刻
论文论证 GS 本身可以作为深度模型的预训练目标,相当于在 GS 渲染中拿到的损失能反传给深度网络。这是首次把 GS 当成"辅助任务"用。
DepthSplat 是 "单目深度 backbone (Depth Anything 等) + feedforward GS" 这一对的标准样本。后面 AnySplat 等会延续这种"嫁接预训练 backbone"的思路。
MV-DUSt3R+"一步多视图 DUSt3R + GS 头"
CVPR 2025 Oral · arXiv:2412.06974
Zhenggang Tang, et al. (Meta Reality Labs + UIUC)
把 DUSt3R 的"两两 pointmap + global alignment"改成"一次吃所有视图"——再加 Gaussian 头做新视角合成,2 秒重建一间房。
输入/输出
12 视图房间 0.89s,20 视图多房间 1.54s,100 视图 19.1s。训练时用 8 视图,能泛化到 100 视图
关键创新
多视图 decoder 块(每个视图 attend 其它所有视图,相对一个 reference)+ cross-reference-view 块(融合不同 reference 选择下的结果)。后者修复了 DUSt3R 的"参考视图依赖"问题。
如果第 4 章你只读一篇,读这篇。它是 DUSt3R/MASt3R 派和 feedforward GS 派正式合流的代表作,也是后来 VGGT 的直接前驱。
FreeSplat++"整间公寓 feedforward 重建"
arXiv 2025.03 · arXiv:2503.22986
FreeSplat 的升级:扩大 PTF 深度融合范围、加 Weighted Floater Removal、可选 per-scene 微调——把"长序列"推到"整间公寓 ScanNet 场景"。
规模
2-3 视图 ~0.1s;整个 ScanNet 场景 ~21s, ScanNet++ ~42s;Gaussian 减少 ~75%。
"feedforward 但跑整间房"这条线 2025 上半年的极限工作之一。

第 5 章 · UNIFICATION — 2024.08 → 2025.03VGGT 之路:一个 Transformer 输出一切

2024 年下半年开始,整个领域意识到:DUSt3R 的"pointmap + 一次前向"框架完全可以延伸——为什么只输出 pointmap?深度、相机参数、3D 点轨迹、Gaussian 都可以塞进同一个 transformer 的多个 head。这条"大一统"路线在 2025 年 3 月以 VGGT 拿下 CVPR Best Paper 达到顶峰。

Spann3R"DUSt3R 加上外部空间记忆"
3DV 2025 · arXiv:2408.16061
Hengyi Wang, Lourdes Agapito (UCL)
给 DUSt3R 配一个"空间记忆"——网络看过的 3D 点都被存起来,新一帧的 pointmap 直接预测到全局坐标系,无需任何 alignment。
关键
DUSt3R 是 pairwise 的,n 张图要 O(n²) 对 + 全局优化。Spann3R 用一个 memory bank 让新视图直接预测在累积的 global frame,线性扩展
Spann3R 是 DUSt3R → VGGT 之间最关键的中间步骤。"用一个 state 累积多视图信息"这一思路被 CUT3R 和 StreamVGGT 继承到极致。
CUT3R"持久 state 的连续 3D 感知"
CVPR 2025 Oral · arXiv:2501.12387
Qianqian Wang, et al. (UC Berkeley)
stateful 循环 transformer——每来一张新图,更新内部 state,吐出一个 metric-scale pointmap,可处理无序图集、视频、动态场景。
高级特性
可以"探测"未观察到的虚拟视角——state 里编码了场景先验。
CUT3R 比 Spann3R 更进一步:它的 state 编码了整体场景结构,不只是历史。这是把 LLM 的 "stateful transformer" 思想完整搬进 3D 视觉的工作。
Fast3R"一次前向吃 1000+ 张图"
CVPR 2025 · arXiv:2501.13928
Jianing Yang, et al. (Meta + UMich)
朴素扩展:一个 transformer 同时吃 N 张图,输出所有 pointmap——训练时见 20 张,推断时能跑 1500 张。
关键 trick
Randomized positional index embeddings——训练时随机化视图序号编码,让模型在推断时不"过拟合"到序号 $N \le 20$。这就是 "anti-extrapolation"。
数字
单 A100 上 1500 视图一次前向;CO3Dv2 上 99.7% rotation 误差 < 15°;相机姿态精度比 DUSt3R+global alignment 提升 14×。
Fast3R 是 DUSt3R 之后真正把"多视图 = 一次前向"做大的工作。它的"randomized index"trick 是 VGGT 之前的关键工程突破。
MUSt3R"对称化、多层 memory 的 DUSt3R"
CVPR 2025 · arXiv:2503.01661
Yohann Cabon, et al. (Naver — DUSt3R 原班人马)
DUSt3R 原作者团队的多视图升级:架构对称化(不再有"reference frame"偏向)、多层 memory 让其扩展到大型图集。
这是 DUSt3R 团队自己的"VGGT 路线"。理论上和 Fast3R / VGGT 有竞争关系,但 VGGT 拿了 best paper。
MonST3R"DUSt3R 但能吃动态场景"
ICLR 2025 Spotlight · arXiv:2410.03825
在罕见的动态场景数据上微调 DUSt3R——每个时间步出一对 pointmap 和姿态,得到 feedforward 4D 重建。
把 DUSt3R 范式拓展到 4D 的早期工作。后面 Aether 等 world model 会进一步推进这条线。
SLAM3R"feedforward SLAM"
CVPR 2025 Highlight · arXiv:2412.09401
两阶段 feedforward SLAM:滑窗局部 pointmap → 渐进配准到全局一致地图,20+ FPS,无显式位姿优化。
DUSt3R-style 走向 SLAM 的代表作。让你看到这条范式可以一直延伸到机器人定位的实时场景。
VGGT ★CVPR 2025 BEST PAPER — "一个 transformer 输出一切 3D"
CVPR 2025 BEST · arXiv:2503.11651
Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny (Meta + Oxford VGG)
一个 feedforward transformer,吃 1 到上百张未标定图,一次前向同时输出:相机内外参、每像素深度、全局 3D pointmap、3D 点轨迹——亚秒级。
为什么是历史性
在 VGGT 之前,做 3D 视觉永远是 SfM → MVS → 重建 → 估深度 → 跟踪 — 一长串顺序 pipeline。VGGT 把这条 pipeline 完全压成一个 transformer 的多个 head。It is the GPT-moment of 3D vision.
架构

1. DINO 把每张图 patchify 成 token;

2. 每帧额外配 1 个 camera token + 4 个 register token

3. 关键:attention 层严格交替—— (a) frame-wise 自注意力 (一张图内部) (b) global 自注意力 (跨所有视图);

4. 不同 head: camera head 从 camera token 出内外参; DPT head 从图像 token 出 depth/pointmap/track。

规模
单卡可处理几十到上百张图;亚秒级;在多个 3D 任务上同时 SOTA(pose estimation、depth、point cloud、tracking)。
局限
global attention 内存随视图数平方增长 → 长序列爆显存(→ VGGT-Long、VGGT-X 补救);offline / bidirectional → 不能流式(→ StreamVGGT 补救);有"reference frame"偏向 → 不是 permutation-equivariant(→ π³ 补救)。
2025-2026 所有 feedforward 3D 工作的新地基。读了 VGGT,你就明白为什么后面 AnySplat、FLARE、VolSplat、VGD 都长一个样——它们都是 "VGGT backbone + 一个 GS 头"。

第 6 章 · STREAMING & EQUIVARIANCE — 2025.07 → 2026VGGT 之后:补完最后两块缺口

VGGT 拿下 best paper 后,两个明显的缺口被立刻发现:(1) 它是 offline / bidirectional 的,每来一帧新图都得把所有图重新 attend 一遍——AR / 机器人 / SLAM 用不了。 (2) 它有 reference frame 偏向——把同一组图换个顺序输入,结果不一样。第 6 章是这两个问题的修补,也是 2025-2026 的最前沿。

StreamVGGT ★"VGGT 的 causal 版本,像 LLM 一样流式"
ICLR 2026 · arXiv:2507.11539
Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu (清华)
把 VGGT 的 bidirectional transformer 蒸馏成一个 causal transformer,加 KV-cache——视频流逐帧到来,每帧低延迟出 3D。
"LLM 化"
完全照搬 LLM 的工程套件:因果注意力 + KV-cache + FlashAttention + 蒸馏自双向教师
每帧输出
深度、pointmap、相机参数、3D 轨迹(和 VGGT 一致)。
局限
causal 学生略弱于双向老师;KV-cache 随时间无界增长(→ XStreamVGGT 修补)。
想象 VGGT 像 BERT,StreamVGGT 就是它的 GPT。这是 2026 年"实时 AR + 3D"研究的事实基准。
π³ (Pi-Cubed) ★"VGGT 但是置换等变的"
ICLR 2026 · arXiv:2507.13347
Yifan Wang, Jianjun Zhou, Haoyi Zhu, et al. (上海 AI Lab / Zhejiang)
破除"参考视图"——预测仿射不变相机姿态和尺度不变局部 pointmap,输入顺序怎么打乱,输出都一样。
为什么是大事
DUSt3R / MASt3R / VGGT / Fast3R 都需要"指定一张图作为 reference frame",所有结果都表达在那个相机系里。这意味着:

1. 模型可以"作弊"——把第一张图过拟合;

2. 输入顺序敏感;

3. reference 选不好整体崩塌(MV-DUSt3R+ 的 cross-reference 是工程式补救,π³ 是架构式根除)。

数字
在 pose estimation、mono / video depth、dense pointmap 多个任务上 VGGT-class 或更高,对输入顺序完全不敏感。
π³ 是 VGGT 在理论层面最干净的后续——它告诉你"reference frame"这个看似无害的工程选择实际上是不必要的,去掉它精度还更好。
VGGT-Long"VGGT 跑公里级户外"
arXiv 2025.07 · arXiv:2507.16443
分块 + 闭环 + 漂移修正——让 VGGT 能跑到公里级路径,那些会让原始 VGGT / Fast3R / CUT3R OOM 的序列。
把 VGGT 用工程化方法"拉长",是 2025 下半年 VGGT 应用化的关键。
VGGT-SLAM"在 SL(4) 流形上拼 submaps"
arXiv 2025.05 · arXiv:2505.12549
用 VGGT 在重叠 keyframe 窗口上算 submap,然后用 15-DOF 单应性 (SL(4) 流形) 把 submap 拼起来——因为未标定单目本质上有投影模糊。
让我们看到 VGGT 怎么从一个"重建模型"被改造成一个"SLAM 系统"。
VGGT-X"VGGT 跑 1000+ 图 + 鲁棒 3DGS 训练"
arXiv 2025.09
显存高效的 VGGT 扩展 + adaptive global alignment + 后端鲁棒 3DGS 训练 pipeline——突破 1000 图。
"VGGT 输出 + 后端 GS 优化"是当前最实用的 large-scale 重建栈。
FlashVGGT"双线性压缩 + 块递归在线推理"
arXiv 2025.12 · arXiv:2512.01540
把每帧 token 用双线性插值压成一个小型 descriptor 集;global attention 变成 "全 token ↔ 小描述符集" 的 cross-attention;支持块递归式在线推理。
VGGT 工程化效率的一个新里程碑。
XStreamVGGT"压缩 KV-cache 的 StreamVGGT"
arXiv 2026.02 · arXiv:2602.21780
StreamVGGT 的 KV-cache 随时间无界增长——XStreamVGGT 提出压缩策略,让真正长时间的视频流也能跑。
2026 早期工作。把"LLM 长上下文压缩"的研究(如 H2O、SnapKV 等)正式搬进 3D 流式。

第 7 章 · GENERATIVE HYBRIDS — 2024.12 →把视频 diffusion 嫁接到 feedforward GS

看不到的地方怎么办?回归模型只能"糊一片";生成模型 (video diffusion) 能"幻想合理细节"。2024 年末开始,一批工作探索:能不能让 GS 在 video diffusion 的 latent 空间里运作?

Wonderland"单图 → 视频 latent → 3D"
CVPR 2025 · arXiv:2412.12091
Hanwen Liang, et al. (Snap + Toronto + UCLA)
先训一个相机可控的 video diffusion 把单图变成视角一致的视频 latent;再训一个 LRM 在这些 latent 上跑出 Gaussian。
深刻洞察
不是 "diffusion 出图 → LRM 看图",而是 "diffusion 出 latent → LRM 看 latent"。这样既省带宽又自带视角一致性。
是"3D 重建可以发生在 diffusion 的 latent 空间里"的开山之作。
Aether"几何 + 视频生成 + 视觉规划 三合一"
ICCV 2025 Outstanding · arXiv:2503.18945
Haoyi Zhu, et al. (上海 AI Lab / OpenRobotLab)
一个框架同时联合训练:4D 动态重建、动作条件视频预测、目标条件视觉规划。纯合成数据训练,零样本迁移到真实。
为什么相关
把 feedforward 3D(重建)与 world model(视频预测 + 规划)打通——3D 不再只是"重建",而是"机器人决策的世界模型"的一部分。
这是 feedforward 3D 走向机器人 / 具身智能的代表作。它的精神继承者非常多。

→ MVSplat360(已在第 4 章介绍)也属于这一脉——Gaussian splat 到 SVD latent 空间再去噪。

第 8 章 · VGGT-BACKBONE ERA — 2025 - 2026当下的 feedforward 3DGS 长这样

VGGT 之后,feedforward 3DGS 的 SOTA 工作几乎全部长成同一个样子:VGGT (或类似的几何 foundation model) 作骨干,加一个轻量 GS 头预测 Gaussian 属性。第 8 章把这些"VGGT 时代"的 GS 工作列出来——它们也是你今天最值得用的工具。

FLARE"用相机姿态当 bridge 的级联学习"
CVPR 2025 · arXiv:2502.12138
Shangzhan Zhang, Jianyuan Wang, et al. (Ant + Stanford + Oxford)
2-8 张未标定图 → 先估相机姿态 → 再以姿态为桥梁条件化几何 + 外观学习 → Gaussian。<0.5 秒。
关键
不像 NoPoSplat 把"无姿态"当一个非问题,而是把姿态作为显式中间产物。一个"neural scene projector"统一不同相机的局部 pointmap。
FLARE 是 pose-free GS 的"另一条路"——显式估计姿态再用,比 NoPoSplat 的隐式锚定更可解释。
AnySplat"用 VGGT 当 backbone 的随手拍 3DGS"
SIGGRAPH Asia 2025 / ACM TOG · arXiv:2505.23716
Lihan Jiang, Yucheng Mao, Linning Xu, et al. (上海 AI Lab / CUHK / InternRobotics)
手机随手拍几张(不要求位姿、不要求数量),一次前向出整套 3D:Gaussian + 内参 + 外参。backbone 是预训练的 VGGT,外挂三个 head(Gaussian、深度、相机)。
为什么有意义
把 VGGT 的"通用几何"能力直接续上 GS。实现了 "snap photos → renderable 3D in seconds"——完全不要 COLMAP,也不要 per-scene 训练。
范式
这是 "VGGT-backbone era" feedforward GS 的典型样本。读完它你会感觉所有 2025 下半年的 GS 工作都是它的变奏。
当下 (2026 中) 最实用的 pose-free feedforward GS 之一。
VolSplat"放弃像素对齐,改成体素对齐"
arXiv 2025.09 · arXiv:2509.19297
把"每像素一个 Gaussian"换成"每个 3D 体素预测出 Gaussian"——Gaussian 密度跟随 3D 场景复杂度,不再被像素密度绑架。
为什么
像素对齐的两大问题:(1) 被相机数量多的区域不公平地放更多 Gaussian;(2) 2D 特征匹配在遮挡 / 无纹理区域出错。体素对齐天然规避这两点。
VolSplat 是从根子上质疑 Splatter Image 以来 "像素对齐" 这一假设的工作——值得作为未来路线的种子。
VGD"自动驾驶环视的 VGGT-distill GS"
arXiv 2025.10 · arXiv:2510.19578
把 VGGT 的几何 prior 蒸馏到一个轻量 feedforward GS 网络,用于自动驾驶的环视重建。
VGGT 太大,部署不动 → 蒸馏出领域专用小模型。这种"蒸馏式落地"是 VGGT 时代的标准操作。
LongSplat"长视频 + 八叉树锚点 + 联合优化"
arXiv 2025.08 · arXiv:2508.14041
面向 casual 长视频的鲁棒 unposed 3DGS:渐进式联合优化位姿与 Gaussian,八叉树锚点。
提醒我们:feedforward 不是唯一答案;某些场景(很长的视频、缓慢的相机移动)"feedforward 初始化 + 联合优化"仍是更强的工程方案。
MoGe / MoGe-2"单图几何 backbone — 经常被 GS 工作 import"
CVPR 2025 Oral / NeurIPS 2025 · 2410.19115 / 2507.02546
Ruicheng Wang, Sicheng Xu, et al. (Microsoft)
单图 → affine-invariant pointmap (MoGe) 或 metric-scale pointmap (MoGe-2)。新型对齐 solver 解决了之前单目几何模型的训练矛盾。
MoGe 系列虽然不直接出 Gaussian,但作为单目几何 backbone被大量 feedforward GS 工作集成 (PF3plat、AnySplat 的变体等)。和 DUSt3R/VGGT 形成"双轨预训练"格局。
GlobalSplat"全局 scene token"
arXiv 2026.04 · arXiv:2604.15284
2026 新作。引入全局 scene token 让 feedforward GS 达到全局一致,2K-32K Gaussian + 极小磁盘占用。
展示 2026 趋势之一:把 "global scene token" 这样的 LLM-级别架构选择继续往 GS 上嫁接。

总结 · SYNTHESIS2 年半,3 大趋势

把 40 篇论文按时间排好后,会浮现三条主轴。理解这三条,就抓住了 feedforward 3DGS 的全部精神。

趋势一:一次前向 → 输出一切

2023 年:一次前向出 Gaussian (Splatter Image)。
2024 年:一次前向出 Gaussian + pose(pose-free 系列)。
2025 年:一次前向出 Gaussian + pose + 深度 + 3D 轨迹 (VGGT)。
2026 年:流式一次前向出以上所有 (StreamVGGT) + 顺序不敏感 (π³)。

这条轴的本质是 3D 视觉 pipeline 的"端到端"压缩。每一年,能塞进一次前向的输出种类就多一种,能略掉的传统步骤就再少一个。

趋势二:online / streaming 化

DUSt3R (pairwise) → Spann3R (memory bank) → CUT3R (persistent state) → StreamVGGT (causal + KV-cache) → XStreamVGGT (compressed cache)。

这条轴在把 LLM 的研究工具一件件搬进 3D 视觉:因果注意力、KV-cache、FlashAttention、知识蒸馏、长上下文压缩。它告诉我们 3D 视觉的研究方法在 2025-2026 越来越像 NLP。

趋势三:每一代都去掉一个约束

3DGS 原始版要:(a) 已知位姿, (b) 密集视图, (c) per-scene 优化, (d) 单场景训。
每一篇主要工作都对应去掉某个约束:

  • 去掉 per-scene 优化:Splatter Image / pixelSplat / MVSplat (2023-2024)
  • 去掉密集视图:稀疏视图工作 (一系列)
  • 去掉位姿:DUSt3R / NoPoSplat / PF3plat / SelfSplat (2024)
  • 去掉 pairwise 限制:Fast3R / VGGT / MV-DUSt3R+ (2025)
  • 去掉 reference frame 偏向:π³ (2025-2026)
  • 去掉 offline 假设:StreamVGGT (2026)
  • 去掉显存 bound:VGGT-Long / VGGT-X / FlashVGGT (2025-2026)
  • 去掉像素对齐假设:VolSplat (2025)

现在所有问题都还没真正解决——但这场两年半的"去约束"接力,把 3D 重建从"一个昂贵的优化问题"变成了"一个普通的神经网络问题"。这是 feedforward 3DGS 浪潮最核心的遗产。

附录 · GLOSSARY术语表

下面只列出本综述中频繁出现、且需要解释的术语。

3D Gaussian / Splat
3D 空间中的一个椭球体,带位置 $\mu$、协方差 $\Sigma$、不透明度 $\alpha$、(基于球谐函数的) 颜色 $c$。3DGS 场景就是几万到几百万个这样的椭球。
Splatting
把 3D Gaussian 投影到 2D 屏幕、按深度 alpha-合成的渲染操作。在 3DGS 里通过 tile-based 可微分光栅化器实现,比 NeRF 的 ray marching 快几个数量级。
Per-scene optimization
原始 3DGS / NeRF 的训练方式:给定一组图,迭代更新一个场景的参数,单场景训完即弃。Feedforward 方法是它的对立面——预训练一个网络后所有新场景一次前向搞定。
Feedforward
在本综述里特指:神经网络看几张图,一次前向出整套 3D 表示(Gaussian、pointmap、depth 等),不再 per-scene 迭代。
Per-pixel Gaussian
每个输入像素对应一个 3D Gaussian——Splatter Image / pixelSplat / MVSplat 这一派的核心 trick。代价是 Gaussian 数随像素数固定,远端无法多放。
Pointmap
DUSt3R 引入的表示:每个输入像素直接对应一个 3D 坐标 (x,y,z)。等价于"稠密 + 像素对齐的 3D 点云"。
Epipolar geometry / Epipolar transformer
对极几何:图 A 中一个像素对应的 3D 点必落在图 B 中一条"对极线"上。Epipolar transformer 把这一几何约束写进 attention(cross-attend 只看对极线附近的像素)。pixelSplat、MVSplat 用了它。基线变宽后失效。
Plane-sweep cost volume
经典 MVS 技术:把"假设深度 = d_i"作为多个平面,每个平面上计算两图特征的匹配代价,得到 (H, W, N) 的张量。MVSplat 把它移植到 GS 里。
LRM (Large Reconstruction Model)
"用大 transformer + 海量数据做 3D 重建"的统称。最早是 triplane-NeRF (Hong et al.),后来 GS-LRM、GRM、Long-LRM 等把它移植到 GS 上。
CroCo (Cross-view Completion)
一种跨视图自监督预训练:让模型看图 A 的一部分 + 整张图 B,去补全图 A 的剩下部分。DUSt3R / MASt3R / NoPoSplat / VGGT 的 backbone 都受益于 CroCo 预训练。
DPT head
Dense Prediction Transformer 的输出头,把 transformer token 还原成 (H,W,C) 的密集预测图(深度、pointmap 等)。DUSt3R 系列广泛使用。
Mamba / State Space Model
线性复杂度 (O(N)) 的序列模型,替代 transformer 的 O(N²) 注意力。Long-LRM 用 Mamba2 处理 250K 视觉 token。
KV-cache
LLM 推理优化:把过去 token 的 Key/Value 缓存下来,新 token 只算自己的 Q 去注意旧 KV。StreamVGGT 把它直接搬进 3D 视觉。
Permutation-equivariant
"输入顺序不改变结果"。π³ 的特点。对比之下 DUSt3R / VGGT 都对输入第一张图特殊处理(reference frame),不是 permutation-equivariant。
SH (Spherical Harmonics)
球谐函数,用一组系数表示"颜色随观察方向怎么变"。3DGS 默认每个 Gaussian 携带 0-3 阶 SH 来表达反射。
Plücker ray
把"射线方向 + 起点"编码成 6 维向量的方法。LGM/GRM/GS-LRM 拼到输入 token 里,让网络"知道每个像素对应哪条射线"。

附录 · READING PATH三条不同强度的入门路线

路线 A · 仅一周 (12 篇必读)

覆盖整片森林的最小生成树。读完知道每一脉的代表。

  1. 3D Gaussian Splatting (Kerbl 2023) — 起点
  2. Splatter Image — 最简 feedforward GS
  3. pixelSplat — epipolar + 概率深度
  4. MVSplat — cost volume 移植
  5. LGM — multi-view diffusion + feedforward GS
  6. GS-LRM — 纯 transformer LRM
  7. DUSt3R — pointmap 革命
  8. NoPoSplat — 干净 pose-free
  9. MV-DUSt3R+ — 多视图 DUSt3R + GS
  10. VGGT — Best Paper,新地基
  11. StreamVGGT — 流式 VGGT
  12. π³ — 置换等变 VGGT

路线 B · 两周 (+8 篇)

在 A 之上加进"每个 sub-trend 的代表"。

  1. GPS-Gaussian — 领域专用 (人体) 的力量
  2. FreeSplat — 长序列室内 + 显式去重
  3. Long-LRM — Mamba/Transformer 混合
  4. DepthSplat — 单目深度 backbone 嫁接
  5. MVSplat360 — Gaussian + 视频 diffusion
  6. CUT3R — persistent state
  7. Fast3R — 1000+ 张图一次前向
  8. AnySplat — VGGT 时代标准范式

路线 C · 一个月 (剩下的全部)

余下的论文按以下顺序阅读:

  • 第 1 章剩余:TriplaneGaussian、AGG
  • 第 2 章剩余:GRM
  • 第 3 章剩余:MASt3R、Splatt3R、PF3plat、SelfSplat、InstantSplat (注意它是混合)
  • 第 4 章剩余:latentSplat、HiSplat、eFreeSplat、Splatter-360、FreeSplat++
  • 第 5 章剩余:Spann3R、MUSt3R、MonST3R、SLAM3R
  • 第 6 章剩余:VGGT-Long、VGGT-SLAM、VGGT-X、FlashVGGT、XStreamVGGT
  • 第 7 章:Wonderland、Aether
  • 第 8 章剩余:FLARE、VolSplat、VGD、LongSplat、MoGe / MoGe-2、GlobalSplat

附录 · REFERENCES完整论文列表

所有 arXiv 链接均已验证,按章节顺序排列。

第 0 章 (基础)

  1. Kerbl et al. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH 2023. arXiv:2308.04079

第 1 章 (开山之作)

  1. Szymanowicz et al. Splatter Image. CVPR 2024. arXiv:2312.13150
  2. Charatan et al. pixelSplat. CVPR 2024 Best Paper HM. arXiv:2312.12337
  3. Chen et al. MVSplat. ECCV 2024. arXiv:2403.14627
  4. Zheng et al. GPS-Gaussian. CVPR 2024 Highlight. arXiv:2312.02155
  5. Zou et al. Triplane Meets Gaussian Splatting. CVPR 2024. arXiv:2312.09147
  6. Xu et al. AGG. TMLR 2024. arXiv:2401.04099

第 2 章 (LRM 化)

  1. Tang et al. LGM. ECCV 2024 Oral. arXiv:2402.05054
  2. Xu et al. GRM. ECCV 2024. arXiv:2403.14621
  3. Zhang et al. GS-LRM. ECCV 2024. arXiv:2404.19702

第 3 章 (Pose-Free)

  1. Wang et al. DUSt3R. CVPR 2024. arXiv:2312.14132
  2. Leroy et al. MASt3R. ECCV 2024 Oral. arXiv:2406.09756
  3. Smart et al. Splatt3R. arXiv 2024.08. arXiv:2408.13912
  4. Ye et al. NoPoSplat. ICLR 2025 Oral. arXiv:2410.24207
  5. Hong et al. PF3plat. ICML 2025. arXiv:2410.22128
  6. Kang et al. SelfSplat. arXiv 2024.11. arXiv:2411.17190
  7. Fan et al. InstantSplat. arXiv 2024.03. arXiv:2403.20309

第 4 章 (走向大场景)

  1. Wewer et al. latentSplat. ECCV 2024. arXiv:2403.16292
  2. Open3DVLab. HiSplat. ICLR 2025. arXiv:2410.06245
  3. Wang et al. FreeSplat. NeurIPS 2024. arXiv:2405.17958
  4. Min et al. eFreeSplat. NeurIPS 2024. arXiv:2410.22817
  5. Ziwen et al. Long-LRM. arXiv 2024.10. arXiv:2410.12781
  6. Chen et al. MVSplat360. NeurIPS 2024. arXiv:2411.04924
  7. Chen et al. Splatter-360. CVPR 2025. arXiv:2412.06250
  8. Xu et al. DepthSplat. CVPR 2025. arXiv:2410.13862
  9. Tang et al. MV-DUSt3R+. CVPR 2025 Oral. arXiv:2412.06974
  10. Wang et al. FreeSplat++. arXiv 2025.03. arXiv:2503.22986

第 5 章 (统一基础模型)

  1. Wang & Agapito. Spann3R. 3DV 2025. arXiv:2408.16061
  2. Wang et al. CUT3R. CVPR 2025 Oral. arXiv:2501.12387
  3. Yang et al. Fast3R. CVPR 2025. arXiv:2501.13928
  4. Cabon et al. MUSt3R. CVPR 2025. arXiv:2503.01661
  5. Zhang et al. MonST3R. ICLR 2025 Spotlight. arXiv:2410.03825
  6. Liu et al. SLAM3R. CVPR 2025 Highlight. arXiv:2412.09401
  7. ★ Wang et al. VGGT: Visual Geometry Grounded Transformer. CVPR 2025 Best Paper. arXiv:2503.11651

第 6 章 (流式 & 置换等变)

  1. ★ Zhuo et al. StreamVGGT. ICLR 2026. arXiv:2507.11539
  2. ★ Wang et al. π³ (Pi-Cubed). ICLR 2026. arXiv:2507.13347
  3. Deng et al. VGGT-Long. arXiv 2025.07. arXiv:2507.16443
  4. Maggio et al. VGGT-SLAM. arXiv 2025.05. arXiv:2505.12549
  5. Liu et al. VGGT-X. 2025.09. project
  6. FlashVGGT. arXiv 2025.12. arXiv:2512.01540
  7. XStreamVGGT. arXiv 2026.02. arXiv:2602.21780

第 7 章 (生成融合)

  1. Liang et al. Wonderland. CVPR 2025. arXiv:2412.12091
  2. Zhu et al. Aether. ICCV 2025 Outstanding. arXiv:2503.18945

第 8 章 (VGGT-Backbone 时代)

  1. Zhang et al. FLARE. CVPR 2025. arXiv:2502.12138
  2. Jiang et al. AnySplat. SIGGRAPH Asia 2025. arXiv:2505.23716
  3. Wang et al. VolSplat. arXiv 2025.09. arXiv:2509.19297
  4. VGD (Driving). arXiv 2025.10. arXiv:2510.19578
  5. LongSplat. arXiv 2025.08. arXiv:2508.14041
  6. Wang et al. MoGe. CVPR 2025 Oral. arXiv:2410.19115
  7. Wang et al. MoGe-2. NeurIPS 2025. arXiv:2507.02546
  8. GlobalSplat. arXiv 2026.04. arXiv:2604.15284