Feedforward 3D Gaussian Splatting · 2023 — 2026

从 3DGS 到 VGGT

两年半内，3D 重建从"几小时的优化问题"被压缩成"一次神经网络前向"——这份综述把这场革命的 49 篇代表作串起来讲清楚。

· 面向 NeRF / SDF / 基本 ML 入门读者 · 覆盖 49 篇代表作 · 更新至 2026 年 5 月

§0序章 · 写在前面

2023 年 8 月，Kerbl 等人的 3D Gaussian Splatting（3DGS）让"实时神经渲染"从奢侈品变成了日用品。但原始 3DGS 仍然继承了 NeRF 的一个痛点：每来一个新场景，都要从头优化一遍，少则几分钟，多则几小时。

很快，一个新问题被提出：能否让一个神经网络看几张图，一次前向就吐出整个 Gaussian 场景？ 这就是 Feedforward 3D Gaussian Splatting。从 2023 年 12 月的 Splatter Image、pixelSplat，到 2025 年 CVPR Best Paper 的 VGGT，再到 2026 年最新的 StreamVGGT、π³，短短两年半内，这个方向产出了 40 多篇有影响力的工作，且深度远超想象——它逐步合并了 NeRF、SfM、MVS、SLAM 与 3D 生成模型四大方向。

这份综述是为你写的：

你熟悉基本的 NeRF（神经辐射场）和 SDF（有向距离场）；
你有基础的机器学习经验（CNN、Transformer 大致知道在做什么）；
你有高数 + 线性代数的基本素养（不怵协方差矩阵、四元数、可微渲染）；
但你从未系统读过 feedforward GS 的论文，希望一次看清整片森林。

我会尽量用类比和渐进的叙事，而不是公式罗列，来讲清每个工作"在做什么、解决了什么、为什么重要"。技术术语会用英文原词保留（如 pointmap、epipolar transformer、cost volume），并在术语表中给出解释。

怎么读

如果你完全没接触过 feedforward GS，请从第 0 章顺序读到第 8 章。如果你只想看最新进展（VGGT、StreamVGGT、π³ 等），可以直接跳到第 5 章。最后的推荐阅读路径给出了三条不同强度的"入门曲线"。

§1第 0 章 · 起点：3DGS 与 Feedforward

在跳进 40 篇论文之前，先用 5 分钟把"3DGS 是什么"和"feedforward 意味着什么"装进脑子。这两件事确定了，后面所有工作都只是它们的变奏。

0.1　什么是 3D Gaussian Splatting？

想象你要把一座教堂"装进电脑"，让别人能从任意角度看它。NeRF 的做法是训一个 MLP，给它一个 3D 坐标 $(x, y, z)$，它返回那个点的颜色和密度——整个场景被"隐式"地写进神经网络的权重里。3DGS 反其道而行之：场景被"显式"地写成一堆 3D 椭球体——3D Gaussian——漂浮在空间中。

每个 Gaussian 携带 5 个参数：

位置 $\mu \in \mathbb{R}^3$ — 球心在哪
协方差矩阵 $\Sigma \in \mathbb{R}^{3 \times 3}$ — 球的形状和朝向（实际用一个四元数 $q$ 加三轴 scale $s$ 表示，保证 $\Sigma$ 永远是半正定的）
不透明度 $\alpha \in [0, 1]$ — 球的"实"还是"虚"
颜色 $c$ — 用球谐函数 (spherical harmonics, SH) 表示，让颜色可以随观察方向变化（这样玻璃才会反光）

把一个场景想象成一团彩色的"果冻球"在空间里浮着。从某个角度看过去，离你近的果冻球先把屏幕的像素"染色"，剩下的颜色再由后面的球补上去。这就是 $\alpha$-合成 (alpha compositing)，也就是 Gaussian "splatting" 这个词的来历——把球"溅射"到 2D 屏幕上。

3DGS 真正的工程突破在于可微分的 tile-based 光栅化器：它把屏幕分成 $16 \times 16$ 的小块，每个 Gaussian 只参与它真正覆盖到的小块，因此整个渲染管线既快又对参数可导。给定一堆已知相机参数的图片，可以用反向传播让 Gaussians 拟合这些图片。这就是per-scene 优化：每个场景，几万到几十万个 Gaussian，反复迭代几万步。

所以原始 3DGS 的"训练"本质上是：把若干 2D 图片"反卷"成一个 3D Gaussian 集合。这跟训练神经网络没关系——网络在哪？没有网络。它就是一次大型几何拟合。

0.2　什么是 Feedforward？为什么是个革命？

原始 3DGS 的痛点显而易见：

对每个新场景都要单独跑一次拟合（10 分钟到几小时不等）；
需要已知的相机内外参（一般用 COLMAP 先跑一遍，本身也很慢）；
视图必须密集，稀疏视图下严重过拟合或塌陷。

Feedforward GS 的目标是把这一整套流程替换成一次神经网络前向：

Feedforward GS 的标准范式：图片 → 神经网络 → 3D Gaussians。一次前向，无需 per-scene 优化。

原始 3DGS 像每写一篇文章都现编一本字典：精确但费时。Feedforward GS 像用预训练好的大模型：扫一眼几张图就能"读懂"场景，几乎实时输出 3D。代价是：泛化得好不好，要看训练数据的覆盖范围。

整个 2023–2026 年的 feedforward GS 史，本质上就是三个问题的拉锯战：

怎么把 2D 像素变成 3D Gaussian？（像素对齐？体素对齐？还是直接 transformer 出？）
需要多少先验？（相机参数？深度？还是什么都不要？）
怎么扩展到更多视图、更大场景？（epipolar attention？cost volume？Mamba？VGGT 风格的全局注意力？）

下面 8 章的故事，就是这三个问题在每一年被推进的过程。

§2时间线 · 两年半的拉力赛

先看一眼这场赛事的节奏感。注意 2023 年 12 月那个"同时被四组人想出来"的爆炸瞬间，以及 2025 年 3 月 VGGT 落地后整个领域的重排。

2023.083D Gaussian Splatting· Kerbl et al., SIGGRAPH 2023

2023.12GPS-Gaussian· CVPR 2024 Highlight

2023.12TriplaneGaussian· CVPR 2024

2023.12pixelSplat· CVPR 2024 Best Paper Honorable Mention

2023.12Splatter Image· CVPR 2024

2023.12DUSt3R· CVPR 2024 (奠基了后来一切 pose-free GS)

2024.01AGG· TMLR 2024

2024.02LGM· ECCV 2024 Oral

2024.03MVSplat· ECCV 2024

2024.03GRM· ECCV 2024

2024.03latentSplat· ECCV 2024

2024.04GS-LRM· ECCV 2024

2024.05FreeSplat· NeurIPS 2024

2024.06MASt3R· ECCV 2024 Oral

2024.08Splatt3R· arXiv

2024.08Spann3R· 3DV 2025

2024.10Long-LRM· arXiv (Adobe)

2024.10DepthSplat· CVPR 2025

2024.10NoPoSplat· ICLR 2025 Oral

2024.10MonST3R· ICLR 2025 Spotlight

2024.10PF3plat· ICML 2025

2024.11MVSplat360· NeurIPS 2024

2024.12MV-DUSt3R+· CVPR 2025 Oral

2024.12Wonderland· CVPR 2025

2025.01CUT3R· CVPR 2025 Oral

2025.01Fast3R· CVPR 2025

2025.02FLARE· CVPR 2025

2025.03VGGT· CVPR 2025 BEST PAPER

2025.03Aether· ICCV 2025 Outstanding RIWM

2025.05AnySplat· SIGGRAPH Asia 2025

2025.05VGGT-SLAM· arXiv

2025.07StreamVGGT· ICLR 2026

2025.07π³ (Pi-Cubed)· ICLR 2026

2025.07VGGT-Long· arXiv

2025.09VolSplat· arXiv

2025.09VGGT-X· arXiv (1000+ images)

2025.10VGD (Driving)· arXiv

2025.12FlashVGGT· arXiv

2026.02XStreamVGGT· arXiv

2026.04GlobalSplat· arXiv

§3家族树 · 谁是谁的爹

这棵树是后面所有章节的"地图"。两条主线最初互不相干：左边是渲染派（从 pixelSplat 一路走过来的 feedforward 3DGS），右边是几何派（DUSt3R 开创的 pointmap）。它们在 2025 年的 VGGT/AnySplat 处合流。

两条主线在 VGGT 处合流；2025 年下半年的所有 feedforward GS 工作都建立在 VGGT 风格 backbone 之上。

§4第 1 章 · 开山之作 — "Gaussian 是像素的伪装"

2023 年 12 月，仅仅在 3DGS 发表 4 个月后，整整四组人在 16 天内同时把同一个 idea 投上了 arXiv：用 2D 神经网络一次预测出一组 3D Gaussians。

这一章的所有论文都共享同一个核心 trick——per-pixel Gaussian 预测。把输入图像送进一个 U-Net 或 Transformer，让网络对每个输入像素预测出一个 3D Gaussian 的全部参数（位置、协方差、不透明度、颜色）。直观地说：

想象一张 $256 \times 256$ 的图，本来每个像素只有 RGB 三个数；现在让网络在每个像素位置吐出 14 个数（3 位置 + 4 四元数 + 3 scale + 1 透明度 + 3 颜色）。这张"超级图"里每个像素都对应空间中一个 3D Gaussian。因此 Splatter Image 起了一个绝妙的名字——这就是一张溅射图。

这个观察非常有力，因为它让所有 2D 视觉的工具（U-Net、Swin Transformer、cost volume）都能直接拿来做 3D 重建——只需要换个输出头。下面的所有工作都是这个范式的变奏。

Splatter Image— "3D Gaussians 就是 U-Net 的像素"

CVPR 2024 Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi · Oxford VGG · arXiv:2312.13150

用一个普通的 2D U-Net 一次性预测每个像素对应的 3D Gaussian——单图秒级 3D 重建。

输入

1 张物体图像 (可扩展到多图，加 cross-view attention)

输出

每像素一个 3D Gaussian，组成物体的 3D 表示

架构

就是个 2D U-Net，输出通道从 3 变成 14（一个 Gaussian 全部参数）。完全没有 3D 模块。

关键 trick

把背面（看不见的部分）"借"给前景或背景的像素来表示——一个像素可以代表一个"漂在场景前面"或"远处"的 Gaussian。换句话说，U-Net 学会了用某些像素"代表"它看不到的几何。

速度

38 FPS 重建，588 FPS 渲染（$128 \times 128$）

局限

SH 仅到 L=1（视角依赖弱）；分辨率受限；遮挡区域的"借位"策略容量有限。

看清这一个 idea，后面 30 篇论文就理解了一半："Gaussian 本质就是一张 14 通道的图，2D 神经网络是天然的预测器。"

pixelSplat— "epipolar transformer + 概率深度"

CVPR 2024 Best Paper HM David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann · MIT · arXiv:2312.12337

两张已知位姿的图，通过 epipolar attention 加可微"深度抽样"，一次前向预测整个场景的 Gaussian 场。

输入

2 张已知位姿的场景图像（房间、户外等）

输出

两张图各自的 per-pixel Gaussian，叠在一起就是场景

关键 trick 1

Epipolar Transformer。对图 A 的每个像素，找出它在图 B 中的对极线，沿这条线采样若干个点，让这些点的特征 cross-attend 到图 A 的当前像素。这把传统几何（对极几何）直接嵌进了 attention 里。

关键 trick 2

概率深度抽样。直接回归一个深度值，梯度很容易陷入局部极小（深度跳过遮挡边界时不可导）。pixelSplat 改成预测深度分布，从分布里抽样 Gaussian 的中心位置（用 reparameterization trick 让梯度可流），优雅地绕开了这个坑。

局限

反光物体被预测成透明；从奇怪角度看 Gaussian 像广告牌；两个视图的 Gaussian 简单叠加，没去重。

pixelSplat 把 feedforward GS 从"物体"推到"真实场景"，是 CVPR 2024 Best Paper Honorable Mention，也是接下来一年所有场景级 feedforward GS 工作的参照基准。

MVSplat— "经典 MVS 的 cost volume 完美移植"

ECCV 2024 Yuedong Chen, Haofei Xu, Chuanxia Zheng, et al. · arXiv:2403.14627

与其用 pixelSplat 的概率深度，不如直接搭一个 plane-sweep cost volume——经典 MVS 的几何先验恰好就是 feedforward GS 缺的那块。

输入

2–3 张已知位姿的稀疏图像

输出

per-pixel Gaussians，仅用光度损失训练（无需 GT 深度）

架构

ResNet + Swin Transformer 提特征 → plane-sweep cost volume (经典 MVSNet 那一套) → U-Net 精修深度 → 每像素 Gaussian 头

为什么 cost volume 重要

cost volume 就是把"假设深度 $= d$，两图特征匹配得多好"这件事算 $N$ 次（$N$ 个深度候选），变成一个 $(H, W, N)$ 的张量。这是 20 年来 MVS 的看家本领，把"对极几何 + 多视图一致性"显式写进了网络结构里。

效果

参数量是 pixelSplat 的 1/10，速度快 2×，PSNR 还更高。

局限

反光面（玻璃）依然失效；仅 RealEstate10K 上训练，泛化弱。

MVSplat 是"经典几何 + 现代 feedforward"的教科书例子：当你有一个被验证了 20 年的几何 inductive bias，硬塞进网络里通常打败"全靠 attention 学"的方案。

GPS-Gaussian— "人体专用：2K 实时新视角合成"

CVPR 2024 Highlight Shunyuan Zheng, Boyao Zhou, Ruizhi Shao, et al. · HIT + 清华 · arXiv:2312.02155

围着人转一圈的相机阵列里，对每个目标视角挑最近的两台相机做学习型双目立体匹配，把 2D Gaussian 参数图反投影到 3D——人体新视角实时 2K 渲染。

输入

围绕人体的稀疏多相机阵列（典型 ~8 台），每次用最近两台做 stereo pair

输出

2K 分辨率新视角，实时

架构

两路并行的 2D 头：(1) 参数图头预测 Gaussian 属性；(2) RAFT-Stereo 风格的迭代深度估计器。两路结果反投影到 3D 拼成 Gaussian 集合。

局限

需要前景抠图（不能直接拍现实环境）；训练需要 GT 深度（数据获取贵）；只针对人体；少于 ~8 台相机就糊。

GPS-Gaussian 是"领域专用先验"的最佳样本——当你把任务限定到人体，可以用经典双目立体匹配 + 一个学习头，做到 general 模型几年都达不到的 2K 实时。

TriplaneGaussian— "triplane × Gaussian 的杂交"

CVPR 2024 Zi-Xin Zou, et al. · 清华 + VAST · arXiv:2312.09147

单图 → 先用 transformer 解出点云（Gaussian 中心），再用另一个 transformer 解出 triplane 特征体，每个点在 triplane 里查询自己的其他属性。

为什么混合

直接回归所有 Gaussian 属性的网络容易学崩（位置和颜色尺度差太多）。TriplaneGaussian 把"位置"做显式预测（点解码器），把"颜色/形状"做隐式查询（triplane 解码器）。

历史地位

与 LRM (NeRF + triplane) 一脉相承，是 triplane 这个表示首次嫁接到 GS 上的工作。后被 LGM / GRM / GS-LRM 用更纯粹的方案超越。

如果你想理解为什么 2024 后期开始出现 "LRM 风格"的 feedforward GS（如 GS-LRM、GRM），TriplaneGaussian 是中间过渡——它把 NeRF-LRM 的 triplane idea 第一次掰到了 GS 这边。

AGG— "摊销式生成单图 3D"

TMLR 2024 Dejia Xu, et al. · UT Austin + NVIDIA · arXiv:2401.04099

把 DreamFusion 那种 per-instance score-distillation 优化"摊销"到一个 feedforward 网络里——单图直接出 Gaussian。

关键设计

把 "Gaussian 在哪 (位置)" 和 "Gaussian 长什么样 (属性)" 拆成两个子任务联合训。Coarse-to-fine 级联结构，最后用一个 "Gaussian 超分模块" 上采样。

历史地位

DreamFusion / DreamGaussian 是 per-instance 优化（每生成一个物体要等几分钟），AGG 把它变成一次前向。是从"优化式生成"过渡到"摊销式生成"的桥梁。

AGG 现在已被 LGM、GRM 等后辈大幅超越，但它是 2024 年 1 月的标志性早期工作，是 single-image-to-3D 的"摊销化拐点"。

§5第 2 章 · 用 Transformer 把 LRM 套到 Gaussian 上

2023 年 NeRF 一侧已经诞生了 LRM (Large Reconstruction Model) — 用 GPT 一样大的 Transformer 把"多视图 → 3D"摊成一次前向。2024 年春，三组人几乎同时把这个 recipe 移植到 Gaussian Splatting 上：多视图 → 大 Transformer → 一堆 Gaussian。

这一章和第 1 章的区别：第 1 章是"U-Net + 几何先验" (cost volume / epipolar)，第 2 章是"纯 Transformer + 大数据"。这场对决是"bitter lesson"的一次小型重演——纯 transformer 最终赢了，但赢得不那么干净，因为它需要海量已知位姿的数据。

另一个关键背景：多视图 diffusion model (MVDream、ImageDream、SV3D) 在 2024 年初成熟，能从一张图或一段文字生成几张视角一致的图像。这给了 feedforward GS 一个完美的上游——"我幻想出 4 张视角，再把它们一次性变成 3D"。这就是 LGM、GRM 这一类"文本/单图 → 3D 生成"的标准 pipeline。

LGM— "非对称 U-Net 横扫 2024 3D 生成"

ECCV 2024 Oral Jiaxiang Tang, Zhaoxi Chen, et al. · 北大 + NTU S-Lab · arXiv:2402.05054

用多视图 diffusion 幻想出 4 张正交视图 → 一个非对称 U-Net 读 4 张图 → 输出 65,536 个 Gaussian，5 秒搞定 $512^2$ 渲染。

输入

文本 (经 MVDream) 或单图 (经 ImageDream) → 4 张 $256^2$ 多视图图像 (方位角 0/90/180/270)

输出

~65K Gaussians 的物体资产，$512^2$ 渲染。也支持转 Mesh。

架构关键

非对称 U-Net：6 个下采样、5 个上采样，输入 $256^2$ 但输出 Gaussian 图 $128^2$。每个 down/up block 里有 cross-view self-attention（4 张图的 token 拼起来一起算）。输入还拼了 Plücker 射线，这样 U-Net "知道每个像素对应的射线方向"。

数据 trick

训练时给输入图加 grid distortion + orbital camera jitter，模拟 diffusion 给出的视图不完全 3D 一致的真实情况——这是从 Objaverse 渲染图迁移到 diffusion 输出的关键。

局限

上游 diffusion 不 3D 一致 → floater；4 张 $256^2$ 图限制了细节；细长结构（椅子腿）失败。

LGM 证明 "多视图 diffusion 想象 + feedforward GS 融合" 是 2024 年最强的 3D 生成范式。这个两段式 pipeline 后来被广泛模仿。

GRM— "纯 Transformer + 窗口注意力 upsampler"

ECCV 2024 Yinghao Xu, et al. · Stanford + HKUST · arXiv:2403.14621

LGM 的双胞胎，但把 U-Net 全部换成 Transformer——包括上采样模块，最终 0.1 秒出 Gaussian。

输入/输出

4 张已知位姿视图 → per-pixel Gaussian (物体)

独门绝活

Transformer Upsampler。一般人用 CNN 或 PixelShuffle 上采样，GRM 用窗口自注意力 (Swin 风格) + PixelShuffle，整个网络"transformer all the way down"，包括 upsampler。

速度

0.1 秒重建；接上多视图 diffusion (Instant3D/SV3D) 后端到端 8 秒以内出 3D。

和 LGM 是同期的"transformer 双子星"。LGM 押注 U-Net，GRM 押注 transformer。结论：在物体级、4 视图、Objaverse 数据规模下，两者打平，transformer 拓展性更好。

GS-LRM— "bitter lesson：堆 Transformer 就行了"

ECCV 2024 Kai Zhang, Sai Bi, Hao Tan, et al. · Adobe + Cornell · arXiv:2404.19702

把图片 patchify 成 token，全部丢进一个朴素 transformer 栈，最后线性 decode 出 per-pixel Gaussian——物体和场景都能做，0.23 秒。

输入

2–4 张已知位姿图像 (~$512 \times 900$)

输出

per-pixel Gaussian，物体或场景

架构

朴素得令人困惑：每张图 patchify → 所有视图 token 拼起来 → 多层标准 Transformer block（带 Plücker 射线 embedding）→ 线性头解码 Gaussian。没有 cost volume，没有 epipolar attention，没有 U-Net。FlashAttention-2 + 梯度 checkpointing 让它能扩展。

局限

需要已知相机参数（同期 pose-free 的 NoPoSplat 还没出）；分辨率上限 ~$512 \times 900$；遮挡区域无想象能力。

GS-LRM 是 feedforward GS 版的 "bitter lesson"——堆参数、堆数据、简单架构，照样打败精心设计的几何 prior。这是后来 Long-LRM、VGGT 走"巨型 transformer"路线的精神源头。

§6第 3 章 · 把相机参数甩进垃圾桶

前两章所有方法都默认相机内外参已知——这是 NeRF 时代的标准假设。但 COLMAP 跑一遍要几十分钟到几小时，且容易失败。2023 年 12 月，DUSt3R 横空出世，提出"能不能不算相机？"——这一脚踢开的门，是后面 VGGT 时代的真正入口。

3.1　DUSt3R 的核心：pointmap

这是整个 2024 下半年 + 2025 年 feedforward 3D 的最重要一个概念。先把它讲透，后面一切都顺。

传统 SfM/MVS 的步骤：

对每张图提特征点 (SIFT/SuperPoint)
跨图匹配 → 得到对应关系
RANSAC 估相机外参（哪台相机站在哪、朝哪）
三角化对应点 → 稀疏 3D 点云
稠密化 (MVS) → 稠密 3D

整条链上每一步都可能崩——纹理不足时特征匹配挂，相机姿态估错就一切完蛋。

DUSt3R 的做法是跳过 1-4 步，直接训一个网络让它对每个像素回归一个 3D 坐标。这张 $(H, W, 3)$ 的图就叫 pointmap。

也在 A 的坐标系

DUSt3R 的核心输出：两张 pointmap，都表示在第一张图的相机坐标系下。相机参数？不需要——网络已经把整个几何拼好了。

关键魔法在于两张 pointmap 都表示在第一张图的相机坐标系里。这意味着：

不需要单独估相机外参——它已经"隐含"在两张 pointmap 的对齐里；
不需要特征匹配——网络通过 cross-attention 学会了隐式对应；
相机内参也不需要给——网络在数百万对图像上见过太多内参分布，自己有先验；
需要时，从 pointmap 反推回内外参就是个小型优化问题。

传统 SfM 像考古学家：先量出每根柱子的位置，再推断房子怎么搭。DUSt3R 像直接拿一支"3D 描线笔"在图上点 3D 点——它已经在 100 万个房子上练过手，知道"看起来像房间的图"对应的几何长什么样。

DUSt3R 的具体架构后来被几乎所有 pose-free GS 工作继承：

双塔 Siamese ViT 编码器（权重共享，从 CroCo Cross-View Completion 预训练初始化）；
两个解码器，互相 cross-attend 对方的特征；
DPT 风格的 dense regression head 输出 pointmap。

下面看几个把 DUSt3R 改造成"输出 Gaussian"的工作。

DUSt3R— "几何 3D 视觉变简单了"

CVPR 2024 Shuzhe Wang, Vincent Leroy, Yohann Cabon, et al. · Naver · arXiv:2312.14132

从两张未标定图像直接回归 pointmap，绕开所有传统 SfM 步骤——这是 2024-2026 整个 feedforward 3D 浪潮的鼻祖。

输入

2 张图。什么都不知道——没有相机参数。

输出

两张 pointmap + 每像素 confidence。多视图时需要后处理 global alignment。

局限

每次只吃两张图；多于 2 张要 pairwise + global alignment，慢且累积误差；反光面、无纹理面表现差。

如果你在 2024 后只读一篇论文了解 3D 视觉的范式转移，就读 DUSt3R。VGGT、StreamVGGT、AnySplat 全都是它的后裔。

MASt3R— "DUSt3R + 匹配头"

ECCV 2024 Oral Vincent Leroy, Yohann Cabon, Jerome Revaud · Naver · arXiv:2406.09756

在 DUSt3R 上加一个 dense 特征匹配头——同一个网络同时做 3D 重建和像素匹配。

为什么重要

"匹配"现在不再是 2D 问题，而是 3D 问题——两个像素是否对应，取决于它们的 3D 点是否重合。换框架后，极大视角变化下的匹配鲁棒性大幅提升 (+30% AUC on Map-free localization)。

下游

Splatt3R 选择基于 MASt3R 而非 DUSt3R 构建，正是因为这个 dense 特征头能给 Gaussian-prediction 头更干净的输入。

MASt3R = "DUSt3R 但匹配更好"。它和 DUSt3R 几乎可以一起当作"地基"。

Splatt3R— "冻住 MASt3R，只学一个 Gaussian 头"

arXiv 2024.08 Brandon Smart, Chuanxia Zheng, Iro Laina, Victor Prisacariu · Oxford · arXiv:2408.13912

把 MASt3R 当 3D 估计器冻起来，只训一个轻量头预测每像素 Gaussian 属性——零样本 pose-free Gaussian Splatting。

输入

2 张未标定图。无内参、无外参、无深度。

架构

MASt3R 主干冻结，外加一个新的 Gaussian 头预测每像素的协方差（四元数 + scale）、SH 系数、不透明度、以及一个 mean-offset（让 Gaussian 中心可以略微偏离 MASt3R 预测的 3D 点）。

训练 trick

两阶段训练：先训几何损失，再训新视角合成损失，避免直接训 Gaussian 陷入局部极小。对外推视角 mask 损失，避免拉伸。

速度

~4 FPS 重建 ($512^2$)，实时渲染。

Splatt3R 是最简洁的 pose-free GS 演示——"懂 DUSt3R 你就懂 Splatt3R"。它把"加一个 Gaussian 头"这件事做到了字面意义。

NoPoSplat— "出乎意料地简单的 pose-free GS"

ICLR 2025 Oral Botao Ye, Sifei Liu, Haofei Xu, et al. · ETH + NVIDIA · arXiv:2410.24207

直接预测所有视图的 Gaussian 到同一个规范坐标系（第一张图的相机坐标系）里——一次前向，纯光度训练，无需任何几何监督。

输入

2 张未标定 (稀疏) 图。但是要求已知内参（intrinsics 被 token 化进 transformer），位姿不要求。

输出

所有 Gaussian 都在第一视图坐标系里。如果需要位姿，事后做 PnP 即可。

架构

MASt3R 初始化的双塔 ViT + 两个 DPT 风格头（一个预测 Gaussian 中心 = pointmap，另一个预测其余属性，第二个还吃原始 RGB 作为额外输入）。

关键洞察

"把所有 Gaussian 锚到一个 reference frame" 直接消灭了 "per-view 预测 + 后期对齐" 这条路里所有的累积误差。论文标题就是 punchline：No Pose, No Problem。

局限

仍要内参；无生成先验，遮挡区域细节差；主要在 RealEstate10K/ACID/DL3DV 训练。

NoPoSplat 是 pose-free feedforward GS 路线的代表作。读完 DUSt3R 接读它，你会发现 idea 几乎是必然的——但把所有 Gaussian 锚到一个坐标系这一招是其他人没明确做到的。

PF3plat— "另一条路：mono-depth + matching 代替 DUSt3R"

ICML 2025 Sunghwan Hong, Jaewoo Jung, et al. · KAIST · arXiv:2410.22128

不走 DUSt3R 路线——用预训练的单目深度 (UniDepth v2) + 匹配 (LightGlue) 给出初始粗对齐，再用轻量模块细化深度和姿态，纯前向。

血统

基于 pixelSplat / MVSplat 一系（"per-pixel Gaussian"派），而非 DUSt3R 派。

核心洞察

pixelSplat 在无位姿时崩，原因是错位的 Gaussian 梯度会让训练发散。PF3plat 加了 confidence-weighted Gaussian 预测，让低置信度区域不参与训练。

PF3plat 是 pose-free GS 的"第二条路"——告诉你这一目标不必须靠 DUSt3R 实现，单目深度 + 匹配也可以。两条路在 2025 年之后逐步收敛到 VGGT。

SelfSplat— "什么先验都不要"

arXiv 2024.11 Gyeongjin Kang, et al. · arXiv:2411.17190

既不用相机参数，也不用 DUSt3R 等 3D 基础模型——纯端到端自监督学习深度 + 姿态 + Gaussian。

为什么重要

SelfSplat 是 pose-free GS 路线的反例——它证明不需要 DUSt3R/MASt3R 这种几何 foundation model 也能做 pose-free。基础模型只是充分条件，不是必要条件。

值得作为"反向参照"知道。它的存在让我们清楚看到：DUSt3R 提供的几何先验是有帮助但不是必需的工程选择。

InstantSplat— "⚠ 注意：这是混合方法，不是纯 feedforward"

arXiv 2024.03 · 混合 Zhiwen Fan, et al. · NVIDIA + UT Austin · arXiv:2403.20309

用 MASt3R 初始化 Gaussian 与位姿，再跑一个非常快的联合优化——本质是"COLMAP 被换成了基础模型"的快速 3DGS pipeline。

为什么单列出来

很多博客把 InstantSplat 和 NoPoSplat/Splatt3R 并列为 "pose-free feedforward GS"，这是错误的。InstantSplat 在推断时仍然要做优化（几秒到 1 分钟），它只是把 COLMAP 那步换掉了，不是把整个优化换成一次前向。

价值

在实际工程上是目前 pose-free 3DGS 最好用的 baseline 之一（30× 快于 COLMAP+3DGS）。但它不属于"feedforward 流派"。

教训："用了 foundation model" ≠ "是 feedforward 方法"。InstantSplat 是这条边界上的典型反例。

§7第 4 章 · 从两张图到一整间房

第 1-3 章的方法基本只能吃 2-4 张图，且场景不大。要把整个房间或整个 360° 户外塞进 feedforward 网络，需要解决三个新问题：(1) 视图多了，重复 Gaussian 怎么处理；(2) 视图基线宽了，epipolar attention 失效；(3) 看不到的区域，怎么"想象"。这一章三条主线各破一题。

latentSplat— "变分 Gaussian + VAE 解码器"

ECCV 2024 Christopher Wewer, Kevin Raj, Eddy Ilg, et al. · arXiv:2403.16292

Gaussian 不直接装 RGB，而是装一个学到的latent 向量；先把它们 splat 成 feature map，再用一个轻量 VAE 解码器把 feature map 变成图像。

为什么

纯回归方法（pixelSplat）的遮挡区域只能糊；纯生成方法（GeNVS）慢且视角不一致。latentSplat 让 Gaussian 携带"带不确定性"的 latent，VAE 在解码时填补合理的细节，同时光度训练保证视角一致。

规模

2 张图，CO3Dv2 物体 / RealEstate10K 房间，~83ms，~2000× 快于 GeNVS。

"splat features, decode with 2D net" 这个范式将在 MVSplat360 (用 SVD) 等后续工作里反复出现。latentSplat 是最简的样板。

HiSplat— "层级化 Gaussian：先粗后细"

ICLR 2025 Open3DVLab · arXiv:2410.06245

用粗 Gaussian 表达大结构、细 Gaussian 表达纹理细节——层级化预测。

为什么

单尺度 per-pixel Gaussian 在大结构 (墙) 和纹理细节 (画框) 上无法两全。

"多尺度 Gaussian" 这个 idea 后面在 Long-LRM 的 token merge 等地方反复出现。HiSplat 是最易读的版本。

FreeSplat— "室内长序列 + Pixel-wise Triplet Fusion"

NeurIPS 2024 Yunsong Wang, Tianxin Huang, Hanlin Chen, Gim Hee Lee · NUS · arXiv:2405.17958

轻量 CNN backbone + 邻近视图的 adaptive cost volume + Pixel-wise Triplet Fusion (PTF) 显式合并重叠 Gaussian——一次前向吃 10+ 张视图，Gaussian 减少 ~55%。

关键贡献

PTF：跨视图三元组比对 per-pixel Gaussian，如果两个像素映射到几乎同一 3D 点，就合并它们。这是第一个在 feedforward GS 里显式"去重"的模块。

规模

2-10+ 视图 (室内房间)，10 视图推断 ~0.6s，72 FPS 渲染。

局限

>50 张图时 GPU 显存 >40GB；无纹理 / 反光区域深度估计差。

FreeSplat 是 feedforward GS 离开"两张图立体" → "长序列房间扫描"的分水岭。PTF 这种"显式合并 Gaussian"的思路在后面 FreeSplat++ 和 Long-LRM 里继承下来。

eFreeSplat— "丢掉 epipolar attention"

NeurIPS 2024 Min et al. · arXiv:2410.22817

基线越宽，epipolar 区域越窄，注意力越退化——干脆全用 CroCo 风格的 cross-view completion 预训练 ViT 做全图匹配。

为什么重要

pixelSplat / MVSplat 的 epipolar attention 在宽基线下失效（极线穿过的大部分像素都不重叠）。eFreeSplat 用学到的跨视先验代替了几何先验。

想引用一篇"为什么 attention > epipolar"的代表作，就是 eFreeSplat。它的精神后来被 VGGT 全面继承。

Long-LRM— "Mamba + Transformer 混合：32 视图 ~1 秒"

arXiv 2024.10 Chen Ziwen, Hao Tan, et al. · Adobe Research · arXiv:2410.12781

把 GS-LRM 的纯 transformer 换成 7 个 Mamba2 块 + 1 个 transformer 块的混合结构——线性注意力让 32 视图 250K token 在一张 A100 上 ~1 秒搞定。

输入/输出

32 张 $960 \times 540$ → ~250K tokens → ~1s 出 Gaussian。比 GS-LRM 多吃 60× 视图。

规模 trick

Mamba2 是线性复杂度（$O(N)$ 而非 transformer 的 $O(N^2)$），让长序列 tractable；中间一层做token merging 砍半序列；训练和推理都做 Gaussian opacity pruning。

局限

>32 视图收益骤减；FOV 差异大时表现不稳。

Long-LRM 是把 LLM 里"长上下文 Mamba/Transformer 混合"的设计第一次移植到 3D 视觉的代表作。它和 VGGT 是两条不同的"扩展性"路线。

MVSplat360— "Gaussian 输出 latent → SVD 去噪成图"

NeurIPS 2024 Chen et al. · arXiv:2411.04924

5 张稀疏视图覆盖 360° → MVSplat 给出 Gaussians → 把它们 splat 到 Stable Video Diffusion 的 latent 空间 → SVD 去噪出光照真实的 360° 视频。

为什么

5 视图覆盖 360° 时基线极宽，纯回归出来一片糊。SVD 的视频先验填补空隙，让看不见的方向也"看起来合理"。

"几何来自 GS，外观来自视频 diffusion" 是 2024-2025 稀疏 360° 重建的主流配方。MVSplat360 是经典样本。

Splatter-360— "在球面上做 cost volume"

CVPR 2025 Chen et al. · arXiv:2412.06250

输入是全景图 (panorama) 不是普通视图——既然球面投影几何变了，cost volume 也要在球面上算。

关键设计

Spherical sweep + 兼容透视/等距柱状投影的双投影编码器。

每当输入模态变化（pano、鱼眼、激光雷达），cost volume 的几何也要变。Splatter-360 是最干净的"换坐标系"演示。

DepthSplat— "用 GS 当深度模型的预训练任务"

CVPR 2025 Haofei Xu, et al. · ETH + Tübingen · arXiv:2410.13862

深度估计和 GS 互为先验——预训练单目深度特征稳住多视图深度，GS 渲染损失反过来当作深度模型的无监督预训练目标。

规模

12 视图 $512 \times 960$ → 0.6 秒（A100），处于 MVSplat 显存爆掉的输入规模。

深刻

论文论证 GS 本身可以作为深度模型的预训练目标，相当于在 GS 渲染中拿到的损失能反传给深度网络。这是首次把 GS 当成"辅助任务"用。

DepthSplat 是 "单目深度 backbone (Depth Anything 等) + feedforward GS" 这一对的标准样本。后面 AnySplat 等会延续这种"嫁接预训练 backbone"的思路。

MV-DUSt3R+— "一步多视图 DUSt3R + GS 头"

CVPR 2025 Oral Zhenggang Tang, et al. · Meta Reality Labs + UIUC · arXiv:2412.06974

把 DUSt3R 的"两两 pointmap + global alignment"改成"一次吃所有视图"——再加 Gaussian 头做新视角合成，2 秒重建一间房。

输入/输出

12 视图房间 0.89s，20 视图多房间 1.54s，100 视图 19.1s。训练时用 8 视图，能泛化到 100 视图。

关键创新

多视图 decoder 块（每个视图 attend 其它所有视图，相对一个 reference）+ cross-reference-view 块（融合不同 reference 选择下的结果）。后者修复了 DUSt3R 的"参考视图依赖"问题。

如果第 4 章你只读一篇，读这篇。它是 DUSt3R/MASt3R 派和 feedforward GS 派正式合流的代表作，也是后来 VGGT 的直接前驱。

FreeSplat++— "整间公寓 feedforward 重建"

arXiv 2025.03 Wang et al. · arXiv:2503.22986

FreeSplat 的升级：扩大 PTF 深度融合范围、加 Weighted Floater Removal、可选 per-scene 微调——把"长序列"推到"整间公寓 ScanNet 场景"。

规模

2-3 视图 ~0.1s；整个 ScanNet 场景 ~21s, ScanNet++ ~42s；Gaussian 减少 ~75%。

"feedforward 但跑整间房"这条线 2025 上半年的极限工作之一。

§8第 5 章 · VGGT 之路：一个 Transformer 输出一切

2024 年下半年开始，整个领域意识到：DUSt3R 的"pointmap + 一次前向"框架完全可以延伸——为什么只输出 pointmap？深度、相机参数、3D 点轨迹、Gaussian 都可以塞进同一个 transformer 的多个 head。这条"大一统"路线在 2025 年 3 月以 VGGT 拿下 CVPR Best Paper 达到顶峰。

Spann3R— "DUSt3R 加上外部空间记忆"

3DV 2025 Hengyi Wang, Lourdes Agapito · UCL · arXiv:2408.16061

给 DUSt3R 配一个"空间记忆"——网络看过的 3D 点都被存起来，新一帧的 pointmap 直接预测到全局坐标系，无需任何 alignment。

关键

DUSt3R 是 pairwise 的，$n$ 张图要 $O(n^2)$ 对 + 全局优化。Spann3R 用一个 memory bank 让新视图直接预测在累积的 global frame，线性扩展。

Spann3R 是 DUSt3R → VGGT 之间最关键的中间步骤。"用一个 state 累积多视图信息"这一思路被 CUT3R 和 StreamVGGT 继承到极致。

CUT3R— "持久 state 的连续 3D 感知"

CVPR 2025 Oral Qianqian Wang, et al. · UC Berkeley · arXiv:2501.12387

stateful 循环 transformer——每来一张新图，更新内部 state，吐出一个 metric-scale pointmap，可处理无序图集、视频、动态场景。

高级特性

可以"探测"未观察到的虚拟视角——state 里编码了场景先验。

CUT3R 比 Spann3R 更进一步：它的 state 编码了整体场景结构，不只是历史。这是把 LLM 的 "stateful transformer" 思想完整搬进 3D 视觉的工作。

Fast3R— "一次前向吃 1000+ 张图"

CVPR 2025 Jianing Yang, et al. · Meta + UMich · arXiv:2501.13928

朴素扩展：一个 transformer 同时吃 N 张图，输出所有 pointmap——训练时见 20 张，推断时能跑 1500 张。

关键 trick

Randomized positional index embeddings——训练时随机化视图序号编码，让模型在推断时不"过拟合"到序号 $N \leq 20$。这就是 "anti-extrapolation"。

数字

单 A100 上 1500 视图一次前向；CO3Dv2 上 99.7% rotation 误差 $< 15^\circ$；相机姿态精度比 DUSt3R+global alignment 提升 14×。

Fast3R 是 DUSt3R 之后真正把"多视图 = 一次前向"做大的工作。它的"randomized index"trick 是 VGGT 之前的关键工程突破。

MUSt3R— "对称化、多层 memory 的 DUSt3R"

CVPR 2025 Yohann Cabon, et al. · Naver (DUSt3R 原班人马) · arXiv:2503.01661

DUSt3R 原作者团队的多视图升级：架构对称化（不再有"reference frame"偏向）、多层 memory 让其扩展到大型图集。

这是 DUSt3R 团队自己的"VGGT 路线"。理论上和 Fast3R / VGGT 有竞争关系，但 VGGT 拿了 best paper。

MonST3R— "DUSt3R 但能吃动态场景"

ICLR 2025 Spotlight Junyi Zhang et al. · arXiv:2410.03825

在罕见的动态场景数据上微调 DUSt3R——每个时间步出一对 pointmap 和姿态，得到 feedforward 4D 重建。

把 DUSt3R 范式拓展到 4D 的早期工作。后面 Aether 等 world model 会进一步推进这条线。

SLAM3R— "feedforward SLAM"

CVPR 2025 Highlight Liu et al. · arXiv:2412.09401

两阶段 feedforward SLAM：滑窗局部 pointmap → 渐进配准到全局一致地图，20+ FPS，无显式位姿优化。

DUSt3R-style 走向 SLAM 的代表作。让你看到这条范式可以一直延伸到机器人定位的实时场景。

VGGT　★— CVPR 2025 BEST PAPER · "一个 transformer 输出一切 3D"

CVPR 2025 BEST Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny · Meta + Oxford VGG · arXiv:2503.11651

一个 feedforward transformer，吃 1 到上百张未标定图，一次前向同时输出：相机内外参、每像素深度、全局 3D pointmap、3D 点轨迹——亚秒级。

为什么是历史性

在 VGGT 之前，做 3D 视觉永远是 SfM → MVS → 重建 → 估深度 → 跟踪 — 一长串顺序 pipeline。VGGT 把这条 pipeline 完全压成一个 transformer 的多个 head。It is the GPT-moment of 3D vision.

架构

1. DINO 把每张图 patchify 成 token；

2. 每帧额外配 1 个 camera token + 4 个 register token；

3. 关键：attention 层严格交替—— (a) frame-wise 自注意力 (一张图内部) (b) global 自注意力 (跨所有视图)；

4. 不同 head: camera head 从 camera token 出内外参; DPT head 从图像 token 出 depth/pointmap/track。

规模

单卡可处理几十到上百张图；亚秒级；在多个 3D 任务上同时 SOTA（pose estimation、depth、point cloud、tracking）。

局限

global attention 内存随视图数平方增长 → 长序列爆显存（→ VGGT-Long、VGGT-X 补救）；offline / bidirectional → 不能流式（→ StreamVGGT 补救）；有"reference frame"偏向 → 不是 permutation-equivariant（→ π³ 补救）。

2025-2026 所有 feedforward 3D 工作的新地基。读了 VGGT，你就明白为什么后面 AnySplat、FLARE、VolSplat、VGD 都长一个样——它们都是 "VGGT backbone + 一个 GS 头"。

§9第 6 章 · VGGT 之后：补完最后两块缺口

VGGT 拿下 best paper 后，两个明显的缺口被立刻发现：(1) 它是 offline / bidirectional 的，每来一帧新图都得把所有图重新 attend 一遍——AR / 机器人 / SLAM 用不了。 (2) 它有 reference frame 偏向——把同一组图换个顺序输入，结果不一样。第 6 章是这两个问题的修补，也是 2025-2026 的最前沿。

StreamVGGT　★— "VGGT 的 causal 版本，像 LLM 一样流式"

ICLR 2026 Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu · 清华 · arXiv:2507.11539

把 VGGT 的 bidirectional transformer 蒸馏成一个 causal transformer，加 KV-cache——视频流逐帧到来，每帧低延迟出 3D。

"LLM 化"

完全照搬 LLM 的工程套件：因果注意力 + KV-cache + FlashAttention + 蒸馏自双向教师。

每帧输出

深度、pointmap、相机参数、3D 轨迹（和 VGGT 一致）。

局限

causal 学生略弱于双向老师；KV-cache 随时间无界增长（→ XStreamVGGT 修补）。

想象 VGGT 像 BERT，StreamVGGT 就是它的 GPT。这是 2026 年"实时 AR + 3D"研究的事实基准。

π³ (Pi-Cubed)　★— "VGGT 但是置换等变的"

ICLR 2026 Yifan Wang, Jianjun Zhou, Haoyi Zhu, et al. · 上海 AI Lab / Zhejiang · arXiv:2507.13347

破除"参考视图"——预测仿射不变相机姿态和尺度不变局部 pointmap，输入顺序怎么打乱，输出都一样。

为什么是大事

DUSt3R / MASt3R / VGGT / Fast3R 都需要"指定一张图作为 reference frame"，所有结果都表达在那个相机系里。这意味着：

1. 模型可以"作弊"——把第一张图过拟合；

2. 输入顺序敏感；

3. reference 选不好整体崩塌（MV-DUSt3R+ 的 cross-reference 是工程式补救，π³ 是架构式根除）。

数字

在 pose estimation、mono / video depth、dense pointmap 多个任务上 VGGT-class 或更高，且对输入顺序完全不敏感。

π³ 是 VGGT 在理论层面最干净的后续——它告诉你"reference frame"这个看似无害的工程选择实际上是不必要的，去掉它精度还更好。

VGGT-Long— "VGGT 跑公里级户外"

arXiv 2025.07 Deng et al. · arXiv:2507.16443

分块 + 闭环 + 漂移修正——让 VGGT 能跑到公里级路径，那些会让原始 VGGT / Fast3R / CUT3R OOM 的序列。

把 VGGT 用工程化方法"拉长"，是 2025 下半年 VGGT 应用化的关键。

VGGT-SLAM— "在 SL(4) 流形上拼 submaps"

arXiv 2025.05 Maggio et al. · arXiv:2505.12549

用 VGGT 在重叠 keyframe 窗口上算 submap，然后用 15-DOF 单应性 (SL(4) 流形) 把 submap 拼起来——因为未标定单目本质上有投影模糊。

让我们看到 VGGT 怎么从一个"重建模型"被改造成一个"SLAM 系统"。

VGGT-X— "VGGT 跑 1000+ 图 + 鲁棒 3DGS 训练"

arXiv 2025.09 Liu et al. · project

显存高效的 VGGT 扩展 + adaptive global alignment + 后端鲁棒 3DGS 训练 pipeline——突破 1000 图。

"VGGT 输出 + 后端 GS 优化"是当前最实用的 large-scale 重建栈。

FlashVGGT— "双线性压缩 + 块递归在线推理"

arXiv 2025.12 · arXiv:2512.01540

把每帧 token 用双线性插值压成一个小型 descriptor 集；global attention 变成 "全 token ↔ 小描述符集" 的 cross-attention；支持块递归式在线推理。

VGGT 工程化效率的一个新里程碑。

XStreamVGGT— "压缩 KV-cache 的 StreamVGGT"

arXiv 2026.02 · arXiv:2602.21780

StreamVGGT 的 KV-cache 随时间无界增长——XStreamVGGT 提出压缩策略，让真正长时间的视频流也能跑。

2026 早期工作。把"LLM 长上下文压缩"的研究（如 H2O、SnapKV 等）正式搬进 3D 流式。

§10第 7 章 · 把视频 diffusion 嫁接到 feedforward GS

看不到的地方怎么办？回归模型只能"糊一片"；生成模型 (video diffusion) 能"幻想合理细节"。2024 年末开始，一批工作探索：能不能让 GS 在 video diffusion 的 latent 空间里运作？

Wonderland— "单图 → 视频 latent → 3D"

CVPR 2025 Hanwen Liang, et al. · Snap + Toronto + UCLA · arXiv:2412.12091

先训一个相机可控的 video diffusion 把单图变成视角一致的视频 latent；再训一个 LRM 在这些 latent 上跑出 Gaussian。

深刻洞察

不是 "diffusion 出图 → LRM 看图"，而是 "diffusion 出 latent → LRM 看 latent"。这样既省带宽又自带视角一致性。

是"3D 重建可以发生在 diffusion 的 latent 空间里"的开山之作。

Aether— "几何 + 视频生成 + 视觉规划三合一"

ICCV 2025 Outstanding Haoyi Zhu, et al. · 上海 AI Lab / OpenRobotLab · arXiv:2503.18945

一个框架同时联合训练：4D 动态重建、动作条件视频预测、目标条件视觉规划。纯合成数据训练，零样本迁移到真实。

为什么相关

把 feedforward 3D（重建）与 world model（视频预测 + 规划）打通——3D 不再只是"重建"，而是"机器人决策的世界模型"的一部分。

这是 feedforward 3D 走向机器人 / 具身智能的代表作。它的精神继承者非常多。

→ MVSplat360（已在第 4 章介绍）也属于这一脉——Gaussian splat 到 SVD latent 空间再去噪。

§11第 8 章 · 当下的 feedforward 3DGS 长这样

VGGT 之后，feedforward 3DGS 的 SOTA 工作几乎全部长成同一个样子：VGGT (或类似的几何 foundation model) 作骨干，加一个轻量 GS 头预测 Gaussian 属性。第 8 章把这些"VGGT 时代"的 GS 工作列出来——它们也是你今天最值得用的工具。

FLARE— "用相机姿态当 bridge 的级联学习"

CVPR 2025 Shangzhan Zhang, Jianyuan Wang, et al. · Ant + Stanford + Oxford · arXiv:2502.12138

2-8 张未标定图 → 先估相机姿态 → 再以姿态为桥梁条件化几何 + 外观学习 → Gaussian。<0.5 秒。

关键

不像 NoPoSplat 把"无姿态"当一个非问题，而是把姿态作为显式中间产物。一个"neural scene projector"统一不同相机的局部 pointmap。

FLARE 是 pose-free GS 的"另一条路"——显式估计姿态再用，比 NoPoSplat 的隐式锚定更可解释。

AnySplat— "用 VGGT 当 backbone 的随手拍 3DGS"

SIGGRAPH Asia 2025 Lihan Jiang, Yucheng Mao, Linning Xu, et al. · 上海 AI Lab / CUHK / InternRobotics · arXiv:2505.23716

手机随手拍几张（不要求位姿、不要求数量），一次前向出整套 3D：Gaussian + 内参 + 外参。backbone 是预训练的 VGGT，外挂三个 head（Gaussian、深度、相机）。

为什么有意义

把 VGGT 的"通用几何"能力直接续上 GS。实现了 "snap photos → renderable 3D in seconds"——完全不要 COLMAP，也不要 per-scene 训练。

范式

这是 "VGGT-backbone era" feedforward GS 的典型样本。读完它你会感觉所有 2025 下半年的 GS 工作都是它的变奏。

当下 (2026 中) 最实用的 pose-free feedforward GS 之一。

VolSplat— "放弃像素对齐，改成体素对齐"

arXiv 2025.09 Wang et al. · arXiv:2509.19297

把"每像素一个 Gaussian"换成"每个 3D 体素预测出 Gaussian"——Gaussian 密度跟随 3D 场景复杂度，不再被像素密度绑架。

为什么

像素对齐的两大问题：(1) 被相机数量多的区域不公平地放更多 Gaussian；(2) 2D 特征匹配在遮挡 / 无纹理区域出错。体素对齐天然规避这两点。

VolSplat 是从根子上质疑 Splatter Image 以来 "像素对齐" 这一假设的工作——值得作为未来路线的种子。

VGD— "自动驾驶环视的 VGGT-distill GS"

arXiv 2025.10 · arXiv:2510.19578

把 VGGT 的几何 prior 蒸馏到一个轻量 feedforward GS 网络，用于自动驾驶的环视重建。

VGGT 太大，部署不动 → 蒸馏出领域专用小模型。这种"蒸馏式落地"是 VGGT 时代的标准操作。

LongSplat— "长视频 + 八叉树锚点 + 联合优化"

arXiv 2025.08 · arXiv:2508.14041

面向 casual 长视频的鲁棒 unposed 3DGS：渐进式联合优化位姿与 Gaussian，八叉树锚点。

提醒我们：feedforward 不是唯一答案；某些场景（很长的视频、缓慢的相机移动）"feedforward 初始化 + 联合优化"仍是更强的工程方案。

MoGe / MoGe-2— "单目几何 backbone — 经常被 GS 工作 import"

CVPR 2025 Oral / NeurIPS 2025 Ruicheng Wang, Sicheng Xu, et al. · Microsoft · MoGe · MoGe-2

单图 → affine-invariant pointmap (MoGe) 或 metric-scale pointmap (MoGe-2)。新型对齐 solver 解决了之前单目几何模型的训练矛盾。

MoGe 系列虽然不直接出 Gaussian，但作为单目几何 backbone被大量 feedforward GS 工作集成 (PF3plat、AnySplat 的变体等)。和 DUSt3R/VGGT 形成"双轨预训练"格局。

GlobalSplat— "全局 scene token"

arXiv 2026.04 · arXiv:2604.15284

2026 新作。引入全局 scene token 让 feedforward GS 达到全局一致，2K-32K Gaussian + 极小磁盘占用。

展示 2026 趋势之一：把 "global scene token" 这样的 LLM-级别架构选择继续往 GS 上嫁接。

§12总结 · 2 年半，3 大趋势

把 40 篇论文按时间排好后，会浮现三条主轴。理解这三条，就抓住了 feedforward 3DGS 的全部精神。

趋势一：一次前向 → 输出一切

2023 年：一次前向出 Gaussian (Splatter Image)。
2024 年：一次前向出 Gaussian + pose（pose-free 系列）。
2025 年：一次前向出 Gaussian + pose + 深度 + 3D 轨迹 (VGGT)。
2026 年：流式一次前向出以上所有 (StreamVGGT) + 顺序不敏感 (π³)。

这条轴的本质是 3D 视觉 pipeline 的"端到端"压缩。每一年，能塞进一次前向的输出种类就多一种，能略掉的传统步骤就再少一个。

趋势二：online / streaming 化

DUSt3R (pairwise) → Spann3R (memory bank) → CUT3R (persistent state) → StreamVGGT (causal + KV-cache) → XStreamVGGT (compressed cache)。

这条轴在把 LLM 的研究工具一件件搬进 3D 视觉：因果注意力、KV-cache、FlashAttention、知识蒸馏、长上下文压缩。它告诉我们 3D 视觉的研究方法在 2025-2026 越来越像 NLP。

趋势三：每一代都去掉一个约束

3DGS 原始版要：(a) 已知位姿, (b) 密集视图, (c) per-scene 优化, (d) 单场景训。
每一篇主要工作都对应去掉某个约束：

去掉 per-scene 优化：Splatter Image / pixelSplat / MVSplat (2023-2024)
去掉密集视图：稀疏视图工作 (一系列)
去掉位姿：DUSt3R / NoPoSplat / PF3plat / SelfSplat (2024)
去掉 pairwise 限制：Fast3R / VGGT / MV-DUSt3R+ (2025)
去掉 reference frame 偏向：π³ (2025-2026)
去掉 offline 假设：StreamVGGT (2026)
去掉显存 bound：VGGT-Long / VGGT-X / FlashVGGT (2025-2026)
去掉像素对齐假设：VolSplat (2025)

收束

现在所有问题都还没真正解决——但这场两年半的"去约束"接力，把 3D 重建从"一个昂贵的优化问题"变成了"一个普通的神经网络问题"。这是 feedforward 3DGS 浪潮最核心的遗产。

§13附录 · 术语表

下面只列出本综述中频繁出现、且需要解释的术语。

3D Gaussian / Splat: 3D 空间中的一个椭球体，带位置 $\mu$、协方差 $\Sigma$、不透明度 $\alpha$、(基于球谐函数的) 颜色 $c$。3DGS 场景就是几万到几百万个这样的椭球。
Splatting: 把 3D Gaussian 投影到 2D 屏幕、按深度 alpha-合成的渲染操作。在 3DGS 里通过 tile-based 可微分光栅化器实现，比 NeRF 的 ray marching 快几个数量级。
Per-scene optimization: 原始 3DGS / NeRF 的训练方式：给定一组图，迭代更新一个场景的参数，单场景训完即弃。Feedforward 方法是它的对立面——预训练一个网络后所有新场景一次前向搞定。
Feedforward: 在本综述里特指：神经网络看几张图，一次前向出整套 3D 表示（Gaussian、pointmap、depth 等），不再 per-scene 迭代。
Per-pixel Gaussian: 每个输入像素对应一个 3D Gaussian——Splatter Image / pixelSplat / MVSplat 这一派的核心 trick。代价是 Gaussian 数随像素数固定，远端无法多放。
Pointmap: DUSt3R 引入的表示：每个输入像素直接对应一个 3D 坐标 $(x, y, z)$。等价于"稠密 + 像素对齐的 3D 点云"。
Epipolar geometry / Epipolar transformer: 对极几何：图 A 中一个像素对应的 3D 点必落在图 B 中一条"对极线"上。Epipolar transformer 把这一几何约束写进 attention（cross-attend 只看对极线附近的像素）。pixelSplat、MVSplat 用了它。基线变宽后失效。
Plane-sweep cost volume: 经典 MVS 技术：把"假设深度 $= d_i$"作为多个平面，每个平面上计算两图特征的匹配代价，得到 $(H, W, N)$ 的张量。MVSplat 把它移植到 GS 里。
LRM (Large Reconstruction Model): "用大 transformer + 海量数据做 3D 重建"的统称。最早是 triplane-NeRF (Hong et al.)，后来 GS-LRM、GRM、Long-LRM 等把它移植到 GS 上。
CroCo (Cross-view Completion): 一种跨视图自监督预训练：让模型看图 A 的一部分 + 整张图 B，去补全图 A 的剩下部分。DUSt3R / MASt3R / NoPoSplat / VGGT 的 backbone 都受益于 CroCo 预训练。
DPT head: Dense Prediction Transformer 的输出头，把 transformer token 还原成 $(H, W, C)$ 的密集预测图（深度、pointmap 等）。DUSt3R 系列广泛使用。
Mamba / State Space Model: 线性复杂度 $O(N)$ 的序列模型，替代 transformer 的 $O(N^2)$ 注意力。Long-LRM 用 Mamba2 处理 250K 视觉 token。
KV-cache: LLM 推理优化：把过去 token 的 Key/Value 缓存下来，新 token 只算自己的 Q 去注意旧 KV。StreamVGGT 把它直接搬进 3D 视觉。
Permutation-equivariant: "输入顺序不改变结果"。π³ 的特点。对比之下 DUSt3R / VGGT 都对输入第一张图特殊处理（reference frame），不是 permutation-equivariant。
SH (Spherical Harmonics): 球谐函数，用一组系数表示"颜色随观察方向怎么变"。3DGS 默认每个 Gaussian 携带 0-3 阶 SH 来表达反射。
Plücker ray: 把"射线方向 + 起点"编码成 6 维向量的方法。LGM/GRM/GS-LRM 拼到输入 token 里，让网络"知道每个像素对应哪条射线"。

§14附录 · 三条不同强度的入门路线

路线 A · 仅一周 (12 篇必读)

覆盖整片森林的最小生成树。读完知道每一脉的代表。

3D Gaussian Splatting (Kerbl 2023) — 起点
Splatter Image — 最简 feedforward GS
pixelSplat — epipolar + 概率深度
MVSplat — cost volume 移植
LGM — multi-view diffusion + feedforward GS
GS-LRM — 纯 transformer LRM
DUSt3R — pointmap 革命
NoPoSplat — 干净 pose-free
MV-DUSt3R+ — 多视图 DUSt3R + GS
VGGT — Best Paper，新地基
StreamVGGT — 流式 VGGT
π³ — 置换等变 VGGT

路线 B · 两周 (+8 篇)

在 A 之上加进"每个 sub-trend 的代表"。

GPS-Gaussian — 领域专用 (人体) 的力量
FreeSplat — 长序列室内 + 显式去重
Long-LRM — Mamba/Transformer 混合
DepthSplat — 单目深度 backbone 嫁接
MVSplat360 — Gaussian + 视频 diffusion
CUT3R — persistent state
Fast3R — 1000+ 张图一次前向
AnySplat — VGGT 时代标准范式

路线 C · 一个月 (剩下的全部)

余下的论文按以下顺序阅读：

第 1 章剩余：TriplaneGaussian、AGG
第 2 章剩余：GRM
第 3 章剩余：MASt3R、Splatt3R、PF3plat、SelfSplat、InstantSplat (注意它是混合)
第 4 章剩余：latentSplat、HiSplat、eFreeSplat、Splatter-360、FreeSplat++
第 5 章剩余：Spann3R、MUSt3R、MonST3R、SLAM3R
第 6 章剩余：VGGT-Long、VGGT-SLAM、VGGT-X、FlashVGGT、XStreamVGGT
第 7 章：Wonderland、Aether
第 8 章剩余：FLARE、VolSplat、VGD、LongSplat、MoGe / MoGe-2、GlobalSplat

§15附录 · 完整论文列表

所有 arXiv 链接均已验证，按章节顺序排列。

第 0 章 (基础)

Kerbl et al. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH 2023. arXiv:2308.04079

第 1 章 (开山之作)

Szymanowicz et al. Splatter Image. CVPR 2024. arXiv:2312.13150
Charatan et al. pixelSplat. CVPR 2024 Best Paper HM. arXiv:2312.12337
Chen et al. MVSplat. ECCV 2024. arXiv:2403.14627
Zheng et al. GPS-Gaussian. CVPR 2024 Highlight. arXiv:2312.02155
Zou et al. Triplane Meets Gaussian Splatting. CVPR 2024. arXiv:2312.09147
Xu et al. AGG. TMLR 2024. arXiv:2401.04099

第 2 章 (LRM 化)

Tang et al. LGM. ECCV 2024 Oral. arXiv:2402.05054
Xu et al. GRM. ECCV 2024. arXiv:2403.14621
Zhang et al. GS-LRM. ECCV 2024. arXiv:2404.19702

第 3 章 (Pose-Free)

Wang et al. DUSt3R. CVPR 2024. arXiv:2312.14132
Leroy et al. MASt3R. ECCV 2024 Oral. arXiv:2406.09756
Smart et al. Splatt3R. arXiv 2024.08. arXiv:2408.13912
Ye et al. NoPoSplat. ICLR 2025 Oral. arXiv:2410.24207
Hong et al. PF3plat. ICML 2025. arXiv:2410.22128
Kang et al. SelfSplat. arXiv 2024.11. arXiv:2411.17190
Fan et al. InstantSplat. arXiv 2024.03. arXiv:2403.20309

第 4 章 (走向大场景)

Wewer et al. latentSplat. ECCV 2024. arXiv:2403.16292
Open3DVLab. HiSplat. ICLR 2025. arXiv:2410.06245
Wang et al. FreeSplat. NeurIPS 2024. arXiv:2405.17958
Min et al. eFreeSplat. NeurIPS 2024. arXiv:2410.22817
Ziwen et al. Long-LRM. arXiv 2024.10. arXiv:2410.12781
Chen et al. MVSplat360. NeurIPS 2024. arXiv:2411.04924
Chen et al. Splatter-360. CVPR 2025. arXiv:2412.06250
Xu et al. DepthSplat. CVPR 2025. arXiv:2410.13862
Tang et al. MV-DUSt3R+. CVPR 2025 Oral. arXiv:2412.06974
Wang et al. FreeSplat++. arXiv 2025.03. arXiv:2503.22986

第 5 章 (统一基础模型)

Wang & Agapito. Spann3R. 3DV 2025. arXiv:2408.16061
Wang et al. CUT3R. CVPR 2025 Oral. arXiv:2501.12387
Yang et al. Fast3R. CVPR 2025. arXiv:2501.13928
Cabon et al. MUSt3R. CVPR 2025. arXiv:2503.01661
Zhang et al. MonST3R. ICLR 2025 Spotlight. arXiv:2410.03825
Liu et al. SLAM3R. CVPR 2025 Highlight. arXiv:2412.09401
★ Wang et al. VGGT: Visual Geometry Grounded Transformer. CVPR 2025 Best Paper. arXiv:2503.11651

第 6 章 (流式 & 置换等变)

★ Zhuo et al. StreamVGGT. ICLR 2026. arXiv:2507.11539
★ Wang et al. π³ (Pi-Cubed). ICLR 2026. arXiv:2507.13347
Deng et al. VGGT-Long. arXiv 2025.07. arXiv:2507.16443
Maggio et al. VGGT-SLAM. arXiv 2025.05. arXiv:2505.12549
Liu et al. VGGT-X. 2025.09. project
FlashVGGT. arXiv 2025.12. arXiv:2512.01540
XStreamVGGT. arXiv 2026.02. arXiv:2602.21780

第 7 章 (生成融合)

Liang et al. Wonderland. CVPR 2025. arXiv:2412.12091
Zhu et al. Aether. ICCV 2025 Outstanding. arXiv:2503.18945

第 8 章 (VGGT-Backbone 时代)

Zhang et al. FLARE. CVPR 2025. arXiv:2502.12138
Jiang et al. AnySplat. SIGGRAPH Asia 2025. arXiv:2505.23716
Wang et al. VolSplat. arXiv 2025.09. arXiv:2509.19297
VGD (Driving). arXiv 2025.10. arXiv:2510.19578
LongSplat. arXiv 2025.08. arXiv:2508.14041
Wang et al. MoGe. CVPR 2025 Oral. arXiv:2410.19115
Wang et al. MoGe-2. NeurIPS 2025. arXiv:2507.02546
GlobalSplat. arXiv 2026.04. arXiv:2604.15284

§0序章 · 写在前面

§1第 0 章 · 起点：3DGS 与 Feedforward

0.1 什么是 3D Gaussian Splatting？

0.2 什么是 Feedforward？为什么是个革命？

§2时间线 · 两年半的拉力赛

§3家族树 · 谁是谁的爹

§4第 1 章 · 开山之作 — "Gaussian 是像素的伪装"

§5第 2 章 · 用 Transformer 把 LRM 套到 Gaussian 上

§6第 3 章 · 把相机参数甩进垃圾桶

3.1 DUSt3R 的核心：pointmap

§7第 4 章 · 从两张图到一整间房

§8第 5 章 · VGGT 之路：一个 Transformer 输出一切

§9第 6 章 · VGGT 之后：补完最后两块缺口

§10第 7 章 · 把视频 diffusion 嫁接到 feedforward GS

§11第 8 章 · 当下的 feedforward 3DGS 长这样

§12总结 · 2 年半，3 大趋势

趋势一：一次前向 → 输出一切

趋势二：online / streaming 化

趋势三：每一代都去掉一个约束

§13附录 · 术语表

§14附录 · 三条不同强度的入门路线

路线 A · 仅一周 (12 篇必读)

路线 B · 两周 (+8 篇)

路线 C · 一个月 (剩下的全部)

§15附录 · 完整论文列表

第 0 章 (基础)

第 1 章 (开山之作)

第 2 章 (LRM 化)

第 3 章 (Pose-Free)

第 4 章 (走向大场景)

第 5 章 (统一基础模型)

第 6 章 (流式 & 置换等变)

第 7 章 (生成融合)

第 8 章 (VGGT-Backbone 时代)

0.1　什么是 3D Gaussian Splatting？

0.2　什么是 Feedforward？为什么是个革命？

3.1　DUSt3R 的核心：pointmap