从 3DGS 到 VGGT
序章 · PREFACE写在前面
2023 年 8 月,Kerbl 等人的 3D Gaussian Splatting(3DGS)让"实时神经渲染"从奢侈品变成了日用品。但原始 3DGS 仍然继承了 NeRF 的一个痛点:每来一个新场景,都要从头优化一遍,少则几分钟,多则几小时。
很快,一个新问题被提出:能否让一个神经网络看几张图,一次前向就吐出整个 Gaussian 场景? 这就是 Feedforward 3D Gaussian Splatting。从 2023 年 12 月的 Splatter Image、pixelSplat,到 2025 年 CVPR Best Paper 的 VGGT,再到 2026 年最新的 StreamVGGT、π³,短短两年半内,这个方向产出了 40 多篇有影响力的工作,且**深度**远超想象——它逐步合并了 NeRF、SfM、MVS、SLAM 与 3D 生成模型四大方向。
这份综述是为你写的:
- 你熟悉基本的 NeRF(神经辐射场)和 SDF(有向距离场);
- 你有基础的机器学习经验(CNN、Transformer 大致知道在做什么);
- 你有高数 + 线性代数的基本素养(不怵协方差矩阵、四元数、可微渲染);
- 但你从未系统读过 feedforward GS 的论文,希望一次看清整片森林。
我会尽量用类比和渐进的叙事,而不是公式罗列,来讲清每个工作"在做什么、解决了什么、为什么重要"。技术术语会用英文原词保留(如 pointmap、epipolar transformer、cost volume),并在术语表中给出解释。
第 0 章 · PREREQUISITES起点:3DGS 与 Feedforward
在跳进 40 篇论文之前,先用 5 分钟把"3DGS 是什么"和"feedforward 意味着什么"装进脑子。这两件事确定了,后面所有工作都只是它们的变奏。
0.1 什么是 3D Gaussian Splatting?
想象你要把一座教堂"装进电脑",让别人能从任意角度看它。NeRF 的做法是训一个 MLP,给它一个 3D 坐标 (x,y,z),它返回那个点的颜色和密度——整个场景被"隐式"地写进神经网络的权重里。3DGS 反其道而行之:场景被"显式"地写成一堆 3D 椭球体——3D Gaussian——漂浮在空间中。
每个 Gaussian 携带 5 个参数:
- 位置 $\mu \in \mathbb{R}^3$ — 球心在哪
- 协方差矩阵 $\Sigma \in \mathbb{R}^{3\times 3}$ — 球的形状和朝向(实际用一个四元数 $q$ 加三轴 scale $s$ 表示,保证 $\Sigma$ 永远是半正定的)
- 不透明度 $\alpha \in [0,1]$ — 球的"实"还是"虚"
- 颜色 c — 用球谐函数 (spherical harmonics, SH) 表示,让颜色可以随观察方向变化(这样玻璃才会反光)
3DGS 真正的工程突破在于可微分的 tile-based 光栅化器:它把屏幕分成 16×16 的小块,每个 Gaussian 只参与它真正覆盖到的小块,因此整个渲染管线既快又对参数可导。给定一堆已知相机参数的图片,可以用反向传播让 Gaussians 拟合这些图片。这就是per-scene 优化:每个场景,几万到几十万个 Gaussian,反复迭代几万步。
所以原始 3DGS 的"训练"本质上是:把若干 2D 图片"反卷"成一个 3D Gaussian 集合。这跟训练神经网络没关系——网络在哪?没有网络。它就是一次大型几何拟合。
0.2 什么是 Feedforward?为什么是个革命?
原始 3DGS 的痛点显而易见:
- 对每个新场景都要单独跑一次拟合(10 分钟到几小时不等);
- 需要已知的相机内外参(一般用 COLMAP 先跑一遍,本身也很慢);
- 视图必须密集,稀疏视图下严重过拟合或塌陷。
Feedforward GS 的目标是把这一整套流程替换成一次神经网络前向:
整个 2023–2026 年的 feedforward GS 史,本质上就是三个问题的拉锯战:
- 怎么把 2D 像素变成 3D Gaussian? (像素对齐?体素对齐?还是直接 transformer 出?)
- 需要多少先验? (相机参数?深度?还是什么都不要?)
- 怎么扩展到更多视图、更大场景? (epipolar attention?cost volume?Mamba?VGGT 风格的全局注意力?)
下面 8 章的故事,就是这三个问题在每一年被推进的过程。
时间线 · TIMELINE两年半的拉力赛
先看一眼这场赛事的节奏感。注意 2023 年 12 月那个"同时被四组人想出来"的爆炸瞬间,以及 2025 年 3 月 VGGT 落地后整个领域的重排。
家族树 · LINEAGE谁是谁的爹
这棵树是后面所有章节的"地图"。两条主线最初互不相干:左边是渲染派(从 pixelSplat 一路走过来的 feedforward 3DGS),右边是几何派(DUSt3R 开创的 pointmap)。它们在 2025 年的 VGGT/AnySplat 处合流。
第 1 章 · PIONEERS — 2023.12 / 2024 初春"Gaussian 是像素的伪装"
2023 年 12 月,仅仅在 3DGS 发表 4 个月后,整整四组人在 16 天内同时把同一个 idea 投上了 arXiv:用 2D 神经网络一次预测出一组 3D Gaussians。
这一章的所有论文都共享同一个核心 trick——per-pixel Gaussian 预测。把输入图像送进一个 U-Net 或 Transformer,让网络对每个输入像素预测出一个 3D Gaussian 的全部参数(位置、协方差、不透明度、颜色)。直观地说:
这个观察非常有力,因为它让所有 2D 视觉的工具(U-Net、Swin Transformer、cost volume)都能直接拿来做 3D 重建——只需要换个输出头。下面的所有工作都是这个范式的变奏。
第 2 章 · LRM ERA — 2024 春夏用 Transformer 把 LRM 套到 Gaussian 上
2023 年 NeRF 一侧已经诞生了 LRM (Large Reconstruction Model) — 用 GPT 一样大的 Transformer 把"多视图 → 3D"摊成一次前向。2024 年春,三组人几乎同时把这个 recipe 移植到 Gaussian Splatting 上:多视图 → 大 Transformer → 一堆 Gaussian。
这一章和第 1 章的区别:第 1 章是"U-Net + 几何先验" (cost volume / epipolar),第 2 章是"纯 Transformer + 大数据"。这场对决是"bitter lesson"的一次小型重演——纯 transformer 最终赢了,但赢得不那么干净,因为它需要海量已知位姿的数据。
另一个关键背景:多视图 diffusion model (MVDream、ImageDream、SV3D) 在 2024 年初成熟,能从一张图或一段文字生成几张视角一致的图像。这给了 feedforward GS 一个完美的上游——"我幻想出 4 张视角,再把它们一次性变成 3D"。这就是 LGM、GRM 这一类"文本/单图 → 3D 生成"的标准 pipeline。
第 3 章 · POSE-FREE REVOLUTION — 2023.12 起把相机参数甩进垃圾桶
前两章所有方法都默认相机内外参已知——这是 NeRF 时代的标准假设。但 COLMAP 跑一遍要几十分钟到几小时,且容易失败。2023 年 12 月,DUSt3R 横空出世,提出"能不能不算相机?"——这一脚踢开的门,是后面 VGGT 时代的真正入口。
3.1 DUSt3R 的核心:pointmap
这是整个 2024 下半年 + 2025 年 feedforward 3D 的最重要一个概念。先把它讲透,后面一切都顺。
传统 SfM/MVS 的步骤:
- 对每张图提特征点 (SIFT/SuperPoint)
- 跨图匹配 → 得到对应关系
- RANSAC 估相机外参(哪台相机站在哪、朝哪)
- 三角化对应点 → 稀疏 3D 点云
- 稠密化 (MVS) → 稠密 3D
整条链上每一步都可能崩——纹理不足时特征匹配挂,相机姿态估错就一切完蛋。
DUSt3R 的做法是跳过 1-4 步,直接训一个网络让它对每个像素回归一个 3D 坐标。这张 (H, W, 3) 的图就叫 pointmap。
关键魔法在于两张 pointmap 都表示在第一张图的相机坐标系里。这意味着:
- 不需要单独估相机外参——它已经"隐含"在两张 pointmap 的对齐里;
- 不需要特征匹配——网络通过 cross-attention 学会了隐式对应;
- 相机内参也不需要给——网络在数百万对图像上见过太多内参分布,自己有先验;
- 需要时,从 pointmap 反推回内外参就是个小型优化问题。
DUSt3R 的具体架构后来被几乎所有 pose-free GS 工作继承:
- 双塔 Siamese ViT 编码器(权重共享,从 CroCo Cross-View Completion 预训练初始化);
- 两个解码器,互相 cross-attend 对方的特征;
- DPT 风格的 dense regression head 输出 pointmap。
下面看几个把 DUSt3R 改造成"输出 Gaussian"的工作。
第 4 章 · SCALING UP — 2024 下半年从两张图到一整间房
第 1-3 章的方法基本只能吃 2-4 张图,且场景不大。要把整个房间或整个 360° 户外塞进 feedforward 网络,需要解决三个新问题:(1) 视图多了,重复 Gaussian 怎么处理;(2) 视图基线宽了,epipolar attention 失效;(3) 看不到的区域,怎么"想象"。这一章三条主线各破一题。
第 5 章 · UNIFICATION — 2024.08 → 2025.03VGGT 之路:一个 Transformer 输出一切
2024 年下半年开始,整个领域意识到:DUSt3R 的"pointmap + 一次前向"框架完全可以延伸——为什么只输出 pointmap?深度、相机参数、3D 点轨迹、Gaussian 都可以塞进同一个 transformer 的多个 head。这条"大一统"路线在 2025 年 3 月以 VGGT 拿下 CVPR Best Paper 达到顶峰。
1. DINO 把每张图 patchify 成 token;
2. 每帧额外配 1 个 camera token + 4 个 register token;
3. 关键:attention 层严格交替—— (a) frame-wise 自注意力 (一张图内部) (b) global 自注意力 (跨所有视图);
4. 不同 head: camera head 从 camera token 出内外参; DPT head 从图像 token 出 depth/pointmap/track。
第 6 章 · STREAMING & EQUIVARIANCE — 2025.07 → 2026VGGT 之后:补完最后两块缺口
VGGT 拿下 best paper 后,两个明显的缺口被立刻发现:(1) 它是 offline / bidirectional 的,每来一帧新图都得把所有图重新 attend 一遍——AR / 机器人 / SLAM 用不了。 (2) 它有 reference frame 偏向——把同一组图换个顺序输入,结果不一样。第 6 章是这两个问题的修补,也是 2025-2026 的最前沿。
1. 模型可以"作弊"——把第一张图过拟合;
2. 输入顺序敏感;
3. reference 选不好整体崩塌(MV-DUSt3R+ 的 cross-reference 是工程式补救,π³ 是架构式根除)。
第 7 章 · GENERATIVE HYBRIDS — 2024.12 →把视频 diffusion 嫁接到 feedforward GS
看不到的地方怎么办?回归模型只能"糊一片";生成模型 (video diffusion) 能"幻想合理细节"。2024 年末开始,一批工作探索:能不能让 GS 在 video diffusion 的 latent 空间里运作?
→ MVSplat360(已在第 4 章介绍)也属于这一脉——Gaussian splat 到 SVD latent 空间再去噪。
第 8 章 · VGGT-BACKBONE ERA — 2025 - 2026当下的 feedforward 3DGS 长这样
VGGT 之后,feedforward 3DGS 的 SOTA 工作几乎全部长成同一个样子:VGGT (或类似的几何 foundation model) 作骨干,加一个轻量 GS 头预测 Gaussian 属性。第 8 章把这些"VGGT 时代"的 GS 工作列出来——它们也是你今天最值得用的工具。
总结 · SYNTHESIS2 年半,3 大趋势
把 40 篇论文按时间排好后,会浮现三条主轴。理解这三条,就抓住了 feedforward 3DGS 的全部精神。
趋势一:一次前向 → 输出一切
2023 年:一次前向出 Gaussian (Splatter Image)。
2024 年:一次前向出 Gaussian + pose(pose-free 系列)。
2025 年:一次前向出 Gaussian + pose + 深度 + 3D 轨迹 (VGGT)。
2026 年:流式一次前向出以上所有 (StreamVGGT) + 顺序不敏感 (π³)。
这条轴的本质是 3D 视觉 pipeline 的"端到端"压缩。每一年,能塞进一次前向的输出种类就多一种,能略掉的传统步骤就再少一个。
趋势二:online / streaming 化
DUSt3R (pairwise) → Spann3R (memory bank) → CUT3R (persistent state) → StreamVGGT (causal + KV-cache) → XStreamVGGT (compressed cache)。
这条轴在把 LLM 的研究工具一件件搬进 3D 视觉:因果注意力、KV-cache、FlashAttention、知识蒸馏、长上下文压缩。它告诉我们 3D 视觉的研究方法在 2025-2026 越来越像 NLP。
趋势三:每一代都去掉一个约束
3DGS 原始版要:(a) 已知位姿, (b) 密集视图, (c) per-scene 优化, (d) 单场景训。
每一篇主要工作都对应去掉某个约束:
- 去掉 per-scene 优化:Splatter Image / pixelSplat / MVSplat (2023-2024)
- 去掉密集视图:稀疏视图工作 (一系列)
- 去掉位姿:DUSt3R / NoPoSplat / PF3plat / SelfSplat (2024)
- 去掉 pairwise 限制:Fast3R / VGGT / MV-DUSt3R+ (2025)
- 去掉 reference frame 偏向:π³ (2025-2026)
- 去掉 offline 假设:StreamVGGT (2026)
- 去掉显存 bound:VGGT-Long / VGGT-X / FlashVGGT (2025-2026)
- 去掉像素对齐假设:VolSplat (2025)
现在所有问题都还没真正解决——但这场两年半的"去约束"接力,把 3D 重建从"一个昂贵的优化问题"变成了"一个普通的神经网络问题"。这是 feedforward 3DGS 浪潮最核心的遗产。
附录 · GLOSSARY术语表
下面只列出本综述中频繁出现、且需要解释的术语。
- 3D Gaussian / Splat
- 3D 空间中的一个椭球体,带位置 $\mu$、协方差 $\Sigma$、不透明度 $\alpha$、(基于球谐函数的) 颜色 $c$。3DGS 场景就是几万到几百万个这样的椭球。
- Splatting
- 把 3D Gaussian 投影到 2D 屏幕、按深度 alpha-合成的渲染操作。在 3DGS 里通过 tile-based 可微分光栅化器实现,比 NeRF 的 ray marching 快几个数量级。
- Per-scene optimization
- 原始 3DGS / NeRF 的训练方式:给定一组图,迭代更新一个场景的参数,单场景训完即弃。Feedforward 方法是它的对立面——预训练一个网络后所有新场景一次前向搞定。
- Feedforward
- 在本综述里特指:神经网络看几张图,一次前向出整套 3D 表示(Gaussian、pointmap、depth 等),不再 per-scene 迭代。
- Per-pixel Gaussian
- 每个输入像素对应一个 3D Gaussian——Splatter Image / pixelSplat / MVSplat 这一派的核心 trick。代价是 Gaussian 数随像素数固定,远端无法多放。
- Pointmap
- DUSt3R 引入的表示:每个输入像素直接对应一个 3D 坐标 (x,y,z)。等价于"稠密 + 像素对齐的 3D 点云"。
- Epipolar geometry / Epipolar transformer
- 对极几何:图 A 中一个像素对应的 3D 点必落在图 B 中一条"对极线"上。Epipolar transformer 把这一几何约束写进 attention(cross-attend 只看对极线附近的像素)。pixelSplat、MVSplat 用了它。基线变宽后失效。
- Plane-sweep cost volume
- 经典 MVS 技术:把"假设深度 = d_i"作为多个平面,每个平面上计算两图特征的匹配代价,得到 (H, W, N) 的张量。MVSplat 把它移植到 GS 里。
- LRM (Large Reconstruction Model)
- "用大 transformer + 海量数据做 3D 重建"的统称。最早是 triplane-NeRF (Hong et al.),后来 GS-LRM、GRM、Long-LRM 等把它移植到 GS 上。
- CroCo (Cross-view Completion)
- 一种跨视图自监督预训练:让模型看图 A 的一部分 + 整张图 B,去补全图 A 的剩下部分。DUSt3R / MASt3R / NoPoSplat / VGGT 的 backbone 都受益于 CroCo 预训练。
- DPT head
- Dense Prediction Transformer 的输出头,把 transformer token 还原成 (H,W,C) 的密集预测图(深度、pointmap 等)。DUSt3R 系列广泛使用。
- Mamba / State Space Model
- 线性复杂度 (O(N)) 的序列模型,替代 transformer 的 O(N²) 注意力。Long-LRM 用 Mamba2 处理 250K 视觉 token。
- KV-cache
- LLM 推理优化:把过去 token 的 Key/Value 缓存下来,新 token 只算自己的 Q 去注意旧 KV。StreamVGGT 把它直接搬进 3D 视觉。
- Permutation-equivariant
- "输入顺序不改变结果"。π³ 的特点。对比之下 DUSt3R / VGGT 都对输入第一张图特殊处理(reference frame),不是 permutation-equivariant。
- SH (Spherical Harmonics)
- 球谐函数,用一组系数表示"颜色随观察方向怎么变"。3DGS 默认每个 Gaussian 携带 0-3 阶 SH 来表达反射。
- Plücker ray
- 把"射线方向 + 起点"编码成 6 维向量的方法。LGM/GRM/GS-LRM 拼到输入 token 里,让网络"知道每个像素对应哪条射线"。
附录 · READING PATH三条不同强度的入门路线
路线 A · 仅一周 (12 篇必读)
覆盖整片森林的最小生成树。读完知道每一脉的代表。
- 3D Gaussian Splatting (Kerbl 2023) — 起点
- Splatter Image — 最简 feedforward GS
- pixelSplat — epipolar + 概率深度
- MVSplat — cost volume 移植
- LGM — multi-view diffusion + feedforward GS
- GS-LRM — 纯 transformer LRM
- DUSt3R — pointmap 革命
- NoPoSplat — 干净 pose-free
- MV-DUSt3R+ — 多视图 DUSt3R + GS
- VGGT — Best Paper,新地基
- StreamVGGT — 流式 VGGT
- π³ — 置换等变 VGGT
路线 B · 两周 (+8 篇)
在 A 之上加进"每个 sub-trend 的代表"。
- GPS-Gaussian — 领域专用 (人体) 的力量
- FreeSplat — 长序列室内 + 显式去重
- Long-LRM — Mamba/Transformer 混合
- DepthSplat — 单目深度 backbone 嫁接
- MVSplat360 — Gaussian + 视频 diffusion
- CUT3R — persistent state
- Fast3R — 1000+ 张图一次前向
- AnySplat — VGGT 时代标准范式
路线 C · 一个月 (剩下的全部)
余下的论文按以下顺序阅读:
- 第 1 章剩余:TriplaneGaussian、AGG
- 第 2 章剩余:GRM
- 第 3 章剩余:MASt3R、Splatt3R、PF3plat、SelfSplat、InstantSplat (注意它是混合)
- 第 4 章剩余:latentSplat、HiSplat、eFreeSplat、Splatter-360、FreeSplat++
- 第 5 章剩余:Spann3R、MUSt3R、MonST3R、SLAM3R
- 第 6 章剩余:VGGT-Long、VGGT-SLAM、VGGT-X、FlashVGGT、XStreamVGGT
- 第 7 章:Wonderland、Aether
- 第 8 章剩余:FLARE、VolSplat、VGD、LongSplat、MoGe / MoGe-2、GlobalSplat
附录 · REFERENCES完整论文列表
所有 arXiv 链接均已验证,按章节顺序排列。
第 0 章 (基础)
- Kerbl et al. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH 2023. arXiv:2308.04079
第 1 章 (开山之作)
- Szymanowicz et al. Splatter Image. CVPR 2024. arXiv:2312.13150
- Charatan et al. pixelSplat. CVPR 2024 Best Paper HM. arXiv:2312.12337
- Chen et al. MVSplat. ECCV 2024. arXiv:2403.14627
- Zheng et al. GPS-Gaussian. CVPR 2024 Highlight. arXiv:2312.02155
- Zou et al. Triplane Meets Gaussian Splatting. CVPR 2024. arXiv:2312.09147
- Xu et al. AGG. TMLR 2024. arXiv:2401.04099
第 2 章 (LRM 化)
- Tang et al. LGM. ECCV 2024 Oral. arXiv:2402.05054
- Xu et al. GRM. ECCV 2024. arXiv:2403.14621
- Zhang et al. GS-LRM. ECCV 2024. arXiv:2404.19702
第 3 章 (Pose-Free)
- Wang et al. DUSt3R. CVPR 2024. arXiv:2312.14132
- Leroy et al. MASt3R. ECCV 2024 Oral. arXiv:2406.09756
- Smart et al. Splatt3R. arXiv 2024.08. arXiv:2408.13912
- Ye et al. NoPoSplat. ICLR 2025 Oral. arXiv:2410.24207
- Hong et al. PF3plat. ICML 2025. arXiv:2410.22128
- Kang et al. SelfSplat. arXiv 2024.11. arXiv:2411.17190
- Fan et al. InstantSplat. arXiv 2024.03. arXiv:2403.20309
第 4 章 (走向大场景)
- Wewer et al. latentSplat. ECCV 2024. arXiv:2403.16292
- Open3DVLab. HiSplat. ICLR 2025. arXiv:2410.06245
- Wang et al. FreeSplat. NeurIPS 2024. arXiv:2405.17958
- Min et al. eFreeSplat. NeurIPS 2024. arXiv:2410.22817
- Ziwen et al. Long-LRM. arXiv 2024.10. arXiv:2410.12781
- Chen et al. MVSplat360. NeurIPS 2024. arXiv:2411.04924
- Chen et al. Splatter-360. CVPR 2025. arXiv:2412.06250
- Xu et al. DepthSplat. CVPR 2025. arXiv:2410.13862
- Tang et al. MV-DUSt3R+. CVPR 2025 Oral. arXiv:2412.06974
- Wang et al. FreeSplat++. arXiv 2025.03. arXiv:2503.22986
第 5 章 (统一基础模型)
- Wang & Agapito. Spann3R. 3DV 2025. arXiv:2408.16061
- Wang et al. CUT3R. CVPR 2025 Oral. arXiv:2501.12387
- Yang et al. Fast3R. CVPR 2025. arXiv:2501.13928
- Cabon et al. MUSt3R. CVPR 2025. arXiv:2503.01661
- Zhang et al. MonST3R. ICLR 2025 Spotlight. arXiv:2410.03825
- Liu et al. SLAM3R. CVPR 2025 Highlight. arXiv:2412.09401
- ★ Wang et al. VGGT: Visual Geometry Grounded Transformer. CVPR 2025 Best Paper. arXiv:2503.11651
第 6 章 (流式 & 置换等变)
- ★ Zhuo et al. StreamVGGT. ICLR 2026. arXiv:2507.11539
- ★ Wang et al. π³ (Pi-Cubed). ICLR 2026. arXiv:2507.13347
- Deng et al. VGGT-Long. arXiv 2025.07. arXiv:2507.16443
- Maggio et al. VGGT-SLAM. arXiv 2025.05. arXiv:2505.12549
- Liu et al. VGGT-X. 2025.09. project
- FlashVGGT. arXiv 2025.12. arXiv:2512.01540
- XStreamVGGT. arXiv 2026.02. arXiv:2602.21780
第 7 章 (生成融合)
- Liang et al. Wonderland. CVPR 2025. arXiv:2412.12091
- Zhu et al. Aether. ICCV 2025 Outstanding. arXiv:2503.18945
第 8 章 (VGGT-Backbone 时代)
- Zhang et al. FLARE. CVPR 2025. arXiv:2502.12138
- Jiang et al. AnySplat. SIGGRAPH Asia 2025. arXiv:2505.23716
- Wang et al. VolSplat. arXiv 2025.09. arXiv:2509.19297
- VGD (Driving). arXiv 2025.10. arXiv:2510.19578
- LongSplat. arXiv 2025.08. arXiv:2508.14041
- Wang et al. MoGe. CVPR 2025 Oral. arXiv:2410.19115
- Wang et al. MoGe-2. NeurIPS 2025. arXiv:2507.02546
- GlobalSplat. arXiv 2026.04. arXiv:2604.15284