A pedagogical survey · 2023.07 — 2026.05

可变形 3D Gaussian Splatting

高斯从静止教会跳舞、变形、撕裂、生长——这是过去三年所有可变形 3DGS 工作共同想解决的问题。 本文从 Kerbl 等人 2023 年的原始论文一路讲到 2026 年最新前沿, 尽量讲清每篇文章一句话的关键想法它跟邻居方法的本质区别

预设读者:会基本的 NeRF(体渲染、MLP radiance field)、SDF(level set、marching cubes)、 基础线代、基础机器学习。本文不再赘述这些,直接以 NeRF/SDF 作为对照锚点。

约 32 篇论文 · 八大流派 · 最后更新 2026-05-19

阅读路径建议

第一次接触动态 3DGS:从 §1 顺序读到 §3 把"八大流派"的地图记住, 再按你研究的方向去对应章节(形变场 / 时空 / 稀疏 / 物理 / 单目 / 人体 / 生成)。 已经熟悉静态 3DGS:可以从 §4 形变场派 直接开始; 想看最近一年的 SOTA:跳到 §11 4D 生成派i-PhysGaussian

NeRF 早在 2020 年就被拽进了动态领域(D-NeRF、HyperNeRF、Nerfies、K-Planes…)。 但 NeRF 的核心瓶颈——体渲染要沿光线积分数百次 MLP 查询——让动态版的训练动辄几十小时、渲染 $\lt 1$ FPS。 2023 年 7 月,3D Gaussian Splatting 用一堆显式椭球 + GPU 光栅化彻底改写了交易条件: 重建从小时降到分钟,渲染从 1 FPS 升到 100+ FPS。

这意味着真正实时的动态神经场第一次变得可能 —— 游戏、VR、远程会议、机器人感知、4D 内容生成的需求齐齐压过来。 于是 2023 年 8 月起,论文像潮水一样涌出:从 Dynamic 3D Gaussians 开局, 到今天每周还在 arXiv 出新的 4D-LRM 和物理派变体。

关于命名混淆

"4D Gaussian Splatting" 这个名字下有两篇不同作者的论文: Wu et al. CVPR'24(属形变场派,用 HexPlane) 与 Yang et al. ICLR'24(属时空原子派,用 4D 协方差)。 底层思想几乎相反。本综述会反复强调这条分水岭。

§130 秒回顾静态 3DGS

假设你已经熟悉 NeRF 的体渲染和 SDF 的 marching cubes。我们快速把静态 3DGS 的三件套对齐到你已有的概念锚点上。

① 基元:椭球而不是采样点

NeRF 把场景表达成一个 MLP $F_\theta(\mathbf{x}, \mathbf{d}) \to (\sigma, \mathbf{c})$; SDF 把场景表达成一个 MLP $F_\theta(\mathbf{x}) \to d$。 3DGS 把场景表达成 $N$ 个显式的 3D 各向异性高斯

$$ G_i(\mathbf{x}) = \exp\!\Big(-\tfrac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^\top \Sigma_i^{-1} (\mathbf{x}-\boldsymbol{\mu}_i)\Big) $$

每个高斯携带 $(\mu, \Sigma, \alpha, \text{SH})$:位置、协方差、不透明度、球谐颜色系数。 为保证 $\Sigma$ 正定,参数化为 $\Sigma = R S S^\top R^\top$,$S$ 是缩放对角阵、$R$ 是四元数转的旋转。 这是后面所有"形变高斯"的物理基础——形变本质就是改 $\boldsymbol{\mu}, R, S$。

② 渲染:splat 替代 ray march

高斯往相机平面的投影仍是 2D 高斯(线性近似下)。像素颜色用 front-to-back $\alpha$-blending:

$$ C(\mathbf{p}) = \sum_{i \in \mathcal{N}} c_i\,\alpha_i \prod_{j=1}^{i-1}(1-\alpha_j) $$

形式上和 NeRF 的体渲染同构,但不再需要沿光线采几百个点——用瓦片排序光栅化一次性把所有 splat 拍上去,GPU 极快。

③ 优化:adaptive density control

L1 + D-SSIM 像素损失反传到所有高斯参数。训练中根据梯度幅度做克隆 / 分裂 / 剪除: 欠拟合处分裂出更小的高斯,多余的剪掉。这是 3DGS 区别于 NeRF 的关键工程细节—— 让"基元数量"自适应于场景复杂度,因而比 NeRF 紧凑得多。

心智迁移 · NeRF/SDF → 3DGS

把"查询函数空间中的一点"换成"在空间里塞一堆显式椭球,然后把它们光栅化"。 NeRF 的形变 = 改 $F_\theta$;3DGS 的形变 = 改这堆椭球的 $(\boldsymbol{\mu}_i, R_i, S_i, \alpha_i)$。 后者更具体、更可编辑、也更难保持时空一致。

§2动态场景到底难在哪

"高斯动起来"听起来只是给每个椭球加上时间下标。但魔鬼藏在四个细节里—— 这四个挑战决定了后面每个流派的设计选择。

① 外观变化

同一个点在不同时刻颜色不同(阴影、镜面、自发光)。
"球谐系数也得是时间的函数"

② 几何变化

同一物体的某个点在不同时刻位置不同(弯曲、伸缩)。
"$\boldsymbol{\mu}_i(t)$ 怎么参数化?"

③ 拓扑变化

点会消失(被遮挡)、会出现(飞过画面)、会分裂(杯子摔碎)。
"canonical 集合根本装不下"

④ 对应 / 跟踪

谁是谁的"前世今生"?这是 4D 重建 vs 4D 重渲染的分水岭。
"想做机器人/编辑就绕不开"

再叠上观测端的两层难度:多视角(一群同步相机看动态)相对容易; 单目野外(一台手机晃过去)几乎是病态的,任意瞬间只有一个视角, 形状/运动/相机的歧义不可分离。 这就是为什么 2024–2026 的工作越来越依赖 foundation prior: 单目深度网络、长程点轨迹模型 (CoTracker)、视频扩散——都被拿来给优化注入先验。

§3范式地图 · 八大流派

把 30+ 篇论文按"时间如何被编码进高斯"切片,会自然涌出八个流派。 每个流派的标签色会贯穿全文:以后看到 def 就知道是形变场派、 st 是时空派,依此类推。

① 形变场派

一团 canonical 高斯 + 时间相关形变 MLP / HexPlane。
类比:橡皮泥 + 一份"按时序变形"的指令。

② 时空原子派

每个高斯本身就是 4D 椭球;时间作为第四维度。
类比:时空中漂浮的灯笼,自带寿命。

③ 跟踪派

每帧独立的 3D 高斯 + 时间正则把它们"牵手"。
类比:一群粒子各自漂移但彼此牵手。

④ 稀疏控制派

少量控制点/超点/mesh 提供运动;高斯通过 LBS 跟着动。
类比:木偶上的几根提线。

⑤ 物理派

MPM / XPBD 等物理仿真器主动驱动高斯。
类比:把高斯当成会流动的物质点。

⑥ 单目野外派

单相机+深度/光流/跟踪 prior 兜底,做病态问题。
类比:用一只眼睛+大量经验拼出立体雕塑。

⑦ 人体 / Avatar 派

SMPL 骨骼 + LBS + 高斯外衣 + 姿态相关皱褶。
类比:给骨架穿一件会鼓胀的高斯衣。

⑧ 4D 生成派

扩散先验生成多视/多时图像;解码成 4D 高斯。
类比:让 AI 做梦出一段 4D 动画。

这八派并不互斥——SC-GS 同时属于形变场+稀疏控制;Shape-of-Motion 同时属于形变场+单目; PhysAvatar 同时属于物理+人体。但把握主轴精确分类重要: 每篇论文的核心创新都能映射到这八条主轴中的一两条上。

运动表达的"显式度" → 结构性先验强度 ↑ 形变场 跟踪 时空 稀疏控制 物理 单目 Avatar 生成
横轴:高斯运动的显式程度(左:函数化形变,右:每个高斯自带轨迹/4D);纵轴:注入的结构性先验强度。

§4def 形变场派

最早成型、影响最大的范式。一套"canonical 3D 高斯 + 时间形变函数 $\mathcal{D}(\cdot, t)$"两段式架构。 可以理解为 D-NeRF 在 3DGS 上的直接移植——但工程上更轻、训练更快。

核心公式只有一行:

$$ (\Delta \boldsymbol{\mu}_i,\,\Delta r_i,\,\Delta s_i) = \mathcal{D}_\theta\big(\gamma(\boldsymbol{\mu}_i),\, \gamma(t)\big) $$

$\gamma$ 是 NeRF 风格的正弦位置编码;$\mathcal{D}_\theta$ 可以是 MLP(D-3DGS),也可以是 HexPlane 等显式网格(4D-GS Wu)。 渲染时拿 $(\boldsymbol{\mu}_i+\Delta\boldsymbol{\mu}_i,\,r_i+\Delta r_i,\,s_i+\Delta s_i)$ 走标准 3DGS 管线。

D-3DGS — Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction
CVPR 2024 Yang, Gao, Zhou, Jiao, Zhang, Jin · arXiv:2309.13101 · project

Dynamic 3D Gaussians (Luiten) 要每帧每个高斯都存独立位姿——必须多视角棚拍。 单目动态视频根本拟合不出来。

关键想法:保留一团 canonical 高斯集合,再训一个共享的小 MLP $\mathcal{D}_\theta$,输入 $(\text{position}, \text{time})$,输出该帧该高斯的 $(\Delta\boldsymbol{\mu}, \Delta r, \Delta s)$。 存储常数级、单目可训。论文还提出 AST(annealing smooth training): 训练时给输入时间加上逐渐衰减的高斯噪声 $\hat t = t + \epsilon$,对 COLMAP 不准的相机位姿更鲁棒。

Luiten 的 Dynamic-3DGS 是per-Gaussian-per-frame;D-3DGS 把时间收编为一个共享函数, 储存量从 $O(N \cdot T)$ 降到 $O(N + |\theta|)$,且无需多视角。

大位移、复杂关节运动会被 MLP "糊掉";拓扑变化无解;坐标共享导致邻居被迫同步运动。

4D-GS (Wu) — 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering
CVPR 2024 Wu, Yi, Fang, Xie, Zhang, Wei, Liu, Tian, Wang · arXiv:2310.08528 · project

D-3DGS 的形变 MLP 推理慢——每渲染一帧都要前向几百万次。

关键想法:把"指令书 MLP"换成 HexPlane—— 六张二维特征平面 (XY, XZ, YZ, XT, YT, ZT) 覆盖 $(x,y,z,t)$ 全空间,双线性插值后用小 MLP 解码出 $(\Delta\boldsymbol{\mu}, \Delta r, \Delta s)$:

$$ f_h(\mathbf{x},t) = \!\!\bigcup_{l\in\{1,2\}}\!\!\prod_{(i,j)} \mathrm{interp}\big(R_l(i,j)\big) $$

查表+小 MLP 远快于大 MLP;同样的范式直接来自 K-Planes / HexPlane 对动态 NeRF 的提速。

同样的"canonical + 形变"两段式结构;唯一差别在于形变场表示—— MLP → 网格分解。8 分钟训练,82 FPS 渲染 on D-NeRF synthetic。

⚠ 命名冲突

这是 Wu et al. CVPR'24 的 4D-GS,属def。 另有一篇 Yang et al. ICLR'24 也叫 4D Gaussian Splatting, 却是真·4D 高斯(属st)。详见 §5 · 真·4D-GS

论文自述"大运动、缺乏背景点、相机位姿不准"都会破坏优化;HexPlane 低分辨率限制细节。

E-D3DGS — Per-Gaussian Embedding-Based Deformation
ECCV 2024 Bae et al. · arXiv:2404.03613

D-3DGS 用位置 $\boldsymbol{\mu}_i$ 查形变 MLP——结果两个邻居高斯被强制运动相同, 哪怕它们其实属于不同的运动物体。这就是"运动平滑病"的根源。

关键想法:给每个高斯发一个唯一身份证 $z_i$(可学习 latent),让 MLP 看身份证而不是位置:

$$ (\Delta\boldsymbol{\mu}_i, \Delta r_i, \Delta s_i) = F_\theta(z_i, \gamma(t)) $$

邻居高斯可以独立运动——运动平滑病解除。

一行架构改动,明确诊断并修复了 D-3DGS 最常被诟病的失败模式。

$z_i$ 数量 = 高斯数 → 参数膨胀;过拟合风险更高。

GauFRe — Gaussian Deformation Fields for Real-time Dynamic Novel View Synthesis
WACV 2025 Liang et al. · arXiv:2312.11458 · project

D-3DGS / 4D-GS 在静态场景上也会让形变 MLP 强行解释一切—— 背景里的墙明明不动,MLP 却给它编一个"伪运动",反而抹掉了细节。

关键想法:同时维护两团高斯——一团永远不动(静态背景),一团带形变 MLP(动态前景); 引入归纳偏置"能解释成静态就别动",避免形变 MLP 吞掉整个场景。

首个在 3DGS 形变场范式下做无监督静/动分离的工作,$\gt 30$ FPS 实时单目。

大部分像素都在动的场景(近距离人像)静态先验失效。

MoDGS — Dynamic Gaussian Splatting from Casually-captured Monocular Videos with Depth Priors
ICLR 2025 mono Liu et al. · arXiv:2406.00434

手机架在三脚架上拍跳舞——相机不动 = 没有视差 = 所有形变场方法都崩溃。

关键想法:把单目深度网络(Depth-Anything 等)拉进来当"独眼龙的预言家"—— 给优化注入 3D-aware 初始化;用 ordinal depth loss 只信深度的相对顺序,不信绝对尺度。

把形变场派的适用边界从"相机环绕物体的单目视频"推到"静相机拍动态"—— 后者之前是所有 3DGS 动态方法的禁区。

依赖深度网络质量;玻璃 / 镜面 / 无纹理面失败。

DGS-LRM — Feed-Forward Deformable Gaussian Large Reconstruction Model
2025 gen · arXiv:2506.09997

前面这些都要"每个视频跑半小时优化"。

关键想法:训一个大 transformer,给它单目视频和位姿, 秒级吐出每像素的 deformable 3D 高斯——告别 per-scene 优化。

把形变场派从"每场景训练"推到"feed-forward 推理"—— 和 GS-LRM、Splatter-Image 对静态 3DGS 做的事完全平行。

§5st 时空原子派

与形变场派针锋相对的另一极。不要 canonical不要外挂 MLP—— 直接把"时间"写进每个高斯本身的参数,让它变成 4D 椭球,或者带显式时间多项式。

分水岭口诀(建议反复念三遍)
  1. "有没有 canonical 帧?" 有 → def;没有 → st
  2. "时间是函数输入,还是参数输入?" 进 MLP → def;写在每个高斯自己的 $\boldsymbol{\mu}_i(t)$ 解析式里 → st
  3. "能否自然描述瞬时出现/消失?" 不能 → def;能 → st
真·4D-GS (Yang) — Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting
ICLR 2024 Yang, Yang, Pan, Zhang · Fudan ZVG · arXiv:2310.10642 · project

形变场派假设"同一组高斯必须从头到尾存在"——对于瞬时出现的鸟、闪光、爆炸全部失效。

关键想法:把每个高斯升维成时空中的 4D 椭球。 4D 协方差用两个单位四元数 $q_l, q_r$ 拼成 4D 旋转: $\Sigma_{4D} = R S S^\top R^\top$,$R = L(q_l) R(q_r)$,$S = \mathrm{diag}(s_x, s_y, s_z, s_t)$。 给定 $t$,按多元高斯条件分布公式:

$$ \boldsymbol{\mu}_{xyz\mid t} = \boldsymbol{\mu}_{1:3} + \Sigma_{1:3,4}\Sigma_{4,4}^{-1}(t-\mu_t) $$ $$ \Sigma_{xyz\mid t} = \Sigma_{1:3,1:3} - \Sigma_{1:3,4}\Sigma_{4,4}^{-1}\Sigma_{4,1:3} $$

边缘时间不透明度 $p(t)=\mathcal{N}(t;\mu_4, \Sigma_{4,4})$ 让每个高斯天然有"出生 / 死亡"。外观用 4D 球柱谐函数(球谐 ⊗ 时间 Fourier 基)。

形变场派:"canonical + 形变指令";本派:"每个高斯就是 4D 物体"。 瞬时事件天然支持——一个 1 秒的爆炸就是几千个"短寿命 4D 椭球",canonical 派完全做不到。

每个高斯多 4-10 倍参数;远景静态背景需要 spherical 初始化兜底。

Spacetime Gaussians (STG) — Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis
CVPR 2024 Li et al. · arXiv:2312.16812 · project

关键想法:不上 full 4D 协方差,而是给每个 3D 高斯加低阶多项式轨迹+时间高斯包络, 决定什么时候"在场":

$$ \boldsymbol{\mu}_i(t) = \sum_{k=0}^{3} \mathbf{b}_{i,k}(t-\mu_i^\tau)^k,\quad \sigma_i(t) = \sigma_i^s\,\exp\!\big(-s_i^\tau (t-\mu_i^\tau)^2\big) $$

球谐换成神经特征 $[\mathbf{f}^{base}, \mathbf{f}^{dir}, (t-\mu^\tau)\mathbf{f}^{time}]$,浅层 MLP 解码 RGB。

解析、无大 MLP;60 FPS@8K。时间高斯不透明度 $\sigma_i(t)$ 天然支持瞬态物体

需要多视角;多项式表达不出真正的高频抖动(头发、火焰)。

DynMF — Neural Motion Factorization for Real-time Dynamic View Synthesis
ECCV 2024 Kratimenos et al. · arXiv:2312.00112 · project

关键想法:现实场景的运动其实低秩—— 整段视频只用 $K \approx 4{-}20$ 条共享的"运动模板" $\{\boldsymbol{\tau}_k(t)\}$ 就能解释; 每个高斯学一组稀疏权重 $w_{i,k}$ 决定跟谁同步:

$$ \boldsymbol{\mu}_i(t) = \boldsymbol{\mu}_i^0 + \sum_{k=1}^{K} w_{i,k}\,\boldsymbol{\tau}_k(t) $$

$\boldsymbol{\tau}_k$ 只依赖 $t$ 可缓存——120+ FPS。$\ell_1$ 稀疏正则让每个点只属于少数运动模式 → 免费的运动分割

把"每点查 MLP"换成"每点是 $K$ 条共享轨迹的稀疏组合"——既快又得分割。

$K$ 手设;超复杂运动(流体、爆炸)压不进低秩。

Gaussian-Flow — 4D Reconstruction with Dynamic 3D Gaussian Particle
CVPR 2024 Lin et al. · NJU 3DV · arXiv:2403.12365 · project

关键想法:直接丢掉 MLP,让每个属性的时间函数 = "低阶多项式(缓慢漂移)+ 截断 Fourier 级数(周期抖动)":

$$ \Delta a_i(t) = \underbrace{\sum_{k=0}^{K_p} p_{i,k} t^k}_{\text{poly}} + \underbrace{\sum_{k=1}^{K_f}\!\big[\alpha_{i,k}\cos\tfrac{2\pi k t}{T}+\beta_{i,k}\sin\tfrac{2\pi k t}{T}\big]}_{\text{Fourier}} $$

论文还给出解析光流监督:把高斯投影到 2D 后两帧像素位移可写成 $\text{flow}_i = \Sigma_{t_2}\Sigma_{t_1}^{-1}(\mathbf{x}-\boldsymbol{\mu}_{t_1}) + \boldsymbol{\mu}_{t_2}-\mathbf{x}$, 用现成光流网络当监督。

训练 $5\times$ 加速;显式参数 → 高度并行、易编辑;解析光流监督对高速运动尤其有效。

Fourier 截断阶数决定可表达运动;无内置空间正则。

HiFi4G — High-Fidelity Human Performance Rendering via 4D Gaussian Splatting
CVPR 2024 Jiang, Shen, ..., Xu · ShanghaiTech · arXiv:2312.03461 · project

关键想法:把传统非刚体追踪的 Embedded Deformation Graph (ED-graph) 嫁接进 4D 高斯——粗 ED 图节点 $\{R_k, \mathbf{t}_k, \mathbf{g}_k\}$ 提供运动先验:

$$ \hat{\mathbf{x}} = \sum_k w_k\!\left(R_k(\mathbf{x}-\mathbf{g}_k)+\mathbf{g}_k+\mathbf{t}_k\right) $$

细 KNN 高斯图做局部刚性正则;时空自适应正则保证连续。

离散 ED 节点 vs 隐式 MLP 形变——前者可压缩。 HiFi4G 用这条路做出 $25\times$ 压缩、$\lt 2$ MB / 帧的人体表演表示。

仅人体;需密集多视角 capture。

4D Scaffold GS — 4D Scaffold Gaussian Splatting with Dynamic-Aware Anchor Growing
arXiv 2024-11 Cho et al. · arXiv:2411.17044

关键想法:把 4D 基元绑到网格对齐 anchor上,由 MLP 衍生周围 4D 高斯; 动态区域 anchor 自适应增长——静态区少生,动态区自动细分。

Spacetime / 真·4D-GS 在存储上很贵;anchor 方案在动态区域质量超越前作的同时显存可控。 后续 FreeTimeGS (2506.05348)、Optimized Minimal 4D GS (2510.03857)、 ComGS (2505.16533) 都在这条线上持续做 "4D 表示压缩"。

§6track 跟踪派 · Dynamic 3D Gaussians

这一派只有一篇代表作——但是整条线索的历史起点。它选了第三条道路: 不要 canonical、不要 4D,而是让每帧都有独立的 3D 高斯, 用物理样的正则项把相邻帧"粘"在一起。

Dynamic 3D Gaussians — Tracking by Persistent Dynamic View Synthesis
3DV 2024 Luiten, Kopanas, Leibe, Ramanan · CMU · arXiv:2308.09713 · project

NeRF 系动态方法都是渲染优先——能给新视角图像但拿不到任何点的轨迹。 机器人 / 编辑 / 动作捕捉都需要稠密 6-DoF 跟踪,但 NeRF 没有"点"这个概念。

关键想法:在 27 台同步相机的录影棚里捕捉演员。 固定颜色 / 不透明度 / 形状,只优化每帧的位姿 $(\boldsymbol{\mu}_t^i, q_t^i)$; 用三条"邻居要一起动"的物理样正则保证时间连续:

$$ \mathcal{L}_{\text{rigid}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big\|(R_t^i)^{-1}(\boldsymbol{\mu}_t^j-\boldsymbol{\mu}_t^i) - (R_0^i)^{-1}(\boldsymbol{\mu}_0^j-\boldsymbol{\mu}_0^i)\big\| $$ $$ \mathcal{L}_{\text{rot}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big\|q_t^j(q_t^i)^{-1} - q_{t-1}^j(q_{t-1}^i)^{-1}\big\| $$ $$ \mathcal{L}_{\text{iso}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big|\|\boldsymbol{\mu}_t^j-\boldsymbol{\mu}_t^i\| - \|\boldsymbol{\mu}_0^j-\boldsymbol{\mu}_0^i\|\big| $$

分别强制 局部刚性相邻帧旋转一致长期等距

第一篇从 3DGS 管线产出稠密 6-DoF 跟踪的工作。 可以做 4D 编辑、Gaussian-eye-view、对象合成。论文挖坑、所有后续工作填坑。

必须多视角 rig;不支持拓扑变化和外观变化。

§7sparse 稀疏控制 / 拓扑感知派

形变场派的 MLP 是"每个高斯都自己问 MLP"——昂贵、不可解释、不可编辑。 本派的共同想法:先用一组稀疏的"骨架"(控制点、超点、mesh、ED 图)承载运动, 再用 Linear Blend Skinning (LBS) 让密集高斯插值跟随。 LBS 是计算机图形学的老朋友:一个点的最终变换 = 它周围若干个"骨头"变换的加权平均。

SC-GS — Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes
CVPR 2024 Huang, Sun, Yang, Lyu, Cao, Qi · arXiv:2312.14937 · project

D-3DGS / 4D-GS 渲染漂亮但不能编辑—— 形变 MLP 是个黑箱,用户拿不到"运动控制器"。

关键想法:把场景看成一只布偶。撒几百个"隐形关节"(控制点 $c$), 每个皮毛(高斯 $i$)粘在最近的几个关节上;只让控制点动,皮毛靠 LBS 跟随:

$$ T_i(t) = \sum_{c \in \mathcal{N}(i)} w_{ic}\, T_c(t),\quad T_c(t) = \mathrm{MLP}_\theta(c, t) \in \mathrm{SE}(3) $$

加一项 ARAP (As-Rigid-As-Possible) 损失到控制图上,防止图整体抖动。

第一篇做真正可编辑的动态 3DGS——用户可以鼠标拖控制点重新做动画, 不再只能看渲染。

控制点采样密度敏感;只在 HyperNeRF benchmark 上验证。

SP-GS — Superpoint Gaussian Splatting for Real-Time High-Fidelity Dynamic Scene Reconstruction
ICML 2024 Wan et al. · arXiv:2406.03697 · project

关键想法:把运动相似的高斯聚成一团"超点" (类似图像里的 superpixel,但在 4D);每个超点用一条轨迹,整团成员共享。

SC-GS 的 MLP 推理仍然不便宜;SP-GS 用查表替代 MLP 推理 → 高分辨率下实时编辑; 移动一个超点 = 移动一个语义部件(手臂)。

DG-Mesh — Dynamic Mesh-Aware Radiance Field
ICLR 2025 Liu et al. · arXiv:2404.12379 · project

关键想法:一边训形变高斯,一边用可微 Poisson + Marching Cubes 反向提一份 mesh 出来;要求时序里每个顶点对应同一物理点(cycle-consistent 形变)。

下游应用(贴图编辑、物理仿真、动作重定向)需要 mesh; DG-Mesh 把 3DGS 与传统几何流水线接通。

仅对象级;薄结构和深度自遮挡仍困难。

MaGS — Mesh-adsorbed Gaussian Splatting
SIGGRAPH Asia 2024 / ICCV 2025 Ma et al. · arXiv:2406.01593 · project

关键想法:把每个高斯在一片三角面之上(像魔术贴上的小毛刺)。 mesh 提供仿真友好的结构,高斯提供光真渲染细节。两个网络协作: RMD-Net 学 mesh 的运动;RGD-Net 学高斯相对 host triangle 的微位移。

DG-Mesh 是"先 GS,再提 mesh";MaGS 是"mesh 是主结构,GS 是外饰"—— 后者拿到的 mesh 直接 simulation-ready。

§8phys 物理派

形变场是"被动拟合观测";物理派是主动从物理方程演化形变。 一个外力打下去,高斯按弹性 / 塑性 / 沙土 / 牛顿流体的本构方程动起来——不需要训练视频。 这一派的灵魂口号:"What you See is What you Simulate" (WS²)

PhysGaussian — Physics-Integrated 3D Gaussians for Generative Dynamics
CVPR 2024 Highlight Xie, Yang, Yang, Zheng, Liu, Wang, Wang, Lu, Jiang · arXiv:2311.12198 · project

要让 3DGS 物体"被戳一下会晃",传统做法:先把高斯转 mesh,再扔进物理引擎—— mesh 化质量决定一切,转换 + 重渲染会引入大量 artifact。

关键想法:每个 3D 高斯既是渲染基元,又是 MPM 仿真粒子。 MPM (Material Point Method) 是把连续介质离散成"质点 + 背景网格"的经典图形学算法。 形变梯度更新与高斯协方差被拉伸是一体两面:

$$ F_p^{n+1} = (I + \Delta t \nabla \mathbf{v}_p)\,F_p^n,\quad \Sigma_p(t) = F_p(t)\,A_p\,F_p(t)^\top $$ $$ f^t(\mathbf{d}) = f^0(R_p^\top \mathbf{d}),\quad F_p = R_p S_p \;\text{(球谐随旋转部分转动)} $$

没有 mesh 化中间步;所见即所仿。打开了"3DGS + 物理仿真"这条新流派。

材料参数手动设;阴影不演化;几何重建质量决定仿真稳定性。

PhysDreamer — Physics-Based Interaction with 3D Objects via Video Generation
ECCV 2024 Zhang et al. · arXiv:2404.13026

关键想法:PhysGaussian 要手设杨氏模量 → PhysDreamer 让视频扩散模型 "想象"这个物体被戳一下应该怎么晃,反传出每个高斯的物理参数 $E_i$。

把"手设材料"换成"从视频扩散先验里蒸馏材料"——一步走向自动化物理标注。

单参数 $E_i$ 只覆盖超弹性;塑性、金属、非牛顿流体不适用。

Physics3D — Learning Physical Properties of 3D Gaussians via Video Diffusion
arXiv 2024 Liu, Liu, et al. · arXiv:2406.04338 · project

关键想法:把 PhysDreamer 的弹性推到粘弹性本构(含 Maxwell 粘性元件), 统一弹性 / 塑性 / 粘流,参数仍由 video diffusion + SDS 蒸馏。

PhysAvatar — Learning the Physics of Dressed 3D Avatars
ECCV 2024 avatar Zheng et al. · arXiv:2404.04421 · project

关键想法:mesh-aligned 4D 高斯做时空 mesh 追踪 + inverse renderer + 物理布料仿真器, 反解面料密度 / 弹性

novel 动作 + novel 光照下衣服会自然摆动——这是纯学习方法做不到的物理外推

i-PhysGaussian — Implicit Physical Simulation for 3D Gaussian Splatting

关键想法:把 PhysGaussian 的显式 MPM 时间步换成 隐式 Newton + GMRES 求解器,$\Delta t$ 可放大 $20\times$,长时间仿真不再炸。

把硬核数值方法引入"高斯就是物质点"管线,使长时间仿真变得稳定。

§9mono 单目野外派

一台手机晃过一个动态场景——任意瞬间只有一个视角,形状/运动/相机歧义不可分离。 数学上这是病态问题。这一派的共同药方:把 2D 基础模型当 oracle—— 单目深度网络 (Depth-Anything, Marigold) 提供几何先验, 长程点轨迹模型 (CoTracker) 提供运动先验, 光流网络提供局部位移先验。

MoSca — Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds
arXiv 2024 Lei, Daniilidis et al. · UPenn · arXiv:2405.17421 · project

关键想法:先用 CoTracker + 单目深度, 把视频里几百条 2D 轨迹"举升"成 4D 时空骨架 (scaffold); 再把高斯融合到骨架上,让它们继承附近骨架节点的运动。 bundle adjustment 同时优化相机位姿——不需要预先知道相机内外参。

形变场派早期都要 SfM-COLMAP;MoSca 把"无位姿野外视频"也纳入射程。

受限于深度 / 跟踪网络的精度;薄物 / 透明物失败;长视频显存爆。

Shape of Motion — 4D Reconstruction from a Single Video
ICCV 2025 Wang, Ye, Wang, Kanazawa et al. · Berkeley · arXiv:2407.13764 · project

关键想法:假设"人在跳舞"这种运动可被 $\sim 20$ 条 SE(3) 基线性组合表达(PCA 风格)。 每个高斯只学一组权重 $w_{i,b}$:

$$ T_t^i = \sum_{b=1}^{B} w_{i,b}\, T_b(t),\quad T_b(t) \in \mathrm{SE}(3) $$

融合单目深度 + 长程 2D 轨迹 (CoTracker) → 全局一致的 3D 轨迹。

不只 novel-view 渲染,输出每个 3D 点完整时段的世界坐标轨迹—— 机器人 / 动作识别真正需要的东西。

低秩假设不适合混乱运动(爆炸、流体);依赖 CoTracker 质量。

Gaussian Marbles — Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos
SIGGRAPH Asia 2024 Stearns et al. · Stanford · arXiv:2406.18717

关键想法:单目下椭球高斯太"自由",容易过拟合一个视角。 干脆把所有高斯换成各向同性的圆球弹珠——少一些自由度,单目问题更约束。 分而治之:先重建短窗口,再分层合并成全局一致的轨迹。

其他单目派靠"外加先验"约束病态优化;Marbles 靠"减少模型容量"约束。 哲学不同,结果同样稳。

§10avatar 人体 / Avatar 派

人体有强结构先验——SMPL(人体参数化网格模型)。 几乎所有这派工作的套路都一样:在 canonical T-pose 空间撒高斯, 用 LBS 把它们送到目标 pose,再用一个小 MLP 学姿态相关的衣物皱褶。

3DGS-Avatar — Animatable Avatars via Deformable 3D Gaussian Splatting
CVPR 2024 Qian et al. · arXiv:2312.09228

关键想法:SMPL 是骨架,高斯是会动的衣服。 LBS 把每个高斯按"骨头权重"插值变换,再加一个小 MLP 修正皱褶。

NeRF 系人体(HumanNeRF / Vid2Avatar)训练几天 / 渲染 $\lt 1$ FPS; 3DGS-Avatar:30 分钟训练,50+ FPS

裙子 / 披风等宽松衣物破坏 LBS;要求 SMPL 拟合精确。

GaussianAvatar — Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians
CVPR 2024 Hu et al. · arXiv:2312.02134 · project

关键想法:加入姿态相关外观网络—— 高斯的颜色 / 不透明度会随 pose 变(手肘弯曲时才出现的衣袖褶皱); 同时联合优化 SMPL 拟合,在野外单目视频更鲁棒。

3DGS-Avatar 要求 SMPL 完美;GaussianAvatar 允许 SMPL 有噪声。

Animatable Gaussians — Learning Pose-Dependent Gaussian Maps for High-Fidelity Human Avatar Modeling
CVPR 2024 Li et al. · arXiv:2311.16096

关键想法:把 3D 高斯展开成两张 2D 贴图(人体前后投影), 用 StyleGAN 风格的 2D CNN 预测每像素高斯参数。 CNN 的归纳偏置专门擅长高频细节。

MLP 派擅长平滑、缺乏锐利皱褶;CNN 在 2D 贴图上直接生成锐利布料褶皱—— CVPR'24 同期里布料皱褶最锐利的方法。

需要多视角训练数据;侧面细节由 2 贴图参数化丢失。

§11gen 4D 生成派

前面七派全是"重建":有视频,要拟合。 这一派是"生成":从一句话、一张图、一段视频,无中生有出一段 4D 高斯动画。 核心机制:用视频扩散多视角扩散提供监督 (SDS loss 或直接生成多视图样本注入),再蒸馏成 4D-GS。

L4GM — Large 4D Gaussian Reconstruction Model
NeurIPS 2024 Ren, Xie, Jiang, ... · NVIDIA · arXiv:2406.10324 · project

关键想法:在 12M 视频 / 300M 帧上预训一个 transformer: 扔进去一段单目视频,1 秒内吐出每帧的 3D 高斯(带时间自注意力保证一致)。

第一个 feed-forward 4D LRM;和 GS-LRM 对静态做的事完全对应—— 把"per-scene 优化"压成"一次推理"。

对象级;背景杂乱会失败。

Diffusion4D — Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models
NeurIPS 2024 Liang et al. · arXiv:2405.16645

关键想法:把视频扩散 fine-tune 成"4D-aware"—— 给一句话 / 一张图,一次生成多视角同步的轨道环绕视频, 再拿这一束视频去拟合 4D-GS。

text-to-4D 老路(4DFy, Animate124)要 SDS 优化几小时; Diffusion4D 收缩到分钟级

SC4D — Sparse-Controlled Video-to-4D Generation and Motion Transfer
ECCV 2024 Wu et al. · arXiv:2404.03736

关键想法:把 SC-GS 的稀疏控制点搬到 video-to-4D 生成—— 顺便免费得到一项能力:把控制点轨迹从 A 视频"剥下来"贴到 B 形状上做 motion transfer

Animate3D — Animating Any 3D Model with Multi-view Video Diffusion
NeurIPS 2024 Jiang et al. · project

关键想法:给任意静态 3D 资产(Blender 模型 / LRM 输出),多视渲染后让 multi-view video diffusion 推一段 4D-一致的动画,最后蒸馏回 4D-GS。

保住原资产 identity——不会被 text-only 生成给变脸。

4D-LRM — Large 4D Reconstruction Model for Time-Continuous Novel View Synthesis
2025 Ma et al. · arXiv:2506.18890 · project

关键想法:GS-LRM 的 4D 版本。 给任意 $\text{视角} \times \text{时间}$ 对的 posed 图像,一次性预测各向异性 4D 高斯场。 把时间当 first-class 维度,跨时间插值更平滑——理论上无穷帧率。

L4GM 是 per-frame 3D + 时间 attn;4D-LRM 直接预测真·4D 原语。

MotionGS — Compact Gaussian Splatting SLAM by Disentangling Optical Flow
NeurIPS 2024 Zhu et al. · arXiv:2410.07707 · project

关键想法:形变 MLP 在没有观测约束时会乱编轨迹。 MotionGS 强制把高斯运动投影到 2D 后吻合解耦后的光流 (剥除相机自身造成的 flow,只留物体 flow),同时联合优化相机位姿。

§12时间线 2023 → 2026

点的颜色对应流派;按 arXiv v1 时间排序。看一眼就能感受到 2023 年底的"寒武纪大爆发"——三个月里六大流派几乎同时萌芽。

2023.073D Gaussian Splatting (Kerbl)SIGGRAPH'23 · 静态原点
2023.08Dynamic 3D Gaussians (Luiten)最早把 3DGS 推向动态 + 6-DoF 跟踪
2023.09D-3DGS (Yang)形变场派原型 · canonical + MLP
2023.104D-GS / HexPlane (Wu)同范式,MLP→HexPlane,82 FPS
2023.10真·4D-GS (Yang ICLR'24)时空原子派开山 · 4D 协方差
2023.11PhysGaussian物理派开山 · MPM + 高斯
2023.11DynMF$K$ 条共享神经轨迹基
2023.11Animatable Gaussians2D 贴图 + StyleGAN-CNN
2023.12GaussianAvatar / 3DGS-AvatarSMPL + LBS + 高斯外衣
2023.12HiFi4GED-graph + 高斯,$25\times$ 压缩
2023.12SC-GS稀疏控制派 · 可编辑动画
2023.12GauFRe静/动分离 · 单目 30+ FPS
2023.12Spacetime Gaussians (STG)多项式 + 时间高斯不透明度
2024.03Gaussian-Flowpoly + Fourier + 解析光流监督
2024.04E-D3DGS修复 D-3DGS 的运动平滑病
2024.04DG-Mesh从形变高斯里提时序一致 mesh
2024.04SC4Dvideo-to-4D + 运动迁移
2024.04PhysDreamer · PhysAvatar从视频扩散蒸馏材料参数
2024.05MoSca4D motion scaffold + 无相机位姿
2024.05Diffusion4D4D-aware 视频扩散 → 4D-GS
2024.06MoDGS静相机单目,依赖单目深度
2024.06SP-GS · MaGS超点 / mesh-adsorbed
2024.06Gaussian Marblesisotropic 弹珠 + 分层合并
2024.06L4GM第一个 feed-forward 4D LRM
2024.06Physics3D粘弹性本构 + SDS
2024.07Shape of Motion低秩 SE(3) 基 + 全程 3D 跟踪
2024.10MotionGS光流解耦 + 联合相机位姿
2024.114D Scaffold GS · FreeTimeGS4D 表示压缩潮流
2024.11Animate3D静态资产 → 4D 动画(保 identity)
2025.06DGS-LRM · 4D-LRM真正端到端 feed-forward 时代
2026.02i-PhysGaussian隐式 MPM,长仿真稳定

§13横向对比表

把代表作放在五个维度上一字排开。capture 表示需要的输入条件,拓扑 表示能否处理出现 / 消失。

方法流派时间编码capture拓扑关键卖点
Dynamic-3DGStrackper-frame $(\mu_t,q_t)$多视角稠密 6-DoF 跟踪
D-3DGSdef$F_\theta(\gamma(\mu),\gamma(t))$单目形变场原型
4D-GS (Wu)defHexPlane单/多82 FPS, 8 min 训
DynMFst$K$ 神经轨迹多视角~120+ FPS · 免费分割
Spacetime GSst多项式 + $\sigma(t)$多视角瞬态物体
SC-GSsparse控制点 SE(3) + LBS单/多~可拖动编辑
Gaussian-Flowstpoly + Fourier多视角~$5\times$ 训练 · 解析光流
GauFRedefMLP warp + 静/动单目~实时单目
E-D3DGSdef$F_\theta(z_i,\gamma(t))$单目修复平滑病
PhysGaussianphysMPM 演化静态资产WS² 物理仿真
HiFi4GstED 图 + KNN 高斯图多视角~$25\times$ 压缩
3DGS-AvataravatarSMPL + LBS多视角30 min · 50+ FPS
Animatable Gauss.avatar2D 贴图 + CNN多视角最锐皱褶
MoScamono4D scaffoldcasual 单目~无需位姿
MoDGSdefmonoMLP + 深度先验静相机单目静相机也行
Shape of Motionmono$B$ SE(3) 基单目~全程 3D 跟踪
Gaussian Marblesmonoisotropic + 分层单目~稳定不漂浮
L4GMgenper-frame GS + attn单目 (FF)1 秒推理
Diffusion4Dgen4D 扩散 + 蒸馏文 / 图分钟级 text-to-4D
4D-LRMgenper-pixel 4D 高斯posed 多视~真·4D 端到端
i-PhysGaussianphys隐式 MPM静态资产$\Delta t \times 20$

"~" = 部分支持(借助高斯生长/剪除间接处理);"—" = 不适用。

§14如何挑方法 · 30 秒决策树

假设你要选一篇方法做实验。沿着下面这棵树走一遍,应该 30 秒内能定位到 1–2 篇候选。

  • 你的输入是什么?
    • 📷 多视角同步 rig
      • 需要稠密 6-DoF 跟踪?Dynamic 3D Gaussians (Luiten)
      • 追极致质量 + 瞬态物体?Spacetime Gaussians真·4D-GS (Yang ICLR)
      • 人体表演 + 强压缩?HiFi4G
    • 📱 单目视频(相机有运动)
      • 要快 / demo?4D-GS (Wu)D-3DGS
      • 需要 3D 轨迹输出?Shape of MotionMoSca
      • 要可编辑?SC-GSSP-GS
    • 📱 单目视频(相机静止)MoDGS(深度先验救命)
    • 🧍 人体专用
      • 通用快速?3DGS-Avatar / GaussianAvatar
      • 追皱褶细节?Animatable Gaussians
      • 想做衣物物理外推?PhysAvatar
    • 🧊 已有静态 3D 资产 → 想让它动
      • 真实物理(弹/塑/沙/流体)PhysGaussian / i-PhysGaussian
      • 想象式动画Animate3D
    • 💭 只有一句话 / 一张图Diffusion4D / SC4D
    • 无所谓质量,要 feed-forward 秒级L4GM / DGS-LRM / 4D-LRM

§15入门者学习路线图

如果你是从 NeRF/SDF 进入这片领域,建议按下面顺序读论文 + 复现代码,大约 2–3 周可以从外行到能跑实验。

第一周 · 基础 3DGS + 第一根藤蔓

  1. 3DGS (Kerbl 2023) 原论文 — 重点看 §3 splatting 数学和 §5 自适应密度控制。官方代码 跑一个 MipNeRF360 场景。
  2. D-3DGS (Yang 2023) — 跑通形变场派最小例子。理解 stop-gradient 为什么必要。
  3. Dynamic 3D Gaussians (Luiten) — 看三条 rigidity loss 怎么写代码。

第二周 · 范式分水岭

  1. 4D-GS (Wu)真·4D-GS (Yang ICLR) 对比读 — 一篇一晚,差异就深刻了。
  2. Spacetime Gaussians — 学会用多项式 + 时间高斯包络替代 MLP。
  3. SC-GS — 第一次接触 LBS / ARAP;图形学传统智慧重回 3DGS 的代表。
  4. PhysGaussian — 哪怕你不做物理,也要看看 MPM 流程,理解 WS² 哲学。

第三周 · 进阶专题(按方向选)

  • 单目野外:MoSca → Shape of Motion → MoDGS → Gaussian Marbles
  • 人体:3DGS-Avatar → Animatable Gaussians → PhysAvatar
  • 4D 生成:L4GM → Diffusion4D → Animate3D → 4D-LRM
  • 压缩 / 工程:HiFi4G → 4D Scaffold GS → FreeTimeGS → Optimized Minimal 4D GS

必备背景补强

  • LBS:计算机动画教材的"skinning"章节;理解 $\mathbf{x}' = \sum_b w_b T_b \mathbf{x}$。
  • SMPL:Loper 2015 SIGGRAPH Asia 原论文。
  • MPM:Stomakhin et al. 2013 (雪人) 或 ChenFanFu MPM course;P2G/G2P 流程。
  • HexPlane / K-Planes:K-Planes CVPR'23;"3D 场分解成几张 2D 平面"是个普适技巧。
  • SE(3) Lie 代数:Barfoot 《State Estimation for Robotics》 第 7 章;为 Shape of Motion 做准备。
  • Score Distillation Sampling (SDS):DreamFusion;4D 生成派的基础。

§16参考文献

按本文出现顺序列出,每条都带 arXiv 链接。颜色对应流派。

  1. Kerbl et al., 3D Gaussian Splatting for Real-Time Radiance Field Rendering, SIGGRAPH 2023. arXiv:2308.04079
  2. track Luiten et al., Dynamic 3D Gaussians, 3DV 2024. arXiv:2308.09713
  3. def Yang et al., Deformable 3D Gaussians, CVPR 2024. arXiv:2309.13101
  4. def Wu et al., 4D-GS: 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering, CVPR 2024. arXiv:2310.08528
  5. st Yang et al., Real-time Photorealistic Dynamic Scene Representation, ICLR 2024. arXiv:2310.10642
  6. phys Xie et al., PhysGaussian, CVPR 2024. arXiv:2311.12198
  7. st Kratimenos et al., DynMF, ECCV 2024. arXiv:2312.00112
  8. avatar Li et al., Animatable Gaussians, CVPR 2024. arXiv:2311.16096
  9. avatar Hu et al., GaussianAvatar, CVPR 2024. arXiv:2312.02134
  10. avatar Qian et al., 3DGS-Avatar, CVPR 2024. arXiv:2312.09228
  11. st Jiang et al., HiFi4G, CVPR 2024. arXiv:2312.03461
  12. sparse Huang et al., SC-GS, CVPR 2024. arXiv:2312.14937
  13. def Liang et al., GauFRe, WACV 2025. arXiv:2312.11458
  14. st Li et al., Spacetime Gaussian Feature Splatting, CVPR 2024. arXiv:2312.16812
  15. st Lin et al., Gaussian-Flow, CVPR 2024. arXiv:2403.12365
  16. def Bae et al., Per-Gaussian Embedding Deformation, ECCV 2024. arXiv:2404.03613
  17. sparse Liu et al., DG-Mesh, ICLR 2025. arXiv:2404.12379
  18. gen Wu et al., SC4D, ECCV 2024. arXiv:2404.03736
  19. phys Zhang et al., PhysDreamer, ECCV 2024. arXiv:2404.13026
  20. phys Zheng et al., PhysAvatar, ECCV 2024. arXiv:2404.04421
  21. mono Lei et al., MoSca, 2024. arXiv:2405.17421
  22. gen Liang et al., Diffusion4D, NeurIPS 2024. arXiv:2405.16645
  23. defmono Liu et al., MoDGS, ICLR 2025. arXiv:2406.00434
  24. sparse Ma et al., MaGS, SIGGRAPH Asia 2024. arXiv:2406.01593
  25. sparse Wan et al., SP-GS, ICML 2024. arXiv:2406.03697
  26. phys Liu et al., Physics3D, 2024. arXiv:2406.04338
  27. gen Ren et al., L4GM, NeurIPS 2024. arXiv:2406.10324
  28. mono Stearns et al., Dynamic Gaussian Marbles, SIGGRAPH Asia 2024. arXiv:2406.18717
  29. mono Wang et al., Shape of Motion, ICCV 2025. arXiv:2407.13764
  30. gen Zhu et al., MotionGS, NeurIPS 2024. arXiv:2410.07707
  31. gen Jiang et al., Animate3D, NeurIPS 2024. animate3d.github.io
  32. st Cho et al., 4D Scaffold Gaussian Splatting, 2024. arXiv:2411.17044
  33. gen DGS-LRM, 2025. arXiv:2506.09997
  34. gen Ma et al., 4D-LRM, 2025. arXiv:2506.18890
  35. phys i-PhysGaussian, 2026. arXiv:2602.17117