A pedagogical survey · 2023.07 — 2026.05

可变形 3D Gaussian Splatting

把高斯从静止教会跳舞、变形、撕裂、生长——这是过去三年所有可变形 3DGS 工作共同想解决的问题。本文从 Kerbl 等人 2023 年的原始论文一路讲到 2026 年最新前沿，尽量讲清每篇文章一句话的关键想法与 它跟邻居方法的本质区别。

预设读者：会基本的 NeRF（体渲染、MLP radiance field）、SDF（level set、marching cubes）、基础线代、基础机器学习。本文不再赘述这些，直接以 NeRF/SDF 作为对照锚点。

约 32 篇论文 · 八大流派 · 最后更新 2026-05-19

阅读路径建议

第一次接触动态 3DGS：从 §1 顺序读到 §3 把"八大流派"的地图记住，再按你研究的方向去对应章节（形变场 / 时空 / 稀疏 / 物理 / 单目 / 人体 / 生成）。已经熟悉静态 3DGS：可以从 §4 形变场派直接开始；想看最近一年的 SOTA：跳到 §11 4D 生成派和 i-PhysGaussian。

NeRF 早在 2020 年就被拽进了动态领域（D-NeRF、HyperNeRF、Nerfies、K-Planes…）。但 NeRF 的核心瓶颈——体渲染要沿光线积分数百次 MLP 查询——让动态版的训练动辄几十小时、渲染 $\lt 1$ FPS。 2023 年 7 月，3D Gaussian Splatting 用一堆显式椭球 + GPU 光栅化彻底改写了交易条件：重建从小时降到分钟，渲染从 1 FPS 升到 100+ FPS。

这意味着真正实时的动态神经场第一次变得可能 —— 游戏、VR、远程会议、机器人感知、4D 内容生成的需求齐齐压过来。于是 2023 年 8 月起，论文像潮水一样涌出：从 Dynamic 3D Gaussians 开局，到今天每周还在 arXiv 出新的 4D-LRM 和物理派变体。

关于命名混淆

"4D Gaussian Splatting" 这个名字下有两篇不同作者的论文： Wu et al. CVPR'24（属形变场派，用 HexPlane）与 Yang et al. ICLR'24（属时空原子派，用 4D 协方差）。底层思想几乎相反。本综述会反复强调这条分水岭。

§130 秒回顾静态 3DGS

假设你已经熟悉 NeRF 的体渲染和 SDF 的 marching cubes。我们快速把静态 3DGS 的三件套对齐到你已有的概念锚点上。

① 基元：椭球而不是采样点

NeRF 把场景表达成一个 MLP $F_\theta(\mathbf{x}, \mathbf{d}) \to (\sigma, \mathbf{c})$； SDF 把场景表达成一个 MLP $F_\theta(\mathbf{x}) \to d$。 3DGS 把场景表达成 $N$ 个显式的 3D 各向异性高斯：

$$ G_i(\mathbf{x}) = \exp\!\Big(-\tfrac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^\top \Sigma_i^{-1} (\mathbf{x}-\boldsymbol{\mu}_i)\Big) $$

每个高斯携带 $(\mu, \Sigma, \alpha, \text{SH})$：位置、协方差、不透明度、球谐颜色系数。为保证 $\Sigma$ 正定，参数化为 $\Sigma = R S S^\top R^\top$，$S$ 是缩放对角阵、$R$ 是四元数转的旋转。这是后面所有"形变高斯"的物理基础——形变本质就是改 $\boldsymbol{\mu}, R, S$。

② 渲染：splat 替代 ray march

高斯往相机平面的投影仍是 2D 高斯（线性近似下）。像素颜色用 front-to-back $\alpha$-blending：

$$ C(\mathbf{p}) = \sum_{i \in \mathcal{N}} c_i\,\alpha_i \prod_{j=1}^{i-1}(1-\alpha_j) $$

形式上和 NeRF 的体渲染同构，但不再需要沿光线采几百个点——用瓦片排序光栅化一次性把所有 splat 拍上去，GPU 极快。

③ 优化：adaptive density control

L1 + D-SSIM 像素损失反传到所有高斯参数。训练中根据梯度幅度做克隆 / 分裂 / 剪除：欠拟合处分裂出更小的高斯，多余的剪掉。这是 3DGS 区别于 NeRF 的关键工程细节—— 让"基元数量"自适应于场景复杂度，因而比 NeRF 紧凑得多。

心智迁移 · NeRF/SDF → 3DGS

把"查询函数空间中的一点"换成"在空间里塞一堆显式椭球，然后把它们光栅化"。 NeRF 的形变 = 改 $F_\theta$；3DGS 的形变 = 改这堆椭球的 $(\boldsymbol{\mu}_i, R_i, S_i, \alpha_i)$。后者更具体、更可编辑、也更难保持时空一致。

§2动态场景到底难在哪

"高斯动起来"听起来只是给每个椭球加上时间下标。但魔鬼藏在四个细节里—— 这四个挑战决定了后面每个流派的设计选择。

① 外观变化

同一个点在不同时刻颜色不同（阴影、镜面、自发光）。

"球谐系数也得是时间的函数"

② 几何变化

同一物体的某个点在不同时刻位置不同（弯曲、伸缩）。

"$\boldsymbol{\mu}_i(t)$ 怎么参数化？"

③ 拓扑变化

点会消失（被遮挡）、会出现（飞过画面）、会分裂（杯子摔碎）。

"canonical 集合根本装不下"

④ 对应 / 跟踪

谁是谁的"前世今生"？这是 4D 重建 vs 4D 重渲染的分水岭。

"想做机器人/编辑就绕不开"

再叠上观测端的两层难度：多视角（一群同步相机看动态）相对容易； 单目野外（一台手机晃过去）几乎是病态的，任意瞬间只有一个视角，形状/运动/相机的歧义不可分离。这就是为什么 2024–2026 的工作越来越依赖 foundation prior：单目深度网络、长程点轨迹模型 (CoTracker)、视频扩散——都被拿来给优化注入先验。

§3范式地图 · 八大流派

把 30+ 篇论文按"时间如何被编码进高斯"切片，会自然涌出八个流派。每个流派的标签色会贯穿全文：以后看到 def 就知道是形变场派、 st 是时空派，依此类推。

① 形变场派

一团 canonical 高斯 + 时间相关形变 MLP / HexPlane。

类比：橡皮泥 + 一份"按时序变形"的指令。

② 时空原子派

每个高斯本身就是 4D 椭球；时间作为第四维度。

类比：时空中漂浮的灯笼，自带寿命。

③ 跟踪派

每帧独立的 3D 高斯 + 时间正则把它们"牵手"。

类比：一群粒子各自漂移但彼此牵手。

④ 稀疏控制派

少量控制点/超点/mesh 提供运动；高斯通过 LBS 跟着动。

类比：木偶上的几根提线。

⑤ 物理派

MPM / XPBD 等物理仿真器主动驱动高斯。

类比：把高斯当成会流动的物质点。

⑥ 单目野外派

单相机+深度/光流/跟踪 prior 兜底，做病态问题。

类比：用一只眼睛+大量经验拼出立体雕塑。

⑦ 人体 / Avatar 派

SMPL 骨骼 + LBS + 高斯外衣 + 姿态相关皱褶。

类比：给骨架穿一件会鼓胀的高斯衣。

⑧ 4D 生成派

扩散先验生成多视/多时图像；解码成 4D 高斯。

类比：让 AI 做梦出一段 4D 动画。

这八派并不互斥——SC-GS 同时属于形变场+稀疏控制；Shape-of-Motion 同时属于形变场+单目； PhysAvatar 同时属于物理+人体。但把握主轴比精确分类重要：每篇论文的核心创新都能映射到这八条主轴中的一两条上。

横轴：高斯运动的显式程度（左：函数化形变，右：每个高斯自带轨迹/4D）；纵轴：注入的结构性先验强度。

§4def 形变场派

最早成型、影响最大的范式。一套"canonical 3D 高斯 + 时间形变函数 $\mathcal{D}(\cdot, t)$"两段式架构。可以理解为 D-NeRF 在 3DGS 上的直接移植——但工程上更轻、训练更快。

核心公式只有一行：

$$ (\Delta \boldsymbol{\mu}_i,\,\Delta r_i,\,\Delta s_i) = \mathcal{D}_\theta\big(\gamma(\boldsymbol{\mu}_i),\, \gamma(t)\big) $$

$\gamma$ 是 NeRF 风格的正弦位置编码；$\mathcal{D}_\theta$ 可以是 MLP（D-3DGS），也可以是 HexPlane 等显式网格（4D-GS Wu）。渲染时拿 $(\boldsymbol{\mu}_i+\Delta\boldsymbol{\mu}_i,\,r_i+\Delta r_i,\,s_i+\Delta s_i)$ 走标准 3DGS 管线。

D-3DGS — Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction

CVPR 2024 Yang, Gao, Zhou, Jiao, Zhang, Jin · arXiv:2309.13101 · project

Dynamic 3D Gaussians (Luiten) 要每帧每个高斯都存独立位姿——必须多视角棚拍。单目动态视频根本拟合不出来。

关键想法：保留一团 canonical 高斯集合，再训一个共享的小 MLP $\mathcal{D}_\theta$，输入 $(\text{position}, \text{time})$，输出该帧该高斯的 $(\Delta\boldsymbol{\mu}, \Delta r, \Delta s)$。存储常数级、单目可训。论文还提出 AST（annealing smooth training）：训练时给输入时间加上逐渐衰减的高斯噪声 $\hat t = t + \epsilon$，对 COLMAP 不准的相机位姿更鲁棒。

Luiten 的 Dynamic-3DGS 是per-Gaussian-per-frame；D-3DGS 把时间收编为一个共享函数，储存量从 $O(N \cdot T)$ 降到 $O(N + |\theta|)$，且无需多视角。

大位移、复杂关节运动会被 MLP "糊掉"；拓扑变化无解；坐标共享导致邻居被迫同步运动。

4D-GS (Wu) — 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

CVPR 2024 Wu, Yi, Fang, Xie, Zhang, Wei, Liu, Tian, Wang · arXiv:2310.08528 · project

D-3DGS 的形变 MLP 推理慢——每渲染一帧都要前向几百万次。

关键想法：把"指令书 MLP"换成 HexPlane—— 六张二维特征平面 (XY, XZ, YZ, XT, YT, ZT) 覆盖 $(x,y,z,t)$ 全空间，双线性插值后用小 MLP 解码出 $(\Delta\boldsymbol{\mu}, \Delta r, \Delta s)$：

$$ f_h(\mathbf{x},t) = \!\!\bigcup_{l\in\{1,2\}}\!\!\prod_{(i,j)} \mathrm{interp}\big(R_l(i,j)\big) $$

查表+小 MLP 远快于大 MLP；同样的范式直接来自 K-Planes / HexPlane 对动态 NeRF 的提速。

同样的"canonical + 形变"两段式结构；唯一差别在于形变场表示—— MLP → 网格分解。8 分钟训练，82 FPS 渲染 on D-NeRF synthetic。

⚠ 命名冲突

这是 Wu et al. CVPR'24 的 4D-GS，属def。另有一篇 Yang et al. ICLR'24 也叫 4D Gaussian Splatting，却是真·4D 高斯（属st）。详见 §5 · 真·4D-GS。

论文自述"大运动、缺乏背景点、相机位姿不准"都会破坏优化；HexPlane 低分辨率限制细节。

E-D3DGS — Per-Gaussian Embedding-Based Deformation

ECCV 2024 Bae et al. · arXiv:2404.03613

D-3DGS 用位置 $\boldsymbol{\mu}_i$ 查形变 MLP——结果两个邻居高斯被强制运动相同，哪怕它们其实属于不同的运动物体。这就是"运动平滑病"的根源。

关键想法：给每个高斯发一个唯一身份证 $z_i$（可学习 latent），让 MLP 看身份证而不是位置：

$$ (\Delta\boldsymbol{\mu}_i, \Delta r_i, \Delta s_i) = F_\theta(z_i, \gamma(t)) $$

邻居高斯可以独立运动——运动平滑病解除。

一行架构改动，明确诊断并修复了 D-3DGS 最常被诟病的失败模式。

$z_i$ 数量 = 高斯数 → 参数膨胀；过拟合风险更高。

GauFRe — Gaussian Deformation Fields for Real-time Dynamic Novel View Synthesis

WACV 2025 Liang et al. · arXiv:2312.11458 · project

D-3DGS / 4D-GS 在静态场景上也会让形变 MLP 强行解释一切—— 背景里的墙明明不动，MLP 却给它编一个"伪运动"，反而抹掉了细节。

关键想法：同时维护两团高斯——一团永远不动（静态背景），一团带形变 MLP（动态前景）；引入归纳偏置"能解释成静态就别动"，避免形变 MLP 吞掉整个场景。

首个在 3DGS 形变场范式下做无监督静/动分离的工作，$\gt 30$ FPS 实时单目。

大部分像素都在动的场景（近距离人像）静态先验失效。

MoDGS — Dynamic Gaussian Splatting from Casually-captured Monocular Videos with Depth Priors

ICLR 2025 mono Liu et al. · arXiv:2406.00434

手机架在三脚架上拍跳舞——相机不动 = 没有视差 = 所有形变场方法都崩溃。

关键想法：把单目深度网络（Depth-Anything 等）拉进来当"独眼龙的预言家"—— 给优化注入 3D-aware 初始化；用 ordinal depth loss 只信深度的相对顺序，不信绝对尺度。

把形变场派的适用边界从"相机环绕物体的单目视频"推到"静相机拍动态"—— 后者之前是所有 3DGS 动态方法的禁区。

依赖深度网络质量；玻璃 / 镜面 / 无纹理面失败。

DGS-LRM — Feed-Forward Deformable Gaussian Large Reconstruction Model

2025 gen · arXiv:2506.09997

前面这些都要"每个视频跑半小时优化"。

关键想法：训一个大 transformer，给它单目视频和位姿，秒级吐出每像素的 deformable 3D 高斯——告别 per-scene 优化。

把形变场派从"每场景训练"推到"feed-forward 推理"—— 和 GS-LRM、Splatter-Image 对静态 3DGS 做的事完全平行。

§5st 时空原子派

与形变场派针锋相对的另一极。不要 canonical、不要外挂 MLP—— 直接把"时间"写进每个高斯本身的参数，让它变成 4D 椭球，或者带显式时间多项式。

分水岭口诀（建议反复念三遍）

"有没有 canonical 帧？" 有 → def；没有 → st。
"时间是函数输入，还是参数输入？" 进 MLP → def；写在每个高斯自己的 $\boldsymbol{\mu}_i(t)$ 解析式里 → st。
"能否自然描述瞬时出现/消失？" 不能 → def；能 → st。

真·4D-GS (Yang) — Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting

ICLR 2024 Yang, Yang, Pan, Zhang · Fudan ZVG · arXiv:2310.10642 · project

形变场派假设"同一组高斯必须从头到尾存在"——对于瞬时出现的鸟、闪光、爆炸全部失效。

关键想法：把每个高斯升维成时空中的 4D 椭球。 4D 协方差用两个单位四元数 $q_l, q_r$ 拼成 4D 旋转： $\Sigma_{4D} = R S S^\top R^\top$，$R = L(q_l) R(q_r)$，$S = \mathrm{diag}(s_x, s_y, s_z, s_t)$。给定 $t$，按多元高斯条件分布公式：

$$ \boldsymbol{\mu}_{xyz\mid t} = \boldsymbol{\mu}_{1:3} + \Sigma_{1:3,4}\Sigma_{4,4}^{-1}(t-\mu_t) $$ $$ \Sigma_{xyz\mid t} = \Sigma_{1:3,1:3} - \Sigma_{1:3,4}\Sigma_{4,4}^{-1}\Sigma_{4,1:3} $$

边缘时间不透明度 $p(t)=\mathcal{N}(t;\mu_4, \Sigma_{4,4})$ 让每个高斯天然有"出生 / 死亡"。外观用 4D 球柱谐函数（球谐 ⊗ 时间 Fourier 基）。

形变场派："canonical + 形变指令"；本派："每个高斯就是 4D 物体"。瞬时事件天然支持——一个 1 秒的爆炸就是几千个"短寿命 4D 椭球"，canonical 派完全做不到。

每个高斯多 4-10 倍参数；远景静态背景需要 spherical 初始化兜底。

Spacetime Gaussians (STG) — Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis

CVPR 2024 Li et al. · arXiv:2312.16812 · project

关键想法：不上 full 4D 协方差，而是给每个 3D 高斯加低阶多项式轨迹+时间高斯包络，决定什么时候"在场"：

$$ \boldsymbol{\mu}_i(t) = \sum_{k=0}^{3} \mathbf{b}_{i,k}(t-\mu_i^\tau)^k,\quad \sigma_i(t) = \sigma_i^s\,\exp\!\big(-s_i^\tau (t-\mu_i^\tau)^2\big) $$

球谐换成神经特征 $[\mathbf{f}^{base}, \mathbf{f}^{dir}, (t-\mu^\tau)\mathbf{f}^{time}]$，浅层 MLP 解码 RGB。

解析、无大 MLP；60 FPS@8K。时间高斯不透明度 $\sigma_i(t)$ 天然支持瞬态物体。

需要多视角；多项式表达不出真正的高频抖动（头发、火焰）。

DynMF — Neural Motion Factorization for Real-time Dynamic View Synthesis

ECCV 2024 Kratimenos et al. · arXiv:2312.00112 · project

关键想法：现实场景的运动其实低秩—— 整段视频只用 $K \approx 4{-}20$ 条共享的"运动模板" $\{\boldsymbol{\tau}_k(t)\}$ 就能解释；每个高斯学一组稀疏权重 $w_{i,k}$ 决定跟谁同步：

$$ \boldsymbol{\mu}_i(t) = \boldsymbol{\mu}_i^0 + \sum_{k=1}^{K} w_{i,k}\,\boldsymbol{\tau}_k(t) $$

$\boldsymbol{\tau}_k$ 只依赖 $t$ 可缓存——120+ FPS。$\ell_1$ 稀疏正则让每个点只属于少数运动模式 → 免费的运动分割。

把"每点查 MLP"换成"每点是 $K$ 条共享轨迹的稀疏组合"——既快又得分割。

$K$ 手设；超复杂运动（流体、爆炸）压不进低秩。

Gaussian-Flow — 4D Reconstruction with Dynamic 3D Gaussian Particle

CVPR 2024 Lin et al. · NJU 3DV · arXiv:2403.12365 · project

关键想法：直接丢掉 MLP，让每个属性的时间函数 = "低阶多项式（缓慢漂移）+ 截断 Fourier 级数（周期抖动）"：

$$ \Delta a_i(t) = \underbrace{\sum_{k=0}^{K_p} p_{i,k} t^k}_{\text{poly}} + \underbrace{\sum_{k=1}^{K_f}\!\big[\alpha_{i,k}\cos\tfrac{2\pi k t}{T}+\beta_{i,k}\sin\tfrac{2\pi k t}{T}\big]}_{\text{Fourier}} $$

论文还给出解析光流监督：把高斯投影到 2D 后两帧像素位移可写成 $\text{flow}_i = \Sigma_{t_2}\Sigma_{t_1}^{-1}(\mathbf{x}-\boldsymbol{\mu}_{t_1}) + \boldsymbol{\mu}_{t_2}-\mathbf{x}$，用现成光流网络当监督。

训练 $5\times$ 加速；显式参数 → 高度并行、易编辑；解析光流监督对高速运动尤其有效。

Fourier 截断阶数决定可表达运动；无内置空间正则。

HiFi4G — High-Fidelity Human Performance Rendering via 4D Gaussian Splatting

CVPR 2024 Jiang, Shen, ..., Xu · ShanghaiTech · arXiv:2312.03461 · project

关键想法：把传统非刚体追踪的 Embedded Deformation Graph (ED-graph) 嫁接进 4D 高斯——粗 ED 图节点 $\{R_k, \mathbf{t}_k, \mathbf{g}_k\}$ 提供运动先验：

$$ \hat{\mathbf{x}} = \sum_k w_k\!\left(R_k(\mathbf{x}-\mathbf{g}_k)+\mathbf{g}_k+\mathbf{t}_k\right) $$

细 KNN 高斯图做局部刚性正则；时空自适应正则保证连续。

离散 ED 节点 vs 隐式 MLP 形变——前者可压缩。 HiFi4G 用这条路做出 $25\times$ 压缩、$\lt 2$ MB / 帧的人体表演表示。

仅人体；需密集多视角 capture。

4D Scaffold GS — 4D Scaffold Gaussian Splatting with Dynamic-Aware Anchor Growing

arXiv 2024-11 Cho et al. · arXiv:2411.17044

关键想法：把 4D 基元绑到网格对齐 anchor上，由 MLP 衍生周围 4D 高斯；动态区域 anchor 自适应增长——静态区少生，动态区自动细分。

Spacetime / 真·4D-GS 在存储上很贵；anchor 方案在动态区域质量超越前作的同时显存可控。后续 FreeTimeGS (2506.05348)、Optimized Minimal 4D GS (2510.03857)、 ComGS (2505.16533) 都在这条线上持续做 "4D 表示压缩"。

§6track 跟踪派 · Dynamic 3D Gaussians

这一派只有一篇代表作——但是整条线索的历史起点。它选了第三条道路：不要 canonical、不要 4D，而是让每帧都有独立的 3D 高斯，用物理样的正则项把相邻帧"粘"在一起。

Dynamic 3D Gaussians — Tracking by Persistent Dynamic View Synthesis

3DV 2024 Luiten, Kopanas, Leibe, Ramanan · CMU · arXiv:2308.09713 · project

NeRF 系动态方法都是渲染优先——能给新视角图像但拿不到任何点的轨迹。机器人 / 编辑 / 动作捕捉都需要稠密 6-DoF 跟踪，但 NeRF 没有"点"这个概念。

关键想法：在 27 台同步相机的录影棚里捕捉演员。固定颜色 / 不透明度 / 形状，只优化每帧的位姿 $(\boldsymbol{\mu}_t^i, q_t^i)$；用三条"邻居要一起动"的物理样正则保证时间连续：

$$ \mathcal{L}_{\text{rigid}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big\|(R_t^i)^{-1}(\boldsymbol{\mu}_t^j-\boldsymbol{\mu}_t^i) - (R_0^i)^{-1}(\boldsymbol{\mu}_0^j-\boldsymbol{\mu}_0^i)\big\| $$ $$ \mathcal{L}_{\text{rot}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big\|q_t^j(q_t^i)^{-1} - q_{t-1}^j(q_{t-1}^i)^{-1}\big\| $$ $$ \mathcal{L}_{\text{iso}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big|\|\boldsymbol{\mu}_t^j-\boldsymbol{\mu}_t^i\| - \|\boldsymbol{\mu}_0^j-\boldsymbol{\mu}_0^i\|\big| $$

分别强制 局部刚性、相邻帧旋转一致、长期等距。

第一篇从 3DGS 管线产出稠密 6-DoF 跟踪的工作。可以做 4D 编辑、Gaussian-eye-view、对象合成。论文挖坑、所有后续工作填坑。

必须多视角 rig；不支持拓扑变化和外观变化。

§7sparse 稀疏控制 / 拓扑感知派

形变场派的 MLP 是"每个高斯都自己问 MLP"——昂贵、不可解释、不可编辑。本派的共同想法：先用一组稀疏的"骨架"（控制点、超点、mesh、ED 图）承载运动，再用 Linear Blend Skinning (LBS) 让密集高斯插值跟随。 LBS 是计算机图形学的老朋友：一个点的最终变换 = 它周围若干个"骨头"变换的加权平均。

SC-GS — Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes

CVPR 2024 Huang, Sun, Yang, Lyu, Cao, Qi · arXiv:2312.14937 · project

D-3DGS / 4D-GS 渲染漂亮但不能编辑—— 形变 MLP 是个黑箱，用户拿不到"运动控制器"。

关键想法：把场景看成一只布偶。撒几百个"隐形关节"（控制点 $c$），每个皮毛（高斯 $i$）粘在最近的几个关节上；只让控制点动，皮毛靠 LBS 跟随：

$$ T_i(t) = \sum_{c \in \mathcal{N}(i)} w_{ic}\, T_c(t),\quad T_c(t) = \mathrm{MLP}_\theta(c, t) \in \mathrm{SE}(3) $$

加一项 ARAP (As-Rigid-As-Possible) 损失到控制图上，防止图整体抖动。

第一篇做真正可编辑的动态 3DGS——用户可以鼠标拖控制点重新做动画，不再只能看渲染。

控制点采样密度敏感；只在 HyperNeRF benchmark 上验证。

SP-GS — Superpoint Gaussian Splatting for Real-Time High-Fidelity Dynamic Scene Reconstruction

ICML 2024 Wan et al. · arXiv:2406.03697 · project

关键想法：把运动相似的高斯聚成一团"超点" （类似图像里的 superpixel，但在 4D）；每个超点用一条轨迹，整团成员共享。

SC-GS 的 MLP 推理仍然不便宜；SP-GS 用查表替代 MLP 推理 → 高分辨率下实时编辑；移动一个超点 = 移动一个语义部件（手臂）。

DG-Mesh — Dynamic Mesh-Aware Radiance Field

ICLR 2025 Liu et al. · arXiv:2404.12379 · project

关键想法：一边训形变高斯，一边用可微 Poisson + Marching Cubes 反向提一份 mesh 出来；要求时序里每个顶点对应同一物理点（cycle-consistent 形变）。

下游应用（贴图编辑、物理仿真、动作重定向）需要 mesh； DG-Mesh 把 3DGS 与传统几何流水线接通。

仅对象级；薄结构和深度自遮挡仍困难。

MaGS — Mesh-adsorbed Gaussian Splatting

SIGGRAPH Asia 2024 / ICCV 2025 Ma et al. · arXiv:2406.01593 · project

关键想法：把每个高斯贴在一片三角面之上（像魔术贴上的小毛刺）。 mesh 提供仿真友好的结构，高斯提供光真渲染细节。两个网络协作： RMD-Net 学 mesh 的运动；RGD-Net 学高斯相对 host triangle 的微位移。

DG-Mesh 是"先 GS，再提 mesh"；MaGS 是"mesh 是主结构，GS 是外饰"—— 后者拿到的 mesh 直接 simulation-ready。

§8phys 物理派

形变场是"被动拟合观测"；物理派是主动从物理方程演化形变。一个外力打下去，高斯按弹性 / 塑性 / 沙土 / 牛顿流体的本构方程动起来——不需要训练视频。这一派的灵魂口号："What you See is What you Simulate" (WS²)。

PhysGaussian — Physics-Integrated 3D Gaussians for Generative Dynamics

CVPR 2024 Highlight Xie, Yang, Yang, Zheng, Liu, Wang, Wang, Lu, Jiang · arXiv:2311.12198 · project

要让 3DGS 物体"被戳一下会晃"，传统做法：先把高斯转 mesh，再扔进物理引擎—— mesh 化质量决定一切，转换 + 重渲染会引入大量 artifact。

关键想法：每个 3D 高斯既是渲染基元，又是 MPM 仿真粒子。 MPM (Material Point Method) 是把连续介质离散成"质点 + 背景网格"的经典图形学算法。形变梯度更新与高斯协方差被拉伸是一体两面：

$$ F_p^{n+1} = (I + \Delta t \nabla \mathbf{v}_p)\,F_p^n,\quad \Sigma_p(t) = F_p(t)\,A_p\,F_p(t)^\top $$ $$ f^t(\mathbf{d}) = f^0(R_p^\top \mathbf{d}),\quad F_p = R_p S_p \;\text{（球谐随旋转部分转动）} $$

没有 mesh 化中间步；所见即所仿。打开了"3DGS + 物理仿真"这条新流派。

材料参数手动设；阴影不演化；几何重建质量决定仿真稳定性。

PhysDreamer — Physics-Based Interaction with 3D Objects via Video Generation

ECCV 2024 Zhang et al. · arXiv:2404.13026

关键想法：PhysGaussian 要手设杨氏模量 → PhysDreamer 让视频扩散模型 "想象"这个物体被戳一下应该怎么晃，反传出每个高斯的物理参数 $E_i$。

把"手设材料"换成"从视频扩散先验里蒸馏材料"——一步走向自动化物理标注。

单参数 $E_i$ 只覆盖超弹性；塑性、金属、非牛顿流体不适用。

Physics3D — Learning Physical Properties of 3D Gaussians via Video Diffusion

arXiv 2024 Liu, Liu, et al. · arXiv:2406.04338 · project

关键想法：把 PhysDreamer 的弹性推到粘弹性本构（含 Maxwell 粘性元件），统一弹性 / 塑性 / 粘流，参数仍由 video diffusion + SDS 蒸馏。

PhysAvatar — Learning the Physics of Dressed 3D Avatars

ECCV 2024 avatar Zheng et al. · arXiv:2404.04421 · project

关键想法：mesh-aligned 4D 高斯做时空 mesh 追踪 + inverse renderer + 物理布料仿真器， 反解面料密度 / 弹性。

novel 动作 + novel 光照下衣服会自然摆动——这是纯学习方法做不到的物理外推。

i-PhysGaussian — Implicit Physical Simulation for 3D Gaussian Splatting

2026 · arXiv:2602.17117

关键想法：把 PhysGaussian 的显式 MPM 时间步换成 隐式 Newton + GMRES 求解器，$\Delta t$ 可放大 $20\times$，长时间仿真不再炸。

把硬核数值方法引入"高斯就是物质点"管线，使长时间仿真变得稳定。

§9mono 单目野外派

一台手机晃过一个动态场景——任意瞬间只有一个视角，形状/运动/相机歧义不可分离。数学上这是病态问题。这一派的共同药方：把 2D 基础模型当 oracle—— 单目深度网络 (Depth-Anything, Marigold) 提供几何先验，长程点轨迹模型 (CoTracker) 提供运动先验，光流网络提供局部位移先验。

MoSca — Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

arXiv 2024 Lei, Daniilidis et al. · UPenn · arXiv:2405.17421 · project

关键想法：先用 CoTracker + 单目深度，把视频里几百条 2D 轨迹"举升"成 4D 时空骨架 (scaffold)；再把高斯融合到骨架上，让它们继承附近骨架节点的运动。 bundle adjustment 同时优化相机位姿——不需要预先知道相机内外参。

形变场派早期都要 SfM-COLMAP；MoSca 把"无位姿野外视频"也纳入射程。

受限于深度 / 跟踪网络的精度；薄物 / 透明物失败；长视频显存爆。

Shape of Motion — 4D Reconstruction from a Single Video

ICCV 2025 Wang, Ye, Wang, Kanazawa et al. · Berkeley · arXiv:2407.13764 · project

关键想法：假设"人在跳舞"这种运动可被 $\sim 20$ 条 SE(3) 基线性组合表达（PCA 风格）。每个高斯只学一组权重 $w_{i,b}$：

$$ T_t^i = \sum_{b=1}^{B} w_{i,b}\, T_b(t),\quad T_b(t) \in \mathrm{SE}(3) $$

融合单目深度 + 长程 2D 轨迹 (CoTracker) → 全局一致的 3D 轨迹。

不只 novel-view 渲染，输出每个 3D 点完整时段的世界坐标轨迹—— 机器人 / 动作识别真正需要的东西。

低秩假设不适合混乱运动（爆炸、流体）；依赖 CoTracker 质量。

Gaussian Marbles — Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos

SIGGRAPH Asia 2024 Stearns et al. · Stanford · arXiv:2406.18717

关键想法：单目下椭球高斯太"自由"，容易过拟合一个视角。干脆把所有高斯换成各向同性的圆球弹珠——少一些自由度，单目问题更约束。分而治之：先重建短窗口，再分层合并成全局一致的轨迹。

其他单目派靠"外加先验"约束病态优化；Marbles 靠"减少模型容量"约束。哲学不同，结果同样稳。

§10avatar 人体 / Avatar 派

人体有强结构先验——SMPL（人体参数化网格模型）。几乎所有这派工作的套路都一样：在 canonical T-pose 空间撒高斯，用 LBS 把它们送到目标 pose，再用一个小 MLP 学姿态相关的衣物皱褶。

3DGS-Avatar — Animatable Avatars via Deformable 3D Gaussian Splatting

CVPR 2024 Qian et al. · arXiv:2312.09228

关键想法：SMPL 是骨架，高斯是会动的衣服。 LBS 把每个高斯按"骨头权重"插值变换，再加一个小 MLP 修正皱褶。

NeRF 系人体（HumanNeRF / Vid2Avatar）训练几天 / 渲染 $\lt 1$ FPS； 3DGS-Avatar：30 分钟训练，50+ FPS。

裙子 / 披风等宽松衣物破坏 LBS；要求 SMPL 拟合精确。

GaussianAvatar — Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians

CVPR 2024 Hu et al. · arXiv:2312.02134 · project

关键想法：加入姿态相关外观网络—— 高斯的颜色 / 不透明度会随 pose 变（手肘弯曲时才出现的衣袖褶皱）；同时联合优化 SMPL 拟合，在野外单目视频更鲁棒。

3DGS-Avatar 要求 SMPL 完美；GaussianAvatar 允许 SMPL 有噪声。

Animatable Gaussians — Learning Pose-Dependent Gaussian Maps for High-Fidelity Human Avatar Modeling

CVPR 2024 Li et al. · arXiv:2311.16096

关键想法：把 3D 高斯展开成两张 2D 贴图（人体前后投影），用 StyleGAN 风格的 2D CNN 预测每像素高斯参数。 CNN 的归纳偏置专门擅长高频细节。

MLP 派擅长平滑、缺乏锐利皱褶；CNN 在 2D 贴图上直接生成锐利布料褶皱—— CVPR'24 同期里布料皱褶最锐利的方法。

需要多视角训练数据；侧面细节由 2 贴图参数化丢失。

§11gen 4D 生成派

前面七派全是"重建"：有视频，要拟合。这一派是"生成"：从一句话、一张图、一段视频，无中生有出一段 4D 高斯动画。核心机制：用视频扩散或多视角扩散提供监督（SDS loss 或直接生成多视图样本注入），再蒸馏成 4D-GS。

L4GM — Large 4D Gaussian Reconstruction Model

NeurIPS 2024 Ren, Xie, Jiang, ... · NVIDIA · arXiv:2406.10324 · project

关键想法：在 12M 视频 / 300M 帧上预训一个 transformer：扔进去一段单目视频，1 秒内吐出每帧的 3D 高斯（带时间自注意力保证一致）。

第一个 feed-forward 4D LRM；和 GS-LRM 对静态做的事完全对应—— 把"per-scene 优化"压成"一次推理"。

对象级；背景杂乱会失败。

Diffusion4D — Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models

NeurIPS 2024 Liang et al. · arXiv:2405.16645

关键想法：把视频扩散 fine-tune 成"4D-aware"—— 给一句话 / 一张图，一次生成多视角同步的轨道环绕视频，再拿这一束视频去拟合 4D-GS。

text-to-4D 老路（4DFy, Animate124）要 SDS 优化几小时； Diffusion4D 收缩到分钟级。

SC4D — Sparse-Controlled Video-to-4D Generation and Motion Transfer

ECCV 2024 Wu et al. · arXiv:2404.03736

关键想法：把 SC-GS 的稀疏控制点搬到 video-to-4D 生成—— 顺便免费得到一项能力：把控制点轨迹从 A 视频"剥下来"贴到 B 形状上做 motion transfer。

Animate3D — Animating Any 3D Model with Multi-view Video Diffusion

NeurIPS 2024 Jiang et al. · project

关键想法：给任意静态 3D 资产（Blender 模型 / LRM 输出），多视渲染后让 multi-view video diffusion 推一段 4D-一致的动画，最后蒸馏回 4D-GS。

保住原资产 identity——不会被 text-only 生成给变脸。

4D-LRM — Large 4D Reconstruction Model for Time-Continuous Novel View Synthesis

2025 Ma et al. · arXiv:2506.18890 · project

关键想法：GS-LRM 的 4D 版本。给任意 $\text{视角} \times \text{时间}$ 对的 posed 图像，一次性预测各向异性 4D 高斯场。把时间当 first-class 维度，跨时间插值更平滑——理论上无穷帧率。

L4GM 是 per-frame 3D + 时间 attn；4D-LRM 直接预测真·4D 原语。

MotionGS — Compact Gaussian Splatting SLAM by Disentangling Optical Flow

NeurIPS 2024 Zhu et al. · arXiv:2410.07707 · project

关键想法：形变 MLP 在没有观测约束时会乱编轨迹。 MotionGS 强制把高斯运动投影到 2D 后吻合解耦后的光流（剥除相机自身造成的 flow，只留物体 flow），同时联合优化相机位姿。

§12时间线 2023 → 2026

点的颜色对应流派；按 arXiv v1 时间排序。看一眼就能感受到 2023 年底的"寒武纪大爆发"——三个月里六大流派几乎同时萌芽。

2023.073D Gaussian Splatting (Kerbl)SIGGRAPH'23 · 静态原点

2023.08Dynamic 3D Gaussians (Luiten)最早把 3DGS 推向动态 + 6-DoF 跟踪

2023.09D-3DGS (Yang)形变场派原型 · canonical + MLP

2023.104D-GS / HexPlane (Wu)同范式，MLP→HexPlane，82 FPS

2023.10真·4D-GS (Yang ICLR'24)时空原子派开山 · 4D 协方差

2023.11PhysGaussian物理派开山 · MPM + 高斯

2023.11DynMF$K$ 条共享神经轨迹基

2023.11Animatable Gaussians2D 贴图 + StyleGAN-CNN

2023.12GaussianAvatar / 3DGS-AvatarSMPL + LBS + 高斯外衣

2023.12HiFi4GED-graph + 高斯，$25\times$ 压缩

2023.12SC-GS稀疏控制派 · 可编辑动画

2023.12GauFRe静/动分离 · 单目 30+ FPS

2023.12Spacetime Gaussians (STG)多项式 + 时间高斯不透明度

2024.03Gaussian-Flowpoly + Fourier + 解析光流监督

2024.04E-D3DGS修复 D-3DGS 的运动平滑病

2024.04DG-Mesh从形变高斯里提时序一致 mesh

2024.04SC4Dvideo-to-4D + 运动迁移

2024.04PhysDreamer · PhysAvatar从视频扩散蒸馏材料参数

2024.05MoSca4D motion scaffold + 无相机位姿

2024.05Diffusion4D4D-aware 视频扩散 → 4D-GS

2024.06MoDGS静相机单目，依赖单目深度

2024.06SP-GS · MaGS超点 / mesh-adsorbed

2024.06Gaussian Marblesisotropic 弹珠 + 分层合并

2024.06L4GM第一个 feed-forward 4D LRM

2024.06Physics3D粘弹性本构 + SDS

2024.07Shape of Motion低秩 SE(3) 基 + 全程 3D 跟踪

2024.10MotionGS光流解耦 + 联合相机位姿

2024.114D Scaffold GS · FreeTimeGS4D 表示压缩潮流

2024.11Animate3D静态资产 → 4D 动画（保 identity）

2025.06DGS-LRM · 4D-LRM真正端到端 feed-forward 时代

2026.02i-PhysGaussian隐式 MPM，长仿真稳定

§13横向对比表

把代表作放在五个维度上一字排开。capture 表示需要的输入条件，拓扑表示能否处理出现 / 消失。

方法	流派	时间编码	capture	拓扑	关键卖点
Dynamic-3DGS	track	per-frame $(\mu_t,q_t)$	多视角	✗	稠密 6-DoF 跟踪
D-3DGS	def	$F_\theta(\gamma(\mu),\gamma(t))$	单目	✗	形变场原型
4D-GS (Wu)	def	HexPlane	单/多	✗	82 FPS, 8 min 训
DynMF	st	$K$ 神经轨迹	多视角	~	120+ FPS · 免费分割
Spacetime GS	st	多项式 + $\sigma(t)$	多视角	✓	瞬态物体
SC-GS	sparse	控制点 SE(3) + LBS	单/多	~	可拖动编辑
Gaussian-Flow	st	poly + Fourier	多视角	~	$5\times$ 训练 · 解析光流
GauFRe	def	MLP warp + 静/动	单目	~	实时单目
E-D3DGS	def	$F_\theta(z_i,\gamma(t))$	单目	✗	修复平滑病
PhysGaussian	phys	MPM 演化	静态资产	✓	WS² 物理仿真
HiFi4G	st	ED 图 + KNN 高斯图	多视角	~	$25\times$ 压缩
3DGS-Avatar	avatar	SMPL + LBS	多视角	—	30 min · 50+ FPS
Animatable Gauss.	avatar	2D 贴图 + CNN	多视角	—	最锐皱褶
MoSca	mono	4D scaffold	casual 单目	~	无需位姿
MoDGS	defmono	MLP + 深度先验	静相机单目	✗	静相机也行
Shape of Motion	mono	$B$ SE(3) 基	单目	~	全程 3D 跟踪
Gaussian Marbles	mono	isotropic + 分层	单目	~	稳定不漂浮
L4GM	gen	per-frame GS + attn	单目 (FF)	—	1 秒推理
Diffusion4D	gen	4D 扩散 + 蒸馏	文 / 图	—	分钟级 text-to-4D
4D-LRM	gen	per-pixel 4D 高斯	posed 多视	~	真·4D 端到端
i-PhysGaussian	phys	隐式 MPM	静态资产	✓	$\Delta t \times 20$

"~" = 部分支持（借助高斯生长/剪除间接处理）；"—" = 不适用。

§14如何挑方法 · 30 秒决策树

假设你要选一篇方法做实验。沿着下面这棵树走一遍，应该 30 秒内能定位到 1–2 篇候选。

你的输入是什么？
- 📷 多视角同步 rig →
  - 需要稠密 6-DoF 跟踪？ → Dynamic 3D Gaussians (Luiten)
  - 追极致质量 + 瞬态物体？ → Spacetime Gaussians 或 真·4D-GS (Yang ICLR)
  - 人体表演 + 强压缩？ → HiFi4G
- 📱 单目视频（相机有运动） →
  - 要快 / demo？ → 4D-GS (Wu) 或 D-3DGS
  - 需要 3D 轨迹输出？ → Shape of Motion 或 MoSca
  - 要可编辑？ → SC-GS 或 SP-GS
- 📱 单目视频（相机静止） → MoDGS（深度先验救命）
- 🧍 人体专用 →
  - 通用快速？ → 3DGS-Avatar / GaussianAvatar
  - 追皱褶细节？ → Animatable Gaussians
  - 想做衣物物理外推？ → PhysAvatar
- 🧊 已有静态 3D 资产 → 想让它动 →
  - 真实物理（弹/塑/沙/流体） → PhysGaussian / i-PhysGaussian
  - 想象式动画 → Animate3D
- 💭 只有一句话 / 一张图 → Diffusion4D / SC4D
- ⚡ 无所谓质量，要 feed-forward 秒级 → L4GM / DGS-LRM / 4D-LRM

§15入门者学习路线图

如果你是从 NeRF/SDF 进入这片领域，建议按下面顺序读论文 + 复现代码，大约 2–3 周可以从外行到能跑实验。

第一周 · 基础 3DGS + 第一根藤蔓

3DGS (Kerbl 2023) 原论文 — 重点看 §3 splatting 数学和 §5 自适应密度控制。官方代码跑一个 MipNeRF360 场景。
D-3DGS (Yang 2023) — 跑通形变场派最小例子。理解 stop-gradient 为什么必要。
Dynamic 3D Gaussians (Luiten) — 看三条 rigidity loss 怎么写代码。

第二周 · 范式分水岭

4D-GS (Wu) 与 真·4D-GS (Yang ICLR) 对比读 — 一篇一晚，差异就深刻了。
Spacetime Gaussians — 学会用多项式 + 时间高斯包络替代 MLP。
SC-GS — 第一次接触 LBS / ARAP；图形学传统智慧重回 3DGS 的代表。
PhysGaussian — 哪怕你不做物理，也要看看 MPM 流程，理解 WS² 哲学。

第三周 · 进阶专题（按方向选）

单目野外：MoSca → Shape of Motion → MoDGS → Gaussian Marbles
人体：3DGS-Avatar → Animatable Gaussians → PhysAvatar
4D 生成：L4GM → Diffusion4D → Animate3D → 4D-LRM
压缩 / 工程：HiFi4G → 4D Scaffold GS → FreeTimeGS → Optimized Minimal 4D GS

必备背景补强

LBS：计算机动画教材的"skinning"章节；理解 $\mathbf{x}' = \sum_b w_b T_b \mathbf{x}$。
SMPL：Loper 2015 SIGGRAPH Asia 原论文。
MPM：Stomakhin et al. 2013 (雪人) 或 ChenFanFu MPM course；P2G/G2P 流程。
HexPlane / K-Planes：K-Planes CVPR'23；"3D 场分解成几张 2D 平面"是个普适技巧。
SE(3) Lie 代数：Barfoot 《State Estimation for Robotics》第 7 章；为 Shape of Motion 做准备。
Score Distillation Sampling (SDS)：DreamFusion；4D 生成派的基础。

§16参考文献

按本文出现顺序列出，每条都带 arXiv 链接。颜色对应流派。

Kerbl et al., 3D Gaussian Splatting for Real-Time Radiance Field Rendering, SIGGRAPH 2023. arXiv:2308.04079
track Luiten et al., Dynamic 3D Gaussians, 3DV 2024. arXiv:2308.09713
def Yang et al., Deformable 3D Gaussians, CVPR 2024. arXiv:2309.13101
def Wu et al., 4D-GS: 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering, CVPR 2024. arXiv:2310.08528
st Yang et al., Real-time Photorealistic Dynamic Scene Representation, ICLR 2024. arXiv:2310.10642
phys Xie et al., PhysGaussian, CVPR 2024. arXiv:2311.12198
st Kratimenos et al., DynMF, ECCV 2024. arXiv:2312.00112
avatar Li et al., Animatable Gaussians, CVPR 2024. arXiv:2311.16096
avatar Hu et al., GaussianAvatar, CVPR 2024. arXiv:2312.02134
avatar Qian et al., 3DGS-Avatar, CVPR 2024. arXiv:2312.09228
st Jiang et al., HiFi4G, CVPR 2024. arXiv:2312.03461
sparse Huang et al., SC-GS, CVPR 2024. arXiv:2312.14937
def Liang et al., GauFRe, WACV 2025. arXiv:2312.11458
st Li et al., Spacetime Gaussian Feature Splatting, CVPR 2024. arXiv:2312.16812
st Lin et al., Gaussian-Flow, CVPR 2024. arXiv:2403.12365
def Bae et al., Per-Gaussian Embedding Deformation, ECCV 2024. arXiv:2404.03613
sparse Liu et al., DG-Mesh, ICLR 2025. arXiv:2404.12379
gen Wu et al., SC4D, ECCV 2024. arXiv:2404.03736
phys Zhang et al., PhysDreamer, ECCV 2024. arXiv:2404.13026
phys Zheng et al., PhysAvatar, ECCV 2024. arXiv:2404.04421
mono Lei et al., MoSca, 2024. arXiv:2405.17421
gen Liang et al., Diffusion4D, NeurIPS 2024. arXiv:2405.16645
defmono Liu et al., MoDGS, ICLR 2025. arXiv:2406.00434
sparse Ma et al., MaGS, SIGGRAPH Asia 2024. arXiv:2406.01593
sparse Wan et al., SP-GS, ICML 2024. arXiv:2406.03697
phys Liu et al., Physics3D, 2024. arXiv:2406.04338
gen Ren et al., L4GM, NeurIPS 2024. arXiv:2406.10324
mono Stearns et al., Dynamic Gaussian Marbles, SIGGRAPH Asia 2024. arXiv:2406.18717
mono Wang et al., Shape of Motion, ICCV 2025. arXiv:2407.13764
gen Zhu et al., MotionGS, NeurIPS 2024. arXiv:2410.07707
gen Jiang et al., Animate3D, NeurIPS 2024. animate3d.github.io
st Cho et al., 4D Scaffold Gaussian Splatting, 2024. arXiv:2411.17044
gen DGS-LRM, 2025. arXiv:2506.09997
gen Ma et al., 4D-LRM, 2025. arXiv:2506.18890
phys i-PhysGaussian, 2026. arXiv:2602.17117