A pedagogical survey · 2023.07 — 2026.05
可变形 3D Gaussian Splatting
把高斯从静止教会跳舞、变形、撕裂、生长——这是过去三年所有可变形 3DGS 工作共同想解决的问题。
本文从 Kerbl 等人 2023 年的原始论文一路讲到 2026 年最新前沿,
尽量讲清每篇文章一句话的关键想法与
它跟邻居方法的本质区别。
预设读者:会基本的 NeRF(体渲染、MLP radiance field)、SDF(level set、marching cubes)、
基础线代、基础机器学习。本文不再赘述这些,直接以 NeRF/SDF 作为对照锚点。
约 32 篇论文 · 八大流派 · 最后更新 2026-05-19
NeRF 早在 2020 年就被拽进了动态领域(D-NeRF、HyperNeRF、Nerfies、K-Planes…)。
但 NeRF 的核心瓶颈——体渲染要沿光线积分数百次 MLP 查询——让动态版的训练动辄几十小时、渲染 $\lt 1$ FPS。
2023 年 7 月,3D Gaussian Splatting 用一堆显式椭球 + GPU 光栅化彻底改写了交易条件:
重建从小时降到分钟,渲染从 1 FPS 升到 100+ FPS。
这意味着真正实时的动态神经场第一次变得可能 ——
游戏、VR、远程会议、机器人感知、4D 内容生成的需求齐齐压过来。
于是 2023 年 8 月起,论文像潮水一样涌出:从 Dynamic 3D Gaussians 开局,
到今天每周还在 arXiv 出新的 4D-LRM 和物理派变体。
关于命名混淆
"4D Gaussian Splatting" 这个名字下有两篇不同作者的论文:
Wu et al. CVPR'24(属形变场派,用 HexPlane)
与 Yang et al. ICLR'24(属时空原子派,用 4D 协方差)。
底层思想几乎相反。本综述会反复强调这条分水岭。
§130 秒回顾静态 3DGS
假设你已经熟悉 NeRF 的体渲染和 SDF 的 marching cubes。我们快速把静态 3DGS 的三件套对齐到你已有的概念锚点上。
① 基元:椭球而不是采样点
NeRF 把场景表达成一个 MLP $F_\theta(\mathbf{x}, \mathbf{d}) \to (\sigma, \mathbf{c})$;
SDF 把场景表达成一个 MLP $F_\theta(\mathbf{x}) \to d$。
3DGS 把场景表达成 $N$ 个显式的 3D 各向异性高斯:
$$ G_i(\mathbf{x}) = \exp\!\Big(-\tfrac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^\top \Sigma_i^{-1} (\mathbf{x}-\boldsymbol{\mu}_i)\Big) $$
每个高斯携带 $(\mu, \Sigma, \alpha, \text{SH})$:位置、协方差、不透明度、球谐颜色系数。
为保证 $\Sigma$ 正定,参数化为 $\Sigma = R S S^\top R^\top$,$S$ 是缩放对角阵、$R$ 是四元数转的旋转。
这是后面所有"形变高斯"的物理基础——形变本质就是改 $\boldsymbol{\mu}, R, S$。
② 渲染:splat 替代 ray march
高斯往相机平面的投影仍是 2D 高斯(线性近似下)。像素颜色用 front-to-back $\alpha$-blending:
$$ C(\mathbf{p}) = \sum_{i \in \mathcal{N}} c_i\,\alpha_i \prod_{j=1}^{i-1}(1-\alpha_j) $$
形式上和 NeRF 的体渲染同构,但不再需要沿光线采几百个点——用瓦片排序光栅化一次性把所有 splat 拍上去,GPU 极快。
③ 优化:adaptive density control
L1 + D-SSIM 像素损失反传到所有高斯参数。训练中根据梯度幅度做克隆 / 分裂 / 剪除:
欠拟合处分裂出更小的高斯,多余的剪掉。这是 3DGS 区别于 NeRF 的关键工程细节——
让"基元数量"自适应于场景复杂度,因而比 NeRF 紧凑得多。
心智迁移 · NeRF/SDF → 3DGS
把"查询函数空间中的一点"换成"在空间里塞一堆显式椭球,然后把它们光栅化"。
NeRF 的形变 = 改 $F_\theta$;3DGS 的形变 = 改这堆椭球的 $(\boldsymbol{\mu}_i, R_i, S_i, \alpha_i)$。
后者更具体、更可编辑、也更难保持时空一致。
§2动态场景到底难在哪
"高斯动起来"听起来只是给每个椭球加上时间下标。但魔鬼藏在四个细节里——
这四个挑战决定了后面每个流派的设计选择。
① 外观变化
同一个点在不同时刻颜色不同(阴影、镜面、自发光)。
"球谐系数也得是时间的函数"
② 几何变化
同一物体的某个点在不同时刻位置不同(弯曲、伸缩)。
"$\boldsymbol{\mu}_i(t)$ 怎么参数化?"
③ 拓扑变化
点会消失(被遮挡)、会出现(飞过画面)、会分裂(杯子摔碎)。
"canonical 集合根本装不下"
④ 对应 / 跟踪
谁是谁的"前世今生"?这是 4D 重建 vs 4D 重渲染的分水岭。
"想做机器人/编辑就绕不开"
再叠上观测端的两层难度:多视角(一群同步相机看动态)相对容易;
单目野外(一台手机晃过去)几乎是病态的,任意瞬间只有一个视角,
形状/运动/相机的歧义不可分离。
这就是为什么 2024–2026 的工作越来越依赖 foundation prior:
单目深度网络、长程点轨迹模型 (CoTracker)、视频扩散——都被拿来给优化注入先验。
§3范式地图 · 八大流派
把 30+ 篇论文按"时间如何被编码进高斯"切片,会自然涌出八个流派。
每个流派的标签色会贯穿全文:以后看到 def 就知道是形变场派、
st 是时空派,依此类推。
① 形变场派
一团 canonical 高斯 + 时间相关形变 MLP / HexPlane。
类比:橡皮泥 + 一份"按时序变形"的指令。
② 时空原子派
每个高斯本身就是 4D 椭球;时间作为第四维度。
类比:时空中漂浮的灯笼,自带寿命。
③ 跟踪派
每帧独立的 3D 高斯 + 时间正则把它们"牵手"。
类比:一群粒子各自漂移但彼此牵手。
④ 稀疏控制派
少量控制点/超点/mesh 提供运动;高斯通过 LBS 跟着动。
类比:木偶上的几根提线。
⑤ 物理派
MPM / XPBD 等物理仿真器主动驱动高斯。
类比:把高斯当成会流动的物质点。
⑥ 单目野外派
单相机+深度/光流/跟踪 prior 兜底,做病态问题。
类比:用一只眼睛+大量经验拼出立体雕塑。
⑦ 人体 / Avatar 派
SMPL 骨骼 + LBS + 高斯外衣 + 姿态相关皱褶。
类比:给骨架穿一件会鼓胀的高斯衣。
⑧ 4D 生成派
扩散先验生成多视/多时图像;解码成 4D 高斯。
类比:让 AI 做梦出一段 4D 动画。
这八派并不互斥——SC-GS 同时属于形变场+稀疏控制;Shape-of-Motion 同时属于形变场+单目;
PhysAvatar 同时属于物理+人体。但把握主轴比精确分类重要:
每篇论文的核心创新都能映射到这八条主轴中的一两条上。
横轴:高斯运动的显式程度(左:函数化形变,右:每个高斯自带轨迹/4D);纵轴:注入的结构性先验强度。
§4def 形变场派
最早成型、影响最大的范式。一套"canonical 3D 高斯 + 时间形变函数 $\mathcal{D}(\cdot, t)$"两段式架构。
可以理解为 D-NeRF 在 3DGS 上的直接移植——但工程上更轻、训练更快。
核心公式只有一行:
$$ (\Delta \boldsymbol{\mu}_i,\,\Delta r_i,\,\Delta s_i) = \mathcal{D}_\theta\big(\gamma(\boldsymbol{\mu}_i),\, \gamma(t)\big) $$
$\gamma$ 是 NeRF 风格的正弦位置编码;$\mathcal{D}_\theta$ 可以是 MLP(D-3DGS),也可以是 HexPlane 等显式网格(4D-GS Wu)。
渲染时拿 $(\boldsymbol{\mu}_i+\Delta\boldsymbol{\mu}_i,\,r_i+\Delta r_i,\,s_i+\Delta s_i)$ 走标准 3DGS 管线。
D-3DGS
— Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction
Dynamic 3D Gaussians (Luiten) 要每帧每个高斯都存独立位姿——必须多视角棚拍。
单目动态视频根本拟合不出来。
关键想法:保留一团 canonical 高斯集合,再训一个共享的小 MLP
$\mathcal{D}_\theta$,输入 $(\text{position}, \text{time})$,输出该帧该高斯的 $(\Delta\boldsymbol{\mu}, \Delta r, \Delta s)$。
存储常数级、单目可训。论文还提出 AST(annealing smooth training):
训练时给输入时间加上逐渐衰减的高斯噪声 $\hat t = t + \epsilon$,对 COLMAP 不准的相机位姿更鲁棒。
Luiten 的 Dynamic-3DGS 是per-Gaussian-per-frame;D-3DGS 把时间收编为一个共享函数,
储存量从 $O(N \cdot T)$ 降到 $O(N + |\theta|)$,且无需多视角。
大位移、复杂关节运动会被 MLP "糊掉";拓扑变化无解;坐标共享导致邻居被迫同步运动。
4D-GS (Wu)
— 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering
D-3DGS 的形变 MLP 推理慢——每渲染一帧都要前向几百万次。
关键想法:把"指令书 MLP"换成 HexPlane——
六张二维特征平面 (XY, XZ, YZ, XT, YT, ZT) 覆盖 $(x,y,z,t)$ 全空间,双线性插值后用小 MLP 解码出 $(\Delta\boldsymbol{\mu}, \Delta r, \Delta s)$:
$$ f_h(\mathbf{x},t) = \!\!\bigcup_{l\in\{1,2\}}\!\!\prod_{(i,j)} \mathrm{interp}\big(R_l(i,j)\big) $$
查表+小 MLP 远快于大 MLP;同样的范式直接来自 K-Planes / HexPlane 对动态 NeRF 的提速。
同样的"canonical + 形变"两段式结构;唯一差别在于形变场表示——
MLP → 网格分解。8 分钟训练,82 FPS 渲染 on D-NeRF synthetic。
⚠ 命名冲突
这是 Wu et al. CVPR'24 的 4D-GS,属def。
另有一篇 Yang et al. ICLR'24 也叫 4D Gaussian Splatting,
却是真·4D 高斯(属st)。详见 §5 · 真·4D-GS。
论文自述"大运动、缺乏背景点、相机位姿不准"都会破坏优化;HexPlane 低分辨率限制细节。
E-D3DGS
— Per-Gaussian Embedding-Based Deformation
D-3DGS 用位置 $\boldsymbol{\mu}_i$ 查形变 MLP——结果两个邻居高斯被强制运动相同,
哪怕它们其实属于不同的运动物体。这就是"运动平滑病"的根源。
关键想法:给每个高斯发一个唯一身份证 $z_i$(可学习 latent),让 MLP 看身份证而不是位置:
$$ (\Delta\boldsymbol{\mu}_i, \Delta r_i, \Delta s_i) = F_\theta(z_i, \gamma(t)) $$
邻居高斯可以独立运动——运动平滑病解除。
一行架构改动,明确诊断并修复了 D-3DGS 最常被诟病的失败模式。
$z_i$ 数量 = 高斯数 → 参数膨胀;过拟合风险更高。
GauFRe
— Gaussian Deformation Fields for Real-time Dynamic Novel View Synthesis
D-3DGS / 4D-GS 在静态场景上也会让形变 MLP 强行解释一切——
背景里的墙明明不动,MLP 却给它编一个"伪运动",反而抹掉了细节。
关键想法:同时维护两团高斯——一团永远不动(静态背景),一团带形变 MLP(动态前景);
引入归纳偏置"能解释成静态就别动",避免形变 MLP 吞掉整个场景。
首个在 3DGS 形变场范式下做无监督静/动分离的工作,$\gt 30$ FPS 实时单目。
大部分像素都在动的场景(近距离人像)静态先验失效。
MoDGS
— Dynamic Gaussian Splatting from Casually-captured Monocular Videos with Depth Priors
手机架在三脚架上拍跳舞——相机不动 = 没有视差 = 所有形变场方法都崩溃。
关键想法:把单目深度网络(Depth-Anything 等)拉进来当"独眼龙的预言家"——
给优化注入 3D-aware 初始化;用 ordinal depth loss 只信深度的相对顺序,不信绝对尺度。
把形变场派的适用边界从"相机环绕物体的单目视频"推到"静相机拍动态"——
后者之前是所有 3DGS 动态方法的禁区。
依赖深度网络质量;玻璃 / 镜面 / 无纹理面失败。
DGS-LRM
— Feed-Forward Deformable Gaussian Large Reconstruction Model
前面这些都要"每个视频跑半小时优化"。
关键想法:训一个大 transformer,给它单目视频和位姿,
秒级吐出每像素的 deformable 3D 高斯——告别 per-scene 优化。
把形变场派从"每场景训练"推到"feed-forward 推理"——
和 GS-LRM、Splatter-Image 对静态 3DGS 做的事完全平行。
§5st 时空原子派
与形变场派针锋相对的另一极。不要 canonical、不要外挂 MLP——
直接把"时间"写进每个高斯本身的参数,让它变成 4D 椭球,或者带显式时间多项式。
分水岭口诀(建议反复念三遍)
- "有没有 canonical 帧?" 有 → def;没有 → st。
- "时间是函数输入,还是参数输入?" 进 MLP → def;写在每个高斯自己的 $\boldsymbol{\mu}_i(t)$ 解析式里 → st。
- "能否自然描述瞬时出现/消失?" 不能 → def;能 → st。
真·4D-GS (Yang)
— Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting
形变场派假设"同一组高斯必须从头到尾存在"——对于瞬时出现的鸟、闪光、爆炸全部失效。
关键想法:把每个高斯升维成时空中的 4D 椭球。
4D 协方差用两个单位四元数 $q_l, q_r$ 拼成 4D 旋转:
$\Sigma_{4D} = R S S^\top R^\top$,$R = L(q_l) R(q_r)$,$S = \mathrm{diag}(s_x, s_y, s_z, s_t)$。
给定 $t$,按多元高斯条件分布公式:
$$ \boldsymbol{\mu}_{xyz\mid t} = \boldsymbol{\mu}_{1:3} + \Sigma_{1:3,4}\Sigma_{4,4}^{-1}(t-\mu_t) $$
$$ \Sigma_{xyz\mid t} = \Sigma_{1:3,1:3} - \Sigma_{1:3,4}\Sigma_{4,4}^{-1}\Sigma_{4,1:3} $$
边缘时间不透明度 $p(t)=\mathcal{N}(t;\mu_4, \Sigma_{4,4})$ 让每个高斯天然有"出生 / 死亡"。外观用 4D 球柱谐函数(球谐 ⊗ 时间 Fourier 基)。
形变场派:"canonical + 形变指令";本派:"每个高斯就是 4D 物体"。
瞬时事件天然支持——一个 1 秒的爆炸就是几千个"短寿命 4D 椭球",canonical 派完全做不到。
每个高斯多 4-10 倍参数;远景静态背景需要 spherical 初始化兜底。
Spacetime Gaussians (STG)
— Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis
关键想法:不上 full 4D 协方差,而是给每个 3D 高斯加低阶多项式轨迹+时间高斯包络,
决定什么时候"在场":
$$ \boldsymbol{\mu}_i(t) = \sum_{k=0}^{3} \mathbf{b}_{i,k}(t-\mu_i^\tau)^k,\quad \sigma_i(t) = \sigma_i^s\,\exp\!\big(-s_i^\tau (t-\mu_i^\tau)^2\big) $$
球谐换成神经特征 $[\mathbf{f}^{base}, \mathbf{f}^{dir}, (t-\mu^\tau)\mathbf{f}^{time}]$,浅层 MLP 解码 RGB。
解析、无大 MLP;60 FPS@8K。时间高斯不透明度 $\sigma_i(t)$ 天然支持瞬态物体。
需要多视角;多项式表达不出真正的高频抖动(头发、火焰)。
DynMF
— Neural Motion Factorization for Real-time Dynamic View Synthesis
关键想法:现实场景的运动其实低秩——
整段视频只用 $K \approx 4{-}20$ 条共享的"运动模板" $\{\boldsymbol{\tau}_k(t)\}$ 就能解释;
每个高斯学一组稀疏权重 $w_{i,k}$ 决定跟谁同步:
$$ \boldsymbol{\mu}_i(t) = \boldsymbol{\mu}_i^0 + \sum_{k=1}^{K} w_{i,k}\,\boldsymbol{\tau}_k(t) $$
$\boldsymbol{\tau}_k$ 只依赖 $t$ 可缓存——120+ FPS。$\ell_1$ 稀疏正则让每个点只属于少数运动模式 → 免费的运动分割。
把"每点查 MLP"换成"每点是 $K$ 条共享轨迹的稀疏组合"——既快又得分割。
$K$ 手设;超复杂运动(流体、爆炸)压不进低秩。
Gaussian-Flow
— 4D Reconstruction with Dynamic 3D Gaussian Particle
关键想法:直接丢掉 MLP,让每个属性的时间函数 = "低阶多项式(缓慢漂移)+ 截断 Fourier 级数(周期抖动)":
$$ \Delta a_i(t) = \underbrace{\sum_{k=0}^{K_p} p_{i,k} t^k}_{\text{poly}} + \underbrace{\sum_{k=1}^{K_f}\!\big[\alpha_{i,k}\cos\tfrac{2\pi k t}{T}+\beta_{i,k}\sin\tfrac{2\pi k t}{T}\big]}_{\text{Fourier}} $$
论文还给出解析光流监督:把高斯投影到 2D 后两帧像素位移可写成
$\text{flow}_i = \Sigma_{t_2}\Sigma_{t_1}^{-1}(\mathbf{x}-\boldsymbol{\mu}_{t_1}) + \boldsymbol{\mu}_{t_2}-\mathbf{x}$,
用现成光流网络当监督。
训练 $5\times$ 加速;显式参数 → 高度并行、易编辑;解析光流监督对高速运动尤其有效。
Fourier 截断阶数决定可表达运动;无内置空间正则。
HiFi4G
— High-Fidelity Human Performance Rendering via 4D Gaussian Splatting
关键想法:把传统非刚体追踪的 Embedded Deformation Graph (ED-graph)
嫁接进 4D 高斯——粗 ED 图节点 $\{R_k, \mathbf{t}_k, \mathbf{g}_k\}$ 提供运动先验:
$$ \hat{\mathbf{x}} = \sum_k w_k\!\left(R_k(\mathbf{x}-\mathbf{g}_k)+\mathbf{g}_k+\mathbf{t}_k\right) $$
细 KNN 高斯图做局部刚性正则;时空自适应正则保证连续。
离散 ED 节点 vs 隐式 MLP 形变——前者可压缩。
HiFi4G 用这条路做出 $25\times$ 压缩、$\lt 2$ MB / 帧的人体表演表示。
仅人体;需密集多视角 capture。
4D Scaffold GS
— 4D Scaffold Gaussian Splatting with Dynamic-Aware Anchor Growing
关键想法:把 4D 基元绑到网格对齐 anchor上,由 MLP 衍生周围 4D 高斯;
动态区域 anchor 自适应增长——静态区少生,动态区自动细分。
Spacetime / 真·4D-GS 在存储上很贵;anchor 方案在动态区域质量超越前作的同时显存可控。
后续 FreeTimeGS (2506.05348)、Optimized Minimal 4D GS (2510.03857)、
ComGS (2505.16533) 都在这条线上持续做 "4D 表示压缩"。
§6track 跟踪派 · Dynamic 3D Gaussians
这一派只有一篇代表作——但是整条线索的历史起点。它选了第三条道路:
不要 canonical、不要 4D,而是让每帧都有独立的 3D 高斯,
用物理样的正则项把相邻帧"粘"在一起。
Dynamic 3D Gaussians
— Tracking by Persistent Dynamic View Synthesis
NeRF 系动态方法都是渲染优先——能给新视角图像但拿不到任何点的轨迹。
机器人 / 编辑 / 动作捕捉都需要稠密 6-DoF 跟踪,但 NeRF 没有"点"这个概念。
关键想法:在 27 台同步相机的录影棚里捕捉演员。
固定颜色 / 不透明度 / 形状,只优化每帧的位姿 $(\boldsymbol{\mu}_t^i, q_t^i)$;
用三条"邻居要一起动"的物理样正则保证时间连续:
$$ \mathcal{L}_{\text{rigid}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big\|(R_t^i)^{-1}(\boldsymbol{\mu}_t^j-\boldsymbol{\mu}_t^i) - (R_0^i)^{-1}(\boldsymbol{\mu}_0^j-\boldsymbol{\mu}_0^i)\big\| $$
$$ \mathcal{L}_{\text{rot}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big\|q_t^j(q_t^i)^{-1} - q_{t-1}^j(q_{t-1}^i)^{-1}\big\| $$
$$ \mathcal{L}_{\text{iso}} = \!\!\sum_{j\in\mathcal{N}_i}\!\! w_{ij}\big|\|\boldsymbol{\mu}_t^j-\boldsymbol{\mu}_t^i\| - \|\boldsymbol{\mu}_0^j-\boldsymbol{\mu}_0^i\|\big| $$
分别强制 局部刚性、相邻帧旋转一致、长期等距。
第一篇从 3DGS 管线产出稠密 6-DoF 跟踪的工作。
可以做 4D 编辑、Gaussian-eye-view、对象合成。论文挖坑、所有后续工作填坑。
必须多视角 rig;不支持拓扑变化和外观变化。
§7sparse 稀疏控制 / 拓扑感知派
形变场派的 MLP 是"每个高斯都自己问 MLP"——昂贵、不可解释、不可编辑。
本派的共同想法:先用一组稀疏的"骨架"(控制点、超点、mesh、ED 图)承载运动,
再用 Linear Blend Skinning (LBS) 让密集高斯插值跟随。
LBS 是计算机图形学的老朋友:一个点的最终变换 = 它周围若干个"骨头"变换的加权平均。
SC-GS
— Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes
D-3DGS / 4D-GS 渲染漂亮但不能编辑——
形变 MLP 是个黑箱,用户拿不到"运动控制器"。
关键想法:把场景看成一只布偶。撒几百个"隐形关节"(控制点 $c$),
每个皮毛(高斯 $i$)粘在最近的几个关节上;只让控制点动,皮毛靠 LBS 跟随:
$$ T_i(t) = \sum_{c \in \mathcal{N}(i)} w_{ic}\, T_c(t),\quad T_c(t) = \mathrm{MLP}_\theta(c, t) \in \mathrm{SE}(3) $$
加一项 ARAP (As-Rigid-As-Possible) 损失到控制图上,防止图整体抖动。
第一篇做真正可编辑的动态 3DGS——用户可以鼠标拖控制点重新做动画,
不再只能看渲染。
控制点采样密度敏感;只在 HyperNeRF benchmark 上验证。
SP-GS
— Superpoint Gaussian Splatting for Real-Time High-Fidelity Dynamic Scene Reconstruction
关键想法:把运动相似的高斯聚成一团"超点"
(类似图像里的 superpixel,但在 4D);每个超点用一条轨迹,整团成员共享。
SC-GS 的 MLP 推理仍然不便宜;SP-GS 用查表替代 MLP 推理 → 高分辨率下实时编辑;
移动一个超点 = 移动一个语义部件(手臂)。
DG-Mesh
— Dynamic Mesh-Aware Radiance Field
关键想法:一边训形变高斯,一边用可微 Poisson + Marching Cubes
反向提一份 mesh 出来;要求时序里每个顶点对应同一物理点(cycle-consistent 形变)。
下游应用(贴图编辑、物理仿真、动作重定向)需要 mesh;
DG-Mesh 把 3DGS 与传统几何流水线接通。
仅对象级;薄结构和深度自遮挡仍困难。
MaGS
— Mesh-adsorbed Gaussian Splatting
关键想法:把每个高斯贴在一片三角面之上(像魔术贴上的小毛刺)。
mesh 提供仿真友好的结构,高斯提供光真渲染细节。两个网络协作:
RMD-Net 学 mesh 的运动;RGD-Net 学高斯相对 host triangle 的微位移。
DG-Mesh 是"先 GS,再提 mesh";MaGS 是"mesh 是主结构,GS 是外饰"——
后者拿到的 mesh 直接 simulation-ready。
§8phys 物理派
形变场是"被动拟合观测";物理派是主动从物理方程演化形变。
一个外力打下去,高斯按弹性 / 塑性 / 沙土 / 牛顿流体的本构方程动起来——不需要训练视频。
这一派的灵魂口号:"What you See is What you Simulate" (WS²)。
PhysGaussian
— Physics-Integrated 3D Gaussians for Generative Dynamics
要让 3DGS 物体"被戳一下会晃",传统做法:先把高斯转 mesh,再扔进物理引擎——
mesh 化质量决定一切,转换 + 重渲染会引入大量 artifact。
关键想法:每个 3D 高斯既是渲染基元,又是 MPM 仿真粒子。
MPM (Material Point Method) 是把连续介质离散成"质点 + 背景网格"的经典图形学算法。
形变梯度更新与高斯协方差被拉伸是一体两面:
$$ F_p^{n+1} = (I + \Delta t \nabla \mathbf{v}_p)\,F_p^n,\quad \Sigma_p(t) = F_p(t)\,A_p\,F_p(t)^\top $$
$$ f^t(\mathbf{d}) = f^0(R_p^\top \mathbf{d}),\quad F_p = R_p S_p \;\text{(球谐随旋转部分转动)} $$
没有 mesh 化中间步;所见即所仿。打开了"3DGS + 物理仿真"这条新流派。
材料参数手动设;阴影不演化;几何重建质量决定仿真稳定性。
PhysDreamer
— Physics-Based Interaction with 3D Objects via Video Generation
关键想法:PhysGaussian 要手设杨氏模量 → PhysDreamer 让视频扩散模型
"想象"这个物体被戳一下应该怎么晃,反传出每个高斯的物理参数 $E_i$。
把"手设材料"换成"从视频扩散先验里蒸馏材料"——一步走向自动化物理标注。
单参数 $E_i$ 只覆盖超弹性;塑性、金属、非牛顿流体不适用。
Physics3D
— Learning Physical Properties of 3D Gaussians via Video Diffusion
关键想法:把 PhysDreamer 的弹性推到粘弹性本构(含 Maxwell 粘性元件),
统一弹性 / 塑性 / 粘流,参数仍由 video diffusion + SDS 蒸馏。
PhysAvatar
— Learning the Physics of Dressed 3D Avatars
关键想法:mesh-aligned 4D 高斯做时空 mesh 追踪 + inverse renderer + 物理布料仿真器,
反解面料密度 / 弹性。
novel 动作 + novel 光照下衣服会自然摆动——这是纯学习方法做不到的物理外推。
i-PhysGaussian
— Implicit Physical Simulation for 3D Gaussian Splatting
关键想法:把 PhysGaussian 的显式 MPM 时间步换成
隐式 Newton + GMRES 求解器,$\Delta t$ 可放大 $20\times$,长时间仿真不再炸。
把硬核数值方法引入"高斯就是物质点"管线,使长时间仿真变得稳定。
§9mono 单目野外派
一台手机晃过一个动态场景——任意瞬间只有一个视角,形状/运动/相机歧义不可分离。
数学上这是病态问题。这一派的共同药方:把 2D 基础模型当 oracle——
单目深度网络 (Depth-Anything, Marigold) 提供几何先验,
长程点轨迹模型 (CoTracker) 提供运动先验,
光流网络提供局部位移先验。
MoSca
— Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds
关键想法:先用 CoTracker + 单目深度,
把视频里几百条 2D 轨迹"举升"成 4D 时空骨架 (scaffold);
再把高斯融合到骨架上,让它们继承附近骨架节点的运动。
bundle adjustment 同时优化相机位姿——不需要预先知道相机内外参。
形变场派早期都要 SfM-COLMAP;MoSca 把"无位姿野外视频"也纳入射程。
受限于深度 / 跟踪网络的精度;薄物 / 透明物失败;长视频显存爆。
Shape of Motion
— 4D Reconstruction from a Single Video
关键想法:假设"人在跳舞"这种运动可被 $\sim 20$ 条 SE(3) 基线性组合表达(PCA 风格)。
每个高斯只学一组权重 $w_{i,b}$:
$$ T_t^i = \sum_{b=1}^{B} w_{i,b}\, T_b(t),\quad T_b(t) \in \mathrm{SE}(3) $$
融合单目深度 + 长程 2D 轨迹 (CoTracker) → 全局一致的 3D 轨迹。
不只 novel-view 渲染,输出每个 3D 点完整时段的世界坐标轨迹——
机器人 / 动作识别真正需要的东西。
低秩假设不适合混乱运动(爆炸、流体);依赖 CoTracker 质量。
Gaussian Marbles
— Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos
关键想法:单目下椭球高斯太"自由",容易过拟合一个视角。
干脆把所有高斯换成各向同性的圆球弹珠——少一些自由度,单目问题更约束。
分而治之:先重建短窗口,再分层合并成全局一致的轨迹。
其他单目派靠"外加先验"约束病态优化;Marbles 靠"减少模型容量"约束。
哲学不同,结果同样稳。
§10avatar 人体 / Avatar 派
人体有强结构先验——SMPL(人体参数化网格模型)。
几乎所有这派工作的套路都一样:在 canonical T-pose 空间撒高斯,
用 LBS 把它们送到目标 pose,再用一个小 MLP 学姿态相关的衣物皱褶。
3DGS-Avatar
— Animatable Avatars via Deformable 3D Gaussian Splatting
关键想法:SMPL 是骨架,高斯是会动的衣服。
LBS 把每个高斯按"骨头权重"插值变换,再加一个小 MLP 修正皱褶。
NeRF 系人体(HumanNeRF / Vid2Avatar)训练几天 / 渲染 $\lt 1$ FPS;
3DGS-Avatar:30 分钟训练,50+ FPS。
裙子 / 披风等宽松衣物破坏 LBS;要求 SMPL 拟合精确。
GaussianAvatar
— Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians
关键想法:加入姿态相关外观网络——
高斯的颜色 / 不透明度会随 pose 变(手肘弯曲时才出现的衣袖褶皱);
同时联合优化 SMPL 拟合,在野外单目视频更鲁棒。
3DGS-Avatar 要求 SMPL 完美;GaussianAvatar 允许 SMPL 有噪声。
Animatable Gaussians
— Learning Pose-Dependent Gaussian Maps for High-Fidelity Human Avatar Modeling
关键想法:把 3D 高斯展开成两张 2D 贴图(人体前后投影),
用 StyleGAN 风格的 2D CNN 预测每像素高斯参数。
CNN 的归纳偏置专门擅长高频细节。
MLP 派擅长平滑、缺乏锐利皱褶;CNN 在 2D 贴图上直接生成锐利布料褶皱——
CVPR'24 同期里布料皱褶最锐利的方法。
需要多视角训练数据;侧面细节由 2 贴图参数化丢失。
§11gen 4D 生成派
前面七派全是"重建":有视频,要拟合。
这一派是"生成":从一句话、一张图、一段视频,无中生有出一段 4D 高斯动画。
核心机制:用视频扩散或多视角扩散提供监督
(SDS loss 或直接生成多视图样本注入),再蒸馏成 4D-GS。
L4GM
— Large 4D Gaussian Reconstruction Model
关键想法:在 12M 视频 / 300M 帧上预训一个 transformer:
扔进去一段单目视频,1 秒内吐出每帧的 3D 高斯(带时间自注意力保证一致)。
第一个 feed-forward 4D LRM;和 GS-LRM 对静态做的事完全对应——
把"per-scene 优化"压成"一次推理"。
对象级;背景杂乱会失败。
Diffusion4D
— Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models
关键想法:把视频扩散 fine-tune 成"4D-aware"——
给一句话 / 一张图,一次生成多视角同步的轨道环绕视频,
再拿这一束视频去拟合 4D-GS。
text-to-4D 老路(4DFy, Animate124)要 SDS 优化几小时;
Diffusion4D 收缩到分钟级。
SC4D
— Sparse-Controlled Video-to-4D Generation and Motion Transfer
关键想法:把 SC-GS 的稀疏控制点搬到 video-to-4D 生成——
顺便免费得到一项能力:把控制点轨迹从 A 视频"剥下来"贴到 B 形状上做 motion transfer。
Animate3D
— Animating Any 3D Model with Multi-view Video Diffusion
关键想法:给任意静态 3D 资产(Blender 模型 / LRM 输出),多视渲染后让
multi-view video diffusion 推一段 4D-一致的动画,最后蒸馏回 4D-GS。
保住原资产 identity——不会被 text-only 生成给变脸。
4D-LRM
— Large 4D Reconstruction Model for Time-Continuous Novel View Synthesis
关键想法:GS-LRM 的 4D 版本。
给任意 $\text{视角} \times \text{时间}$ 对的 posed 图像,一次性预测各向异性 4D 高斯场。
把时间当 first-class 维度,跨时间插值更平滑——理论上无穷帧率。
L4GM 是 per-frame 3D + 时间 attn;4D-LRM 直接预测真·4D 原语。
MotionGS
— Compact Gaussian Splatting SLAM by Disentangling Optical Flow
关键想法:形变 MLP 在没有观测约束时会乱编轨迹。
MotionGS 强制把高斯运动投影到 2D 后吻合解耦后的光流
(剥除相机自身造成的 flow,只留物体 flow),同时联合优化相机位姿。
§12时间线 2023 → 2026
点的颜色对应流派;按 arXiv v1 时间排序。看一眼就能感受到
2023 年底的"寒武纪大爆发"——三个月里六大流派几乎同时萌芽。
2023.073D Gaussian Splatting (Kerbl)SIGGRAPH'23 · 静态原点
2023.08Dynamic 3D Gaussians (Luiten)最早把 3DGS 推向动态 + 6-DoF 跟踪
2023.09D-3DGS (Yang)形变场派原型 · canonical + MLP
2023.104D-GS / HexPlane (Wu)同范式,MLP→HexPlane,82 FPS
2023.10真·4D-GS (Yang ICLR'24)时空原子派开山 · 4D 协方差
2023.11PhysGaussian物理派开山 · MPM + 高斯
2023.11DynMF$K$ 条共享神经轨迹基
2023.11Animatable Gaussians2D 贴图 + StyleGAN-CNN
2023.12GaussianAvatar / 3DGS-AvatarSMPL + LBS + 高斯外衣
2023.12HiFi4GED-graph + 高斯,$25\times$ 压缩
2023.12SC-GS稀疏控制派 · 可编辑动画
2023.12GauFRe静/动分离 · 单目 30+ FPS
2023.12Spacetime Gaussians (STG)多项式 + 时间高斯不透明度
2024.03Gaussian-Flowpoly + Fourier + 解析光流监督
2024.04E-D3DGS修复 D-3DGS 的运动平滑病
2024.04DG-Mesh从形变高斯里提时序一致 mesh
2024.04SC4Dvideo-to-4D + 运动迁移
2024.04PhysDreamer · PhysAvatar从视频扩散蒸馏材料参数
2024.05MoSca4D motion scaffold + 无相机位姿
2024.05Diffusion4D4D-aware 视频扩散 → 4D-GS
2024.06MoDGS静相机单目,依赖单目深度
2024.06SP-GS · MaGS超点 / mesh-adsorbed
2024.06Gaussian Marblesisotropic 弹珠 + 分层合并
2024.06L4GM第一个 feed-forward 4D LRM
2024.06Physics3D粘弹性本构 + SDS
2024.07Shape of Motion低秩 SE(3) 基 + 全程 3D 跟踪
2024.10MotionGS光流解耦 + 联合相机位姿
2024.114D Scaffold GS · FreeTimeGS4D 表示压缩潮流
2024.11Animate3D静态资产 → 4D 动画(保 identity)
2025.06DGS-LRM · 4D-LRM真正端到端 feed-forward 时代
2026.02i-PhysGaussian隐式 MPM,长仿真稳定
§13横向对比表
把代表作放在五个维度上一字排开。capture 表示需要的输入条件,拓扑 表示能否处理出现 / 消失。
"~" = 部分支持(借助高斯生长/剪除间接处理);"—" = 不适用。
§14如何挑方法 · 30 秒决策树
假设你要选一篇方法做实验。沿着下面这棵树走一遍,应该 30 秒内能定位到 1–2 篇候选。
- 你的输入是什么?
- 📷 多视角同步 rig →
- 需要稠密 6-DoF 跟踪? → Dynamic 3D Gaussians (Luiten)
- 追极致质量 + 瞬态物体? → Spacetime Gaussians 或 真·4D-GS (Yang ICLR)
- 人体表演 + 强压缩? → HiFi4G
- 📱 单目视频(相机有运动) →
- 要快 / demo? → 4D-GS (Wu) 或 D-3DGS
- 需要 3D 轨迹输出? → Shape of Motion 或 MoSca
- 要可编辑? → SC-GS 或 SP-GS
- 📱 单目视频(相机静止) → MoDGS(深度先验救命)
- 🧍 人体专用 →
- 通用快速? → 3DGS-Avatar / GaussianAvatar
- 追皱褶细节? → Animatable Gaussians
- 想做衣物物理外推? → PhysAvatar
- 🧊 已有静态 3D 资产 → 想让它动 →
- 真实物理(弹/塑/沙/流体) → PhysGaussian / i-PhysGaussian
- 想象式动画 → Animate3D
- 💭 只有一句话 / 一张图 → Diffusion4D / SC4D
- ⚡ 无所谓质量,要 feed-forward 秒级 → L4GM / DGS-LRM / 4D-LRM
§15入门者学习路线图
如果你是从 NeRF/SDF 进入这片领域,建议按下面顺序读论文 + 复现代码,大约 2–3 周可以从外行到能跑实验。
第一周 · 基础 3DGS + 第一根藤蔓
- 3DGS (Kerbl 2023) 原论文 — 重点看 §3 splatting 数学和 §5 自适应密度控制。官方代码 跑一个 MipNeRF360 场景。
- D-3DGS (Yang 2023) — 跑通形变场派最小例子。理解 stop-gradient 为什么必要。
- Dynamic 3D Gaussians (Luiten) — 看三条 rigidity loss 怎么写代码。
第二周 · 范式分水岭
- 4D-GS (Wu) 与 真·4D-GS (Yang ICLR) 对比读 — 一篇一晚,差异就深刻了。
- Spacetime Gaussians — 学会用多项式 + 时间高斯包络替代 MLP。
- SC-GS — 第一次接触 LBS / ARAP;图形学传统智慧重回 3DGS 的代表。
- PhysGaussian — 哪怕你不做物理,也要看看 MPM 流程,理解 WS² 哲学。
第三周 · 进阶专题(按方向选)
- 单目野外:MoSca → Shape of Motion → MoDGS → Gaussian Marbles
- 人体:3DGS-Avatar → Animatable Gaussians → PhysAvatar
- 4D 生成:L4GM → Diffusion4D → Animate3D → 4D-LRM
- 压缩 / 工程:HiFi4G → 4D Scaffold GS → FreeTimeGS → Optimized Minimal 4D GS
必备背景补强
- LBS:计算机动画教材的"skinning"章节;理解 $\mathbf{x}' = \sum_b w_b T_b \mathbf{x}$。
- SMPL:Loper 2015 SIGGRAPH Asia 原论文。
- MPM:Stomakhin et al. 2013 (雪人) 或 ChenFanFu MPM course;P2G/G2P 流程。
- HexPlane / K-Planes:K-Planes CVPR'23;"3D 场分解成几张 2D 平面"是个普适技巧。
- SE(3) Lie 代数:Barfoot 《State Estimation for Robotics》 第 7 章;为 Shape of Motion 做准备。
- Score Distillation Sampling (SDS):DreamFusion;4D 生成派的基础。
§16参考文献
按本文出现顺序列出,每条都带 arXiv 链接。颜色对应流派。
- Kerbl et al., 3D Gaussian Splatting for Real-Time Radiance Field Rendering, SIGGRAPH 2023. arXiv:2308.04079
- track Luiten et al., Dynamic 3D Gaussians, 3DV 2024. arXiv:2308.09713
- def Yang et al., Deformable 3D Gaussians, CVPR 2024. arXiv:2309.13101
- def Wu et al., 4D-GS: 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering, CVPR 2024. arXiv:2310.08528
- st Yang et al., Real-time Photorealistic Dynamic Scene Representation, ICLR 2024. arXiv:2310.10642
- phys Xie et al., PhysGaussian, CVPR 2024. arXiv:2311.12198
- st Kratimenos et al., DynMF, ECCV 2024. arXiv:2312.00112
- avatar Li et al., Animatable Gaussians, CVPR 2024. arXiv:2311.16096
- avatar Hu et al., GaussianAvatar, CVPR 2024. arXiv:2312.02134
- avatar Qian et al., 3DGS-Avatar, CVPR 2024. arXiv:2312.09228
- st Jiang et al., HiFi4G, CVPR 2024. arXiv:2312.03461
- sparse Huang et al., SC-GS, CVPR 2024. arXiv:2312.14937
- def Liang et al., GauFRe, WACV 2025. arXiv:2312.11458
- st Li et al., Spacetime Gaussian Feature Splatting, CVPR 2024. arXiv:2312.16812
- st Lin et al., Gaussian-Flow, CVPR 2024. arXiv:2403.12365
- def Bae et al., Per-Gaussian Embedding Deformation, ECCV 2024. arXiv:2404.03613
- sparse Liu et al., DG-Mesh, ICLR 2025. arXiv:2404.12379
- gen Wu et al., SC4D, ECCV 2024. arXiv:2404.03736
- phys Zhang et al., PhysDreamer, ECCV 2024. arXiv:2404.13026
- phys Zheng et al., PhysAvatar, ECCV 2024. arXiv:2404.04421
- mono Lei et al., MoSca, 2024. arXiv:2405.17421
- gen Liang et al., Diffusion4D, NeurIPS 2024. arXiv:2405.16645
- defmono Liu et al., MoDGS, ICLR 2025. arXiv:2406.00434
- sparse Ma et al., MaGS, SIGGRAPH Asia 2024. arXiv:2406.01593
- sparse Wan et al., SP-GS, ICML 2024. arXiv:2406.03697
- phys Liu et al., Physics3D, 2024. arXiv:2406.04338
- gen Ren et al., L4GM, NeurIPS 2024. arXiv:2406.10324
- mono Stearns et al., Dynamic Gaussian Marbles, SIGGRAPH Asia 2024. arXiv:2406.18717
- mono Wang et al., Shape of Motion, ICCV 2025. arXiv:2407.13764
- gen Zhu et al., MotionGS, NeurIPS 2024. arXiv:2410.07707
- gen Jiang et al., Animate3D, NeurIPS 2024. animate3d.github.io
- st Cho et al., 4D Scaffold Gaussian Splatting, 2024. arXiv:2411.17044
- gen DGS-LRM, 2025. arXiv:2506.09997
- gen Ma et al., 4D-LRM, 2025. arXiv:2506.18890
- phys i-PhysGaussian, 2026. arXiv:2602.17117