Learn · 一份慢慢长出来的图解综述合集

§ Ⅰ

生成式与学习基础 Probabilistic & Learning Primitives

讲清楚"为什么我们可以从样本里学到分布"、"为什么微调有效"、"为什么 flow matching 比扩散更简单" 这一类前置直觉。每一篇都从最朴素的版本写起，再逐层加复杂度。

从大数定律到高维薄球壳 · ML 入门者的概率论散文 LLN → High-Dim Concentration

从硬币、骰子、蒙特卡洛、mini-batch SGD 的大数定律出发，一路推到 高维正态几乎全部质量都集中在一层薄球壳上—— 再把这件反直觉的事接到 flow matching 与扩散模型里"噪声看起来居然几乎一样"的实践里。 flow-matching 那一篇的前置读物。

read
SFT 是什么 · 给初学者的可交互讲解 Supervised Fine-Tuning

预训练模型见过整个互联网，但不知道怎么"按指令回答"。 SFT 用几万条 (prompt, answer) 把它扭到对话姿势——本文用可交互玩具讲清这一过程。

read
从 SFT 到 LoRA · 给入门者的可交互讲解 Low-Rank Adaptation

全量 SFT 要更新几十亿参数。LoRA 只在每一层插两个小矩阵，就达到几乎一样的效果——把"低秩"这件事拆给你看。

read
球壳上的散步 · 拆解一句关于 Flow Matching 的话 Flow Matching

一句教科书式的论断 —— "flow matching 学的是从噪声到数据的速度场" —— 听起来简单，落到公式上却处处是坑。本文沿着一句话拆出概率路径、条件向量场、与扩散的等价性。

read

§ Ⅱ

3DGS 本体 · 表示与渲染 3D Gaussian Splatting — Representation & Rendering

从"一颗高斯椭球如何投影到屏幕"开始，逐层讲清 3DGS 的所有构件，以及之后几次对它本体的重大改写：抗锯齿、压缩、表面化、四面体网格化、ray tracing。

3D 高斯泼溅 · 从第一性原理出发 From First Principles

约 14,000 字的图解长文：Gaussian 原子、协方差的 RSSᵀRᵀ 重参数化、EWA 投影、球谐颜色、瓦片光栅化器、致密化的克隆/分裂/裁剪 —— 一层一层拆开来讲。Part Ⅱ 把 Mip-Splatting、2DGS、GES、3DGS-MCMC、Scaffold-GS、SuGaR 串成一条线。

read
How 3DGS got fast · a CUDA story CN/EN Rendering Efficiency

从 2023 年的原版 CUDA 实现，到 2026 年所有提升渲染 / 训练效率的关键工作。深入瓦片调度、排序、α 合成早终止——把"为什么 3DGS 能 100 倍快过 NeRF"讲到底。中英双语。

read
3DGS 抗锯齿之路 · A Visual Survey (2023 – 2026) Antialiasing

走过 3DGS 历史上的每一次锯齿/弹跳/膨胀缺陷，以及对应的修复方案： Mip-Splatting 的两道滤波器、Analytic-Splatting、Multi-Scale GS、GES 等。

read
3DGS 压缩综述 CN/EN Compression Survey

一份 2023 → 2026 的教学型综述：剪枝、量化、球谐、锚点结构、熵编码、工业格式。把 1 GB 的场景压到 30 MB，每一道杠杆都拆给你看。中英双语。

read
3DGS × Surface · 表面与几何重建 Surface Reconstruction

2023–2026 三年里所有把"模糊体素"拽回"实体表面"的工作：2DGS、SuGaR、PGSR、GOF、Sugar-Mesh 等。为什么显式表面对下游应用（仿真、AR、3D 打印）几乎是必须的。

read
3DGS × 四面体网格 · 入门者的交互式综述 Tetrahedral Grids

高斯椭球与四面体剖分的交叉工作综述：把"散点"和"体网格"两种几何表示拼到一起的尝试。含可交互 demo。

read
光线追踪高斯 · 3DGRT / 3DGUT / 3DGRUT 深挖 Gaussian Ray Tracing

从 NeRF 与 3DGS 一路讲到 NVIDIA 把 3D 高斯接到光线追踪管线的 3DGRT 系列工作，及其衍生宇宙：什么时候必须用 ray tracing 而不是光栅化。

read

§ Ⅲ

超越高斯 · 辐射场与表面的其他表示 Beyond Gaussians — Other Primitives

不是所有辐射场都得是高斯椭球。这一组讲另几种表示走法：把空间切成 Voronoi 泡沫或 Delaunay 四面体 的可微辐射场，以及"局部基元如何长成全局连续表面"四十年的图形学脉络。前两篇互为对偶，建议对照读。

Radiant Foam · 把光追请回辐射场 new Voronoi Ray Tracing · ICCV 2025

不用高斯、也不靠光栅化：把场景切成一团三维 Voronoi 泡沫，让光线真的一格一格穿过去，做一次精确体积积分。结果是一个可微、实时、且不需要 RTX 光追核心的辐射场。初始化 / 训练 / 渲染逐行对到官方代码，含 4 个交互 demo。

read
Radiance Meshes · 四面体辐射场 new Delaunay-Tet Radiance Field · CVPR 2026

Radiant Foam 的对偶兄弟：把空间剖成 Delaunay 四面体，每个四面体常密度 + 线性颜色，既能光栅化又能光追，体积积分有精确闭式解。表示 / 渲染 / 训练逐行拆解，与上一篇交叉对照，含 4 个交互 demo。

read
局部基元的连续表面 · 3DGS 的前传 new The Pre-History of 3DGS · 1982–2026

一份图形学考古：怎样造一个既局部、又连续成面、又能解析泼溅、还能自适应不透明度的 3D 表示。沿"四个愿望"把单位分解、MLS、RBF、Poisson、R-函数一路讲到高斯前沿——看清 3DGS 站在哪些肩膀上。

read
局部装配全局场 · 用局部基元拼出连续标量场 new Local Primitives → a Global Field

介于"单一黑箱 neural SDF"与"散装 3DGS"之间那条被忽视的中间道路：单位分解、MLS、RBF、 Poisson、R-函数、小波、Factor Fields，到 2026 高斯前沿——四十年图形学里"局部如何优雅地长成全局连续场"的数学，含 4 个交互 demo。

read

§ Ⅳ

前馈与生成式 3D · 一次前向造出场景 Feed-forward & Generative 3D

把 3D 从"逐场景优化"变成"一次前向"或"几步生成"。这是一个独立于 3DGS 本体的课题： 3D 资产/场景生成、前馈重建共享"无需 per-scene 优化"的基因，主线是不断把"3D 先验"放到更靠近 3D 的地方，各自要解决一致性、数据稀缺与画质的难题。

会做梦的几何 · 现代 3D 生成综述 Modern 3D Generation multi-page hub

整个 3D 资产生成领域的多页教学综述，一句话主线串起来——不断把"3D 的先验"放到更靠近 3D 的地方： SDS 蒸馏 → 多视图扩散 → 前馈 LRM → 原生 3D 扩散（vecset 的 Step1X-3D/TripoSG 与结构化 latent 的 TRELLIS/Pixal3D），再到干净拓扑（mesh-AR）、可重光照 PBR 与 2026 前沿。9 个交互 demo。

enter hub
生成式 3DGS 综述 · 2023 → 2026 Generative 3DGS

3DGS 怎么成为现代 3D 生成的输出格式：SDS（DreamGaussian）、前馈大重建模型（LGM/GRM/LRM 系）、原生 3D 扩散与稀疏体素上的 rectified flow（Trellis 及其后继 TRELLIS.2、Pixal3D）。含交互式 demo 与代码片段。

read
Feedforward 3DGS · 从 3DGS 到 VGGT Feedforward Reconstruction

一次前向就吐出整个 3D 场景的家族：pixelSplat、MVSplat、GS-LRM、Splatter Image、再到 VGGT。为什么"无需 per-scene 优化"这件事在 2024 之后才真正可行。

read
想象的表面 · 一次前馈出 SDF，还能补全没看见的地方 thoughts Feed-forward SDF + Completion

一篇发散性的思路探索：能否用 VGGT 风格的长视频前馈 backbone，结合 3D 生成的网络框架与 MILo / Radiance Meshes 式的 SDF 表达，做一个一次前向就出表面、并能像 TripoSplat 那样补全未观测区域的模型。含模块拆解、五个候选架构、蒸馏 / LoRA 可行性与开放问题。

read
FlashWorld · 几秒钟生成一个 3D 场景 new Fast 3D Scene Generation · ICLR 2026 Oral

给一张图或一句话，9 秒生成一个 3D 高斯场景。核心两步：把视频扩散模型（Wan2.2）当 3D 先验，绕开"3D 没数据"；再用带 GAN 精髓的跨模分布匹配蒸馏（DMD2），让"锐利"与"3D 一致"同时成立。逐行对到官方代码 imlixinyang/FlashWorld，含 4 个交互 demo。

read

§ Ⅴ

3DGS 下游 · 应用与场景 Applications & Verticals

重光照、SLAM、城市级、动画化的人、可变形场景 —— 每一个方向都把"3DGS 必须改成什么样" 和"以前 NeRF 时代是怎么做的"讲清楚。

3DGS Relighting 综述 Relighting — 2023 → 2026

从 2023 年 3DGS 诞生到 2026 年最新前沿的中文长文： GaussianShader / Relightable 3DGS / GS-IR / IRGS / Ref-Gaussian / Spec-Gaussian / GUS-IR … 一篇连续读完——把"为什么 3DGS 烤进去的是颜色而不是材质"和后来如何拆出 BRDF、normal、environment 讲到底。

read
3DGS SLAM · A Beginner's Survey (2023 → 2026) CN/EN Visual SLAM

相机不知道自己在哪里时，3DGS 当 SLAM 后端是什么样：SplaTAM、MonoGS、Gaussian-SLAM、Photo-SLAM … 位姿与地图的联合优化怎么写，闭环怎么做，含交互式 demo。

read
大规模 3DGS 综述 · 城市、航拍、自驾 Large-Scale 3DGS

把 3DGS 推过 1 km 时会断在哪里，以及三大类修补方法：空间分块（VastGaussian / Hierarchical-GS）、锚点 LOD（Octree-GS / CityGaussian）、流式加载。覆盖 2023.7 – 2026.5。

read
3DGS · 数字人综述 rewrite Avatars — Heads, Bodies, Hands

3DGS 怎么变成"会动、可驱动、可重光照"的数字人的标准表示——头、身体、手分别有什么坑。 rigged Gaussians 挂在 SMPL / FLAME / MANO 上、LBS 的梯度怎么走、以及生产级系统（GaussianAvatars、HUGS、Animatable-GS、GART …）的工程细节。

read
可变形 3DGS · 2023–2026 学术综述 Deformable / 4D 3DGS

静态高斯如何变成"会随时间运动的场景"：Deformable 3DGS、4D-GS、Spacetime Gaussians，以及它们处理拓扑变化和长视频的不同思路。

read

§ Ⅵ

视觉语言模型 · 图像如何进入 LLM Vision-Language Models

一张图怎么变成 LLM 能读的 token，以及为什么这些模型说不准坐标、分不清上下左右—— 两篇由浅入深的 VLM 教学长文，从架构讲到几何感知的前沿。

图像是怎么住进 LLM 的 · How VLMs Read Images new How VLMs Read Images

一张图片怎么变成 LLM 能读的 token：从 ViT patchify、CLIP 对齐、connector（线性 / MLP / Q-Former / Resampler / pixel-shuffle）、前缀 vs 交叉注意力两种注入，到 AnyRes 切图与原生动态分辨率。既有约 40 张论文卡的综述，也有里程碑深读。

read
坐标原生的 VLM · Coordinate-Native VLMs new Coordinate-Native Vision-Language Models

为什么 VLM 说不准坐标、分不清上下左右——从 patch + 2D 位置编码的失效，到 reference-point / grounding-token / 3D-aware 的新架构。一篇由浅入深、几何显式的教学综述。

read

§ Ⅶ

系统、加速与空间智能 Systems, Acceleration & Spatial AI

把大模型推理 / 后训练吃满 HBM 带宽，以及当先验地图已经存在时 SLAM 该怎么改写—— 两份近期写就的、超出 3DGS 本体范畴的综述。

追逐 HBM · 推理与后训练加速综述 LLM / VLM / VLA / Diffusion / World-Model multi-page hub

一份面向有基础 ML 与一点 C++/CUDA 读者的多页教学综述：为什么现代加速几乎都在"追逐 HBM 带宽"。 Primer 起步，依次铺开 attention / KV cache / decoding / quantization / sparse-MoE / serving / tricks，再走 post-training，最后落到 diffusion、VLM、VLA、world model 各分支上的差异。

enter hub
数字孪生 SLAM · 当地图已经存在 new Digital-Twin-Anchored SLAM

传统 SLAM 假设"边建图边定位"，但工厂、矿场、商场早已扫好一份稠密数字孪生。这一份综述把"已知地图"这一约束加回 SLAM，看一整族变体如何重写 front-end、loop closure 与 back-end —— 与上面 3DGS-SLAM 互为镜像。

read

§ Ⅷ

机器人与物理仿真 Robotics & Physical Simulation

从"机器人为什么必须 RL"的两条路线、"谁来指挥这台机器人"的分层决策与控制权交接，到训练机器人折布所需的 GPU 可变形仿真——三篇把具身智能底层一直讲到求解器的长文。

机器人为什么必须 RL · 从 π*0.6 到两条路线 new Imitation → RL · Online vs Sim-to-Real

拆解一句话："机器人任务要到泛化级成功率一定得上 RL——要么真机 online RL，要么关掉 sim-real gap、在仿真里疯狂 RL。" 从模仿学习的复利误差讲起，沿 π0 → π0.5 → π0.6 → π*0.6(RECAP) 这条线，把两条路线的关键里程碑、思想与 2026 前沿用 4 个交互演示讲清。

read
分层机器人 · 层与层的关系与控制权交接 Layered Control & Action-Selection

一台机器人身上最高层切任务、上层选阶段、中层算轨迹、底层驱动电机，还有一圈安全规约——这些层到底什么关系？上层凭什么、何时、以何种方式影响下层；"参考"到底是什么；控制权依据时间 / 事件 / 值 / 安全四种触发如何交接？以「分层决策 / 控制 / 安全」为主线、强调部署验证的深度讲解。

read
读懂 FLASH · 从零到 GPU 可变形仿真 GPU Deformable Simulation

把 FLASH（GPU 原生可变形仿真，分钟级训练机器人折布）需要的每一块基础知识，从隐式积分、弹性、Projective Dynamics、ARAP、接触、Schur 补一路讲到稀疏直接求解器—— 为只有高数 / 线代 / 机器学习基础的读者。

read