LucidDreamer 论文笔记

本文的贡献：

我们对文本到D生中的基本组成部分——分数蒸馏采样（SDS）进行了深入分析，并确定了其提供不一致和低质量伪地面真值的关键限制。这解释了许多方法中存在的过度平滑效应。
*对SD的限制我们提出了区间分数匹配（ISM）。通过可逆扩散轨迹和基于区间的匹配，ISM在逼真度细节方面明显优于SDS。
通过与3*高斯飞溅集成我们的模型实现了最先进的性能，超越了现有方法，并且训练成本更低。

第一个问题：

SDS背后的机制是将3模型渲染的图像扩散型生成的伪地面真值（pseudo-GT）进行匹配。然而，如图2所示，生成的伪地面真通是不一致的，并且视觉质量较低。因此，所有这些伪地面真值提供的更新方向随后都被应用于同一个3D模型。由于平均效应，最的结往往过度平滑且缺乏细节。通常他们是将其对加噪的一系列的图片进行平均，即得到一个伪真值s

通过这张图，可以就看到其预测出来的伪真值有时候其实可以不一致，例如第二行的第2个和第4个。

![SDS伪真不致示例(images/LucidDreamer/image-20240506153328097.png)

首先本文揭露了伪地面真值的不满意来自于两个方面：

1.其是由扩散模型的一步重建结果得到的结果误差较高

2.扩散轨迹中的固有随机性

本文通过提出一种新颖的方案，称为区间分数匹配（ISM），通过两个有效的方案：

1.ISM产生了一个可逆的扩散轨迹，并减轻了由伪地真值不一致引起的平均效应。（即去除噪声的轨迹是固定的,DDIM通过精心设计的反向过程，使得从任何给定的噪图像到清晰图像的路径成为确定性的，这意味着对于同样的输入和模型参数，每次执行反向过程都会得到完全相同的结果。）

2.ISM不是将伪地面真值与3D模型渲染的图像进行匹配而是在扩散轨迹中进两个间步骤之间的匹配，从而避免了产生高重建误差的一步重建。

原本的SDS指在最小化该KL散度 $$ \min_{\theta\in\Theta}\mathcal{L}{\mathrm{sos}}(\theta):=\mathbb{E}{t,c}\left[\omega(t)D_{\mathrm{KL}}(\mathcal{N}(\boldsymbol{x}_t;\sqrt{\bar{\alpha}_t}\boldsymbol{x}_0,(1-\bar{\alpha}_t)\boldsymbol{I})\parallel p_\phi(\boldsymbol{x}t|y))\right]. $$ 将其重参数化： $$ \min{\theta\in\Theta}\mathcal{L}\mathrm{sps}(\theta):=\mathbb{E}{t,c}\left[\omega(t)||\boldsymbol{\epsilon}_\phi(\boldsymbol{x}t,t,y)-\boldsymbol{\epsilon}||2^2\right], $$ 对$\theta$的梯度 $$ \nabla_\theta\mathcal{L}{\mathrm{sps}}(\theta)\approx\mathbb{E}{t,\boldsymbol{\epsilon},c}\left[\omega(t)(\underbrace{\boldsymbol{\epsilon}_\phi(\boldsymbol{x}t,t,y)-\boldsymbol{\epsilon}}{\text{SDS update direction}})\frac{\partial\boldsymbol{g}(\theta,c)}{\partial\theta}\right]. $$

$$ \begin{aligned} &\operatorname*{min}{\theta\in\Theta}\mathcal{L}{\mathrm{sos}}(\theta) :=\mathbb{E}{t,\boldsymbol{\epsilon},c}\left[\frac{\omega(t)}{\gamma(t)}||\gamma(t)(\boldsymbol{\epsilon}{\phi}(\boldsymbol{x}{t},t,y)-\boldsymbol{\epsilon})+\frac{(\boldsymbol{x}{t}-\boldsymbol{x}{t})}{\sqrt{\bar{\alpha}{t}}}||{2}^{2}\frac{\partial\boldsymbol{g}(\theta,c)}{\partial\theta}\right]\quad=\mathbb{E}{t,\boldsymbol{\epsilon},c}\left[\frac{\omega(t)}{\gamma(t)}||\boldsymbol{x}_0-\hat{\boldsymbol{x}}_0^t||_2^2\frac{\partial\boldsymbol{g}(\theta,c)}{\partial\theta}\right]. \

\end{aligned} $$ $$ \gamma(t)=\frac{\sqrt{1-\bar{\alpha}_t}}{\sqrt{\bar{\alpha}_t}} $$ $$ \mathrm{where~~}\boldsymbol{x}_t\sim q^\theta(\boldsymbol{x}_t)\mathrm{~~and~}\hat{\boldsymbol{x}}_0^t=\frac{\boldsymbol{x}_t-\sqrt{1-\bar{\alpha}_t}\boldsymbol{\epsilon}_\phi(\boldsymbol{x}_t,t,y)}{\sqrt{\bar{\alpha}_t}}. $$

以下这个式子由原始图像与伪GT图做差得到的，其中消去了一系列与时间t无关的项，因为其认为其他时间项在其时间段遍历到，因此没有必要在当前时刻理公式推导

生成扩散模型漫谈（四）：DDIM = 高观点DDPM - 科学空间|Scientific Spaces

ISM的目的是使得能在随机视角中，得到的伪真值差异不会特别的大，从而保证不那么平滑，同时于一致性也更好

ISM示意图

以下是对论文内容的总结，包括背景、动机、相关工作、当前工作的缺陷、问题分析、方法及贡献：

1. 背景 (Background)

本文的研究领域主要集中在文本到3D生成任务中，尤其是如何利用扩散模型和相关的生成方法来生成高质量的3D资产。随着A技术发展，如何从文本描述生成高质量的三维模型成为了计算机视觉和图形学的重研究课题。

2. 动机 (Motivation)

现有的文本到3D生成方法主要依赖于Score Distillation Sampling (SDS)，然而，DS在过度平滑的缺陷，会导致生成的3D模型细节丧失。本文的动机是解决这一问题，提出一种新的方法（Intrval Score Matchig,ISM）来生成更为精细和一致的3D模型。

扩散模型 (Diffuio Models): 过去的研究表明，扩散模型在图像生成任务中取得了显著的成功。很多基于扩散模型的方法被应用于2D图像生成任务，但在3D生成领域的应用相对较少。
SDS方法 (Score Distillation amling): DS一种利用扩散模型生成伪真实标签（pseuo-GT）的技术。尽管它可以有效生成样本，但在3D生成中常常遇到过度平滑的问题导致生成的3D模型缺乏细节。
DDIM和其他生成方法: DDIM是一种改进的生方法能够通过反向传播技术进行更精准的生成。然，它直接生成3D模型时也面临挑战。

4. 当前工作的缺 (Limitations of Current Work)

当前的SD方法然能够生成3D模型，但存在以下缺陷：

过度平滑问题 (Over-Smoothing Issue): 生成的3D模型往缺乏节，导致结构不清。 生成的伪真实标签不一致 (Inconsistency of Pseudo-GTs): SDS生成伪真标签存在较大的不一致性，这进一步影响了生成结果的质量。

5. 如何分析问题 (Problem Analysis)

本文分了SDS方法的缺陷，认为其根源在于伪真实标签的生成过程中存在随机性，包括：

单步重建误差：
时间步长的随机性 (Randomness in timste t)
噪声成分的随机性 (Randomness in noise component ε)
摄像机视角的随机性 (Randomness in camera pose c)

如前所述，我们的目标是通过DDIM（动态集成可逆映射）反演来预测噪声潜在轨迹 {xδT,x2δT,…,xt}{x_{\delta T}, x_{ 2\delta T}, … x_t}{xδT,x2δT,…,xt}，而不是像方程（3）中那样随机生成 xtxtxt。。

这些因素导致了生成过程中的不一致性，进而影响了生成结果的质量。

6. 方法 (Method)

本文提出了**Interval Score Matching (ISM)**方法，旨在通过更精确的梯度估计来解决过度平滑的问题。ISM的关键创新在于：

通过引入**多步去噪操作 (Multi-step Denoising)*，替代SDS中的单步伪真实标签估计。
使用**DDIM反转 (DDIM Inversion)来计噪声变量，从而避免了传统方法中的不一致性问题。 -结合高效的3D表示 (3D Representation)**，如3D高斯点云（3D Gaussian Splatig），进一步提升了生成质量。

7. 贡 (ontributions)

本文的主要贡献包括：

提出了ISM方法，成功解决了SDS中的过度平滑问题，生成了更具细节和一致性的3D模型。
通过引入DDIM反转和噪技术，优化了生过程，著提升了训练效率。
提出了一个结合IS和3高斯点云的框架，称为LuciDreamer，并在多个3D生成任务中证明了其优越性。
通过用户研究多项实验了IM在多个场景中的有效性，展现了其广泛的应用前景。

篇论在解决文本到3D生成中的细节不足和不一致性问题方面做出了创新贡献，出的ISM方法不仅在效率上得到了提升，而且在生成质量上也得到了显著改进。