【深度学习】 19. 生成模型：Diffusion Models

Diffusion Models

Diffusion Models 简介

Diffusion 模型是一类通过逐步添加噪声并再逆向还原的方式进行图像生成的深度生成模型。其基本流程包括：

前向过程（Forward Process）：将真实图像逐步加噪，最终变为高斯噪声。
反向过程（Reverse Process）：学习一个模型从噪声中恢复图像。

这种方法具备以下优点：

稳定的训练过程；
高质量的图像生成效果；
可用于多模态、条件生成等任务。

该方法与之前的 VAE、GAN 等形成鲜明对比，它不直接建模图像分布，而是借助 Markov 链将采样任务转化为连续去噪。

Denoising Diffusion Probabilistic Models (DDPMs)

Overview of DDPM

Denoising Diffusion Probabilistic Models (DDPMs) 包括两个核心阶段：

Forward Process：从真实图像逐步加入噪声，破坏其结构，最终变为高斯噪声。
Reverse Process：学习一个去噪器（神经网络）从高斯噪声反向恢复图像结构。

Forward Process 定义

Forward 过程是一个马尔可夫过程：

$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I)$

其中：

$\beta_t \in (0, 1)$ ：是一个小的正数，用于控制每步噪声添加强度。

从t=0到t=T叫做noise schedule. 通常是一个小的数，确保数据被缩小，并且方差不会爆炸。

Ho et al.,建议 $\beta_0$ = 0.0001 到 $\beta_{1000}$ ∈0.02.
$\sqrt{1 - \beta_t}$ ：控制当前步保留多少上一步的信息。
$\beta_t I$ ：控制当前步加入多少新噪声。
N是正态分布
$x_t$ 是输出
$\sqrt{1 - \beta_t}x_{t-1}$ 是均值

联合分布可写为：

$q(x_{1:T} | x_0) = \prod_{t=1}^T q(x_t | x_{t-1})$

Forward Process 中的 Noise Schedule

噪声调度（noise schedule）选择对模型表现影响巨大。Ho 等人建议的线性增长方式如下：

$\beta_t \in (0.0001, 0.02)$

为了进一步简化推导，我们定义：

$\alpha_t = 1 - \beta_t, \quad \bar{\alpha}_t = \prod_{s=1}^t \alpha_s$

这将帮助我们将任意时间步 $x_t$ 直接表示为关于 $x_0$ 的函数，而不需要按顺序采样。

任意时间步的封闭采样公式（closed form）

通过：
$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1- \beta_t}x_{t-1}, \beta_t I)$
我们有：
$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I)$

这被称为 Diffusion Kernel，意味着我们可以直接从 $x_0$ 中采样任意时刻的 $x_t$ 。

推导封闭形式采样的过程（Proof Sketch）

我们希望推导出一种简洁的表达形式，使得在已知初始数据 $x_0$ 的情况下，可以直接采样任意时刻 $x_t$ ，而不必逐步迭代。这是 Diffusion 模型高效训练和推理的关键。

定义

我们首先引入两个关键定义：

$\alpha_t = 1 - \beta_t$
$\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$

$\bar{\alpha}_t$ 表示从时间 $0$ 到 $t$ 所有 $\alpha_t$ 的乘积。

Forward Process 的定义

原始的前向扩散过程由下式给出：

$q(x_t \mid x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} \cdot x_{t-1}, \beta_t I)$

利用 $\alpha_t = 1 - \beta_t$ ，改写为：

$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_{t-1}, \quad \epsilon_{t-1} \sim \mathcal{N}(0, I)$

重参数化展开

我们希望将 $x_t$ 表达为关于 $x_0$ 和高斯噪声的函数。

从上述公式出发，开始展开：

$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_{t-1}$

将 $x_{t-1}$ 再展开为：

$x_{t-1} = \sqrt{\alpha_{t-1}} x_{t-2} + \sqrt{1 - \alpha_{t-1}} \epsilon_{t-2}$

代入 $x_t$ 中：

$x_t = \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1}$

继续递归展开，我们得到：

$x_t = \sqrt{\alpha_t \alpha_{t-1} \cdots \alpha_1} x_0 + \text{多项高斯噪声加权和}$

由于高斯变量的加权和仍然服从高斯分布，我们可以将所有噪声项合并成一个等效的高斯变量：

$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$

得到封闭形式的 Diffusion Kernel

于是我们就得到了一个封闭形式的采样公式：

$q(x_t \mid x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I)$

这一公式说明我们无需一步一步从 $x_0$ 扩散到 $x_t$ ，而是可以直接采样任意时间步的 $x_t$ ，大大加快了训练过程。

噪声调度策略对比（Noise Schedule Improvements）

问题： Ho 等人的线性调度会快速降低 $\bar{\alpha}_t$ ，导致图像信息太快丢失。

改进方案： Dhariwal 和 Nichol 提出使用余弦函数作为调度：
$\bar{\alpha}_t = \frac{f(t)}{f(0)}, \quad f(t) = \cos^2\left( \frac{t/T + s}{1 + s} \cdot \frac{\pi}{2} \right)$

Linear 调度： 蓝色曲线，下降较快。
Cosine 调度： 橙色曲线，下降更慢，更平滑。

在这里插入图片描述

效果图（下图）显示：

上排（linear）图像更快被完全扰乱。
下排（cosine）保留更多结构，有助于训练稳定性。

在这里插入图片描述

Reverse Process 与其公式推导详解

本节展示了扩散模型中的逆过程（Reverse Process）如何从纯噪声逐步生成数据点，以及其数学表达和推导方式。

概述

Paper review: Denoising Diffusion Probabilistic Models | by Sangyun Lee | Medium

逆过程图中描述了从高斯噪声 $\mathbf{x}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 开始的逐步采样过程：通过网络 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 不断采样，直到重构出 $\mathbf{x}_0$ 。

在已知某一时刻的“噪声状态” $\mathbf{x}_{t}$ 后，模型 $p_{\theta}$ 预测一个前一时刻（更少噪声）的状态 $\mathbf{x}_{t-1}$ 的条件概率分布。

这个分布是什么意思？

在正向过程中，原始数据 $\mathbf{x}_0$ 会逐步添加噪声得到 $\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_T$ 。
而在逆向过程中，我们希望从纯噪声 $\mathbf{x}_T \sim \mathcal{N}(0, I)$ 逐步去噪，一步步得到最终的数据样本 $\mathbf{x}_0$ 。
这个“去噪”的每一步，就是由 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 来实现的。它告诉我们：在时刻 $t$ 已知 $\mathbf{x}_{t}$ ，该如何采样更少噪声的 $\mathbf{x}_{t-1}$ 。

其中：

如果每一步的噪声添加 $\beta_t$ 足够小，那么 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 近似高斯分布。
模型 $p_\theta$ 的目标是学习一个去噪函数，使其逼近真实后验 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 。

为了便于学习和推导，我们借助 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ ，也即条件在原始图像 $\mathbf{x}_0$ 上。

我们有：

$q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0), \tilde{\beta}_t \mathbf{I})$

其中：

$\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0) = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_t \right)$
$\tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t$

推导过程详解

我们希望通过贝叶斯规则，从两个边缘分布 $q(\mathbf{x}_t|\mathbf{x}_{t-1})$ 和 $q(\mathbf{x}_t|\mathbf{x}_0)$ 推出联合分布 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ 的显式高斯形式。

根据贝叶斯定理，我们有：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) = \frac{q(\mathbf{x}_t | \mathbf{x}_{t-1}, \mathbf{x}_0) \cdot q(\mathbf{x}_{t-1} | \mathbf{x}_0)}{q(\mathbf{x}_t | \mathbf{x}_0)}$

由于 $\mathbf{x}_{t-1} \to \mathbf{x}_t \to \mathbf{x}_0$ 构成马尔可夫链，

一句话:只跟上一个状态有关

在条件概率意义下，当前状态 $\mathbf{x}_t$ 所携带的关于原始数据 $\mathbf{x}_0$ 的信息已经“包含在它自己身上了”，因此 下一步 $\mathbf{x}_{t-1}$ 的分布仅依赖于 $\mathbf{x}_t$ ，而不再依赖更早的 $\mathbf{x}_{t+1}, \mathbf{x}_{t+2}, \dots$ 等。

因此有：
$q(\mathbf{x}_t | \mathbf{x}_{t-1}, \mathbf{x}_0) = q(\mathbf{x}_t | \mathbf{x}_{t-1})$

从而有：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) \propto q(\mathbf{x}_t | \mathbf{x}_{t-1}) \cdot q(\mathbf{x}_{t-1} | \mathbf{x}_0)$

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0)$ ：表示在给定 $\mathbf{x}_t$ 和原始样本 $\mathbf{x}_0$ 的条件下，变量 $\mathbf{x}_{t-1}$ 的后验分布，是我们希望建模的目标。
$q(\mathbf{x}_t | \mathbf{x}_{t-1})$ ：表示扩散的前向过程，在已知 $\mathbf{x}_{t-1}$ 的前提下，如何产生出 $\mathbf{x}_t$ 。这个分布是已知的（高斯分布）。
$q(\mathbf{x}_{t-1} | \mathbf{x}_0)$ ：表示从原始样本 $\mathbf{x}_0$ 直接扩散到 $\mathbf{x}_{t-1}$ 的分布，也是高斯的，可以通过递推得到。
$\propto$ ：表示成比例关系，即我们省略了分母中的归一化项 $q(\mathbf{x}_t|\mathbf{x}_0)$ ，这在后续使用时可以恢复为一个高斯分布。

我们假设这两个项都是高斯分布，分别写成：

$q(\mathbf{x}_t|\mathbf{x}_{t-1}) = \mathcal{N}(\sqrt{\alpha_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})$
$q(\mathbf{x}_{t-1}|\mathbf{x}_0) = \mathcal{N}(\sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0, (1 - \bar{\alpha}_{t-1}) \mathbf{I})$

为了推导出联合概率的形式，我们用高斯概率密度函数的一般形式：

$\mathcal{N}(\mathbf{x}; \mu, \sigma^2) \propto \exp\left( -\frac{1}{2\sigma^2} (\mathbf{x} - \mu)^2 \right)$

代入两个高斯项：

第一步：

展开联合分布密度：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) \propto \exp\left( -\frac{1}{2 \beta_t} (\mathbf{x}_t - \sqrt{\alpha_t} \mathbf{x}_{t-1})^2 \right) \cdot \exp\left( -\frac{1}{2 (1 - \bar{\alpha}_{t-1})} (\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0)^2 \right)$

第二步：

把两个平方项都展开，得到：

$(\mathbf{x}_t - \sqrt{\alpha_t} \mathbf{x}_{t-1})^2 = \mathbf{x}_t^2 - 2 \sqrt{\alpha_t} \mathbf{x}_t \mathbf{x}_{t-1} + \alpha_t \mathbf{x}_{t-1}^2$
$(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0)^2 = \mathbf{x}_{t-1}^2 - 2 \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_{t-1} \mathbf{x}_0 + \bar{\alpha}_{t-1} \mathbf{x}_0^2$

将这两个带入指数中，并合并同类项（即 $\mathbf{x}_{t-1}^2$ , $\mathbf{x}_{t-1}$ , 常数项等），可以合并成一个新的高斯形式：

$\exp\left( -\frac{1}{2 \tilde{\beta}_t} \left(\mathbf{x}_{t-1} - \tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0)\right)^2 \right)$

从而得到：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0), \tilde{\beta}_t \mathbf{I})$

其中均值为：

$\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0) = \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1 - \bar{\alpha}_t} \mathbf{x}_0$

方差为：

$\tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \cdot \beta_t$

这些表达式正是我们用于定义逆过程采样时的关键参数，它们说明给定 $\mathbf{x}_t$ 和 $\mathbf{x}_0$ 后， $\mathbf{x}_{t-1}$ 的条件分布是高斯的，均值和方差具有闭式形式。

我们有：

$\mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon}$

变换得到：

$\mathbf{x}_0 = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon} \right)$

将其代入 $\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0)$ ：

$\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0) = \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1 - \bar{\alpha}_t} \mathbf{x}_0 = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_t \right)$
最后，我们得到条件高斯分布形式如下：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0), \tilde{\beta}_t \mathbf{I})$
这就是我们在逆过程（Reverse Process）中所使用的构造形式。

Learning Objective

我们可以像训练变分自编码器一样，通过最大化变分下界（Variational Lower Bound, ELBO）来优化扩散模型中的负对数似然目标：

$-\mathbb{E}_{q(\mathbf{x}_0)}[\log p_\theta(\mathbf{x}_0)] \leq \mathbb{E}_{q(\mathbf{x}_{0:T})}\left[\log \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T}|\mathbf{x}_0)}\right] =: L$

根据 Sohl-Dickstein et al. (2015) 和 Ho et al. (2020)，该目标可分解为：

$\mathbb{E}_q \left[ \underbrace{D_{\mathrm{KL}}(q(\mathbf{x}_T|\mathbf{x}_0) \| p(\mathbf{x}_T))}_{L_T} + \sum_{t>1} \underbrace{D_{\mathrm{KL}}(q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) \| p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t))}_{L_{t-1}} - \underbrace{\log p_\theta(\mathbf{x}_0|\mathbf{x}_1)}_{L_0} \right]$

由于 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ 和 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 都是高斯分布，因此 KL 散度有解析表达式。

对于 $L_{t-1}$ ：

$L_{t-1} = D_{\mathrm{KL}}(q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) \| p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t))$

代入两个分布的参数后有：

$\mathbb{E}_{\mathbf{x}_0 \sim q(\mathbf{x}_0), \boldsymbol{\epsilon} \sim \mathcal{N}(0, \mathbf{I})} \left[ \frac{1}{2 \|\Sigma_\theta(\mathbf{x}_t, t)\|^2} \left\| \widetilde{\boldsymbol{\mu}}_t(\mathbf{x}_t, \mathbf{x}_0) - \boldsymbol{\mu}_\theta(\mathbf{x}_t, t) \right\|^2 \right] + C$

其中，

$\widetilde{\boldsymbol{\mu}}_t$ 为 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ 的均值
$\boldsymbol{\mu}_\theta$ 为网络预测的 $p_\theta$ 的均值

学习目标简化

我们回顾图中给出的：

$\widetilde{\boldsymbol{\mu}}_t(\mathbf{x}_t, \mathbf{x}_0) = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon} \right)$

$\boldsymbol{\mu}_\theta(\mathbf{x}_t, \mathbf{x}_0) = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \right)$

于是 $L_{t-1}$ 变成：

$L_{t-1} = D_{\mathrm{KL}}(q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) \| p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t))$

代入上式：

$\mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}} \left[ \frac{1}{2 \|\Sigma_\theta(\mathbf{x}_t, t)\|^2} \left\| \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon} \right)- \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \right) \right\|^2 \right] + C$

化简得到：

$\mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}} \left[ \frac{(1 - \alpha_t)^2}{2\alpha_t(1 - \bar{\alpha}_t)\|\Sigma_\theta(\mathbf{x}_t, t)\|^2} \left\| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \right\|^2 \right] + C$

进一步设定 $\Sigma_\theta(\mathbf{x}_t, t) = \sigma_t^2 \mathbf{I}$ ，其中 $\sigma_t^2 = \beta_t$ ，并且忽略掉前面的部分，得到简化的损失：

$L_t^{\text{simple}} = \mathbb{E}_{t \sim [1, T], \mathbf{x}_0, \boldsymbol{\epsilon}} \left[ \left\| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta\left(\sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon}, t\right) \right\|^2 \right] +C$

算法

Algorithm 1 Training

repeat
$\mathbf{x}_0 \sim q(\mathbf{x}_0)$
$\sim \text{Uniform}(\{1, \dots, T\})$
$\boldsymbol{\epsilon} \sim \mathcal{N}(0, \mathbf{I})$
Take gradient descent step on
$\nabla_\theta \left\| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon}, t) \right\|^2$
until converged

Algorithm 2 Sampling

1. $\mathbf{x}_T \sim \mathcal{N}(0, \mathbf{I})$
2. for $\dots, 1$ do
3. $\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})$ if $t > 1$ , else $\mathbf{z} = 0$
4. $\mathbf{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \right) + \sigma_t \mathbf{z}$
5. end for
6. return $\mathbf{x}_0$

网络结构（Network Architectures）

扩散模型（Diffusion Models）通常采用 U-Net 架构来构建噪声预测网络 $\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$ ，该架构中包含 ResNet 残差块和自注意力（self-attention）层。

时间信息的表示通常采用正弦位置编码（sinusoidal positional embeddings）或随机傅里叶特征（random Fourier features），这些时间表示会被输入到残差块中，方式可以是简单的空间加法（spatial addition），也可以是通过自适应分组归一化（adaptive group normalization）完成。

U-Net 结构如下图所示：

蓝色箭头：卷积（conv 3×3, ReLU）
灰色箭头：复制与拼接（copy and crop）
红色箭头：最大池化（max pool 2×2）
浅绿色箭头：上采样卷积（up-conv 2×2）
深绿色箭头：1×1 卷积（conv 1×1）

参考文献：
Ronneberger et al., “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI 2015

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

生成模型比较（Comparing Generative Models）

这张图总结了三类主流的生成模型：GAN、VAE 和 Diffusion Models 的训练流程及核心机制。

在这里插入图片描述

GAN（生成对抗网络）

目标：通过对抗训练生成与真实数据相似的样本。
结构：
- 生成器 $G (z)$ ：输入随机噪声 $z$ ，输出生成样本 $\mathbf{x}'$ 。
- 判别器 $D(\mathbf{x})$ ：判断输入样本是否真实（0/1标签）。
- 损失设计：生成器和判别器相互博弈，通过最小最大优化来提升生成质量。
关键点：训练不稳定、易模式崩溃，但图像质量高。

VAE（变分自编码器）

目标：最大化变分下界（Evidence Lower Bound, ELBO）。
结构：
- 编码器 $q_\phi(\mathbf{z}|\mathbf{x})$ ：将数据编码为潜变量 $z$ 。
- 解码器 $p_\theta(\mathbf{x}|\mathbf{z})$ ：从潜变量还原出原始数据 $\mathbf{x}'$ 。
关键点：优化目标可导、稳定，但生成图像较模糊。

Diffusion Models（扩散模型）

目标：通过逐步加噪并反向去噪实现数据生成。
结构：
- 前向过程：从 $\mathbf{x}_0$ 开始逐步加入高斯噪声，得到一系列噪声状态 $\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{z}$ 。
- 反向过程：学习一个去噪网络，从 $\mathbf{z}$ 开始逐步还原出数据。
关键点：训练稳定、样本多样性高，但采样速度较慢。

这三种模型分别代表了当前生成模型研究的三个主要方向，各有优劣，实际应用中可根据需求选择。

生成式学习三难困境（The Generative Learning Trilemma）

这张图展示了生成模型面临的“三难困境”，即很难同时在以下三个方面都表现优异：

在这里插入图片描述

高质量样本（High Quality Samples）
快速采样（Fast Sampling）
模式覆盖 / 多样性（Mode Coverage / Diversity）

不同类型的生成模型在这三方面的表现各有偏重：

GANs（生成对抗网络）
- 优势：生成样本质量高，采样速度快（一次前向传播即可生成图像）。
- 劣势：模式崩溃（mode collapse），样本多样性不足。
Diffusion Models（扩散模型）
- 优势：高质量 和 多样性好（采样分布更接近真实分布）。
- 劣势：采样慢，因为需要多步反向去噪。
VAEs（变分自编码器）
- 优势：模式覆盖广，具有理论上的最大似然支持。
- 劣势：生成样本质量相对较低。