从统计学习(也就是数学)的角度来分析深度学习模型的本质。
频率派与贝叶斯派对模型本质理解的差异:前者认为学习参数估计,后者认为学习后验分布。不过这个问题下概率分布的视角更本质。
三个核心部分:任务类型分类(推断与生成)、模型本质的概率解释、不同学习范式的数学统一性。
总结模型本质时,可以考虑引入变分推断的观点——所有学习都是在近似数据的真实概率分布。不同范式区别在于:监督学习近似条件分布,无监督学习近似联合分布,而自监督通过代理任务逼近联合分布的结构特性。
一、 AI模型能够执行的主要任务类型
- 推断 (Inference - 更常指预测/Prediction):
- 定义: 给定输入数据
X,模型预测或估计与之相关的输出值Y或Y的某些属性(如概率、置信度)。 - 核心: 学习
P(Y | X)或其点估计(如均值、众数)。目标是找到一个函数f: X -> Y,使得预测Ŷ = f(X)尽可能接近真实的Y。 - 子类型:
- 分类 (Classification):
Y是离散类别标签 (e.g., 猫/狗, 垃圾邮件/正常邮件)。 - 回归 (Regression):
Y是连续数值 (e.g., 房价预测, 温度预测)。 - 结构化预测 (Structured Prediction):
Y具有复杂的结构 (e.g., 序列标注、句法树预测、图像分割图)。 - 概率推断 (Probabilistic Inference): 输出
Y的概率分布P(Y | X)(e.g., 贝叶斯神经网络输出均值方差, 分类模型输出各类别概率)。
- 分类 (Classification):
- 定义: 给定输入数据
- 生成 (Generation):
- 定义: 模型学习数据
X本身(或隐含变量Z)的分布P(X)或P(X, Z),并能够从中采样,创造出与训练数据相似的新样本X_new。 - 核心: 学习联合分布
P(X)或P(X, Z),以及采样机制。 - 子类型:
- 无条件生成: 直接生成新样本
X_new ~ P(X)(e.g., GAN生成新人脸, VAE生成新数字图片)。 - 条件生成: 给定特定条件
C(可以是类别标签、文本描述、另一模态数据),生成符合该条件的样本X_new ~ P(X | C)(e.g., 文本生成图像, 图像修复, 机器翻译, 语音合成)。
- 无条件生成: 直接生成新样本
- 定义: 模型学习数据
重要关联与区别:
- 生成模型通常也能做推断: 一旦学习到了
P(X)或P(X, Z),理论上可以通过贝叶斯定理计算P(Z | X)或P(Y | X)(如果Y是X的一部分或与Z相关)。例如,VAE可以用于异常检测(低似然度样本),语言模型可以用于文本分类(计算文本属于某类的概率)。 - 推断模型不总能做生成: 纯粹的判别模型(如逻辑回归、SVM、标准CNN分类器)只建模
P(Y | X),没有学习P(X),因此无法生成新的X。 - 推断是生成的核心组成部分: 许多强大的生成模型(如扩散模型、自回归模型)在生成过程中反复进行条件预测/推断。
二、 模型的本质:概率分布的学习
从统计学习的角度看,机器学习模型的核心本质确实是学习一个概率分布。
- 核心目标: 模型的目标是近似数据的真实但未知的生成分布
P_data。 - 学习过程: 通过优化算法(如梯度下降)和损失函数(如负对数似然、交叉熵),利用训练数据
D = {x_i, y_i}或D = {x_i}来调整模型参数θ,使得模型定义的分布P_model(X, Y; θ)或P_model(X; θ)尽可能接近P_data(X, Y)或P_data(X)。 - 参数化: 模型
M提供了一个参数化的函数族{P_model(·; θ) | θ ∈ Θ}。学习就是在这个函数族中找到最优参数θ*,使得P_model(·; θ*)是P_data(·)的最佳近似。
从学习范式看概率分布的本质
- 监督学习 (Supervised Learning):
- 目标: 学习从输入
X到输出Y的映射关系。 - 概率本质: 学习条件概率分布
P(Y | X)。 - 数据: 训练数据是标注好的样本对
(X, Y)。数据隐含地假设是从联合分布P_data(X, Y)中独立同分布采样得到的。 - 模型作用: 模型
M参数化一个条件分布P_model(Y | X; θ)。 - 损失函数: 通常基于条件对数似然的负值或与之相关的度量(如交叉熵用于分类,均方误差可看作高斯分布下极大似然的特例)。最小化损失等价于最大化训练数据在模型分布下的条件似然
Π_i P_model(y_i | x_i; θ)。 - 例子: 分类器(学习
P(类别 | 图像)),回归模型(学习P(连续值 | 特征),常假设为高斯分布),序列到序列模型(学习P(目标序列 | 源序列))。
- 目标: 学习从输入
- 无监督学习 (Unsupervised Learning):
- 目标: 发现数据
X本身的内在结构、模式或表示,没有显式的输出标签Y。 - 概率本质: 学习数据
X的联合概率分布P(X)或其隐含表示P(X, Z)(Z是隐变量)。 - 数据: 只有未标注的数据
{x_i}。假设数据是从P_data(X)中独立同分布采样得到的。 - 模型作用: 模型
M参数化一个联合分布P_model(X; θ)或P_model(X, Z; θ)。 - 损失函数: 通常基于数据对数似然的负值或相关目标(如重构误差 + 正则项)。最小化损失等价于最大化训练数据在模型分布下的似然
Π_i P_model(x_i; θ)。 - 例子:
- 密度估计: 直接建模
P(X)(e.g., 自回归模型如PixelCNN, 流模型如RealNVP/Glow)。 - 聚类: 可看作学习
P(X, Z),其中Z是聚类标签(离散隐变量),目标是最大化P(X) = Σ_z P(X, Z)。 - 降维 (PCA, t-SNE): 可看作学习数据的低维流形结构(隐空间
Z),其概率解释通常与高斯分布或t分布相关(t-SNE)。概率PCA (PPCA) 显式建模P(X | Z)和P(Z)。 - 生成模型 (VAE, GAN, 扩散模型): 核心目标是学习
P(X)以便生成新样本。VAE显式建模P(X, Z)并学习变分下界;GAN通过对抗训练隐式学习一个能从P_data(X)采样的生成器;扩散模型学习一个逐步去噪的过程,其目标可形式化为变分推断或得分匹配。
- 密度估计: 直接建模
- 目标: 发现数据
- 自监督学习 (Self-Supervised Learning):
- 目标: 利用数据本身固有的结构或信息自动构造“伪标签”或“代理任务”,从而学习数据的有用表示,通常为下游任务(监督或无监督)做准备。
- 概率本质: 巧妙地构造条件分布
P(Y_pseudo | X)来学习联合分布P(X)或其内部表示。 本质上是一种利用数据自动生成监督信号来近似无监督学习目标P(X)的策略。 - 数据: 只有未标注的数据
{x_i}。 - 核心思想: 人为定义一个任务,将输入数据
X的一部分X_part作为“输入”,同一数据的另一部分X_rest或某种变换作为“伪标签”Y_pseudo。模型学习预测Y_pseudo给定X_part。通过完成这个代理任务,模型被迫学习数据的内在结构和有用特征。 - 模型作用: 模型学习一个条件分布
P_model(Y_pseudo | X_part; θ)。代理任务的损失函数(如交叉熵、对比损失)驱动参数学习。 - 与无监督的关系: 自监督学习是无监督学习的一个子集或一种实现策略。其最终目标通常也是学习
P(X)或其良好表示(编码器输出)。它通过定义代理的监督任务(学习P(Y_pseudo | X_part))来间接达到这个目标。 - 例子:
- 掩码语言建模 (MLM - BERT):
X_part= 带掩码的句子,Y_pseudo= 被掩码的词。学习P(掩码词 | 上下文)。目标是学习语言表示。 - 自回归语言建模 (GPT):
X_part= 前序词序列,Y_pseudo= 下一个词。学习P(下一个词 | 前文)。目标是显式建模P(整个句子)。 - 对比学习 (SimCLR, MoCo): 构造正负样本对。模型学习将同一数据的不同增强视图(
X_part和X_part')的表示拉近(视为正对Y_pseudo=相似),与其他数据的视图推远(负对Y_pseudo=不相似)。学习P(相似 | 样本对)或更一般地,学习一个表示空间使得相似样本靠近。 - 图像旋转预测:
X_part= 旋转后的图像,Y_pseudo= 旋转角度。学习P(旋转角度 | 图像)。 - 图像补块排序/拼图:
X_part= 打乱的图像块,Y_pseudo= 正确的顺序/位置。学习P(正确顺序 | 乱序块)。
- 掩码语言建模 (MLM - BERT):
三、 小结:AI/Model的统计学习本质
- 核心目标: 机器学习模型的核心本质是学习一个能够最佳近似观测数据真实生成过程
P_data的参数化概率分布P_model(·; θ)。 - 任务视角:
- 推断/预测任务: 主要关注学习和利用条件概率分布
P(Y | X)。 - 生成任务: 主要关注学习和利用联合概率分布
P(X)或P(X, Z)以及从中采样。
- 推断/预测任务: 主要关注学习和利用条件概率分布
- 学习范式视角:
- 监督学习: 显式地、直接地学习条件概率分布
P(Y | X)。数据提供(X, Y)对。 - 无监督学习: 显式地或隐式地学习联合概率分布
P(X)或P(X, Z)。数据只提供X。 - 自监督学习: 是无监督学习的一种高效策略。它通过**构造代理条件分布 **
P(Y_pseudo | X_part)并利用数据自身信息作为“伪标签”来学习,其最终目标是学习P(X)或其高质量的内部表示(编码),为下游的监督或无监督任务服务。它巧妙地利用了监督学习的技术框架来解决无监督学习的核心问题。
- 监督学习: 显式地、直接地学习条件概率分布
简而言之,模型就是在参数化函数族中寻找一个参数 θ*,使得 P_model(·; θ*) 成为 P_data(·) 的最佳代理。不同的学习范式和任务类型,决定了我们关注的是 P_data 的哪个具体部分(条件分布 P(Y|X) 还是联合分布 P(X)),以及我们如何利用数据(有无标签 Y, 是否构造伪标签 Y_pseudo)来驱动这个逼近过程。
四,自监督学习的补充




