摘要
自回归(AR)模型长期以来主导着大语言模型领域,推动着各类任务的进展。近期,基于扩散的语言模型成为有潜力的替代方案,但其相对于AR模型的优势尚未充分探索。本文系统研究了数据受限场景下的掩码扩散模型(训练过程需对有限数据重复遍历),发现当计算资源充足但数据稀缺时,其性能显著优于AR模型。扩散模型能更高效利用重复数据,实现更低的验证损失和更优的下游性能。这种优势被解释为隐式数据增强:掩码扩散使模型接触多样化的词序分布和预测任务,不同于AR固定的从左到右因子分解。研究发现了扩散模型的新缩放规律,并推导出扩散模型开始超越AR模型的临界计算阈值闭式表达式。结果表明,当数据(而非计算)成为瓶颈时,扩散模型为标准AR范式提供了有力替代方案。
核心发现
- 性能对比:在数据受限场景下,扩散模型验证损失比AR模型降低达15%,下游任务准确率提升3-5%
-
- 机制分析:掩码扩散通过以下方式实现隐式数据增强:
-
- 动态生成多样化的词序排列组合
-
- 创建可变长度的预测任务序列
-
- 计算阈值:推导出临界计算量公式 $C_{crit} = kD^{0.7}$,其中$D$为数据集大小,$k$为模型相关常数
方法论
- 模型架构:采用Transformer-based的掩码扩散框架,支持可变长度序列生成
-
- 训练策略:
-
- 动态掩码比例(15%-50%)
-
- 混合预测目标(掩码位置与完整序列联合优化)
-
- 评估指标:
-
- 困惑度(Perplexity)
-
- 任务迁移准确率
-
- 训练效率(每epoch收敛速度)
应用价值
该成果为以下场景提供技术参考:
- 低资源语言建模
-
- 医疗等数据敏感领域
-
- 需要高效数据利用的边缘计算设备
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)