技术背景
当用户与语音助手交互时,自动语音识别(ASR)模型先将语音转为文本,再由自然语言理解(NLU)模型解析文本结构。传统ASR系统采用流水线架构,而端到端模型虽更紧凑,但受限于训练数据规模,对罕见词识别效果欠佳。
核心创新
- 多任务训练框架
-
- 在标准语言模型目标(词序列概率预测)基础上,新增NLU的意图分类和槽位填充任务
-
- 共享词嵌入层,使模型学习同时优化三个目标的向量表示
-
- 推理阶段仅保留语言模型评分功能(如图1所示架构)
- 训练策略优化
-
- 采用两阶段训练:先在大规模无标注数据上预训练语言模型,再用带NLU标注的小数据集微调
-
- 对比线性权重调整与随机权重多数算法,后者通过动态概率分布调整任务权重表现更优
实验结果
- 相对基线模型,罕见词错误率降低3%(相对无重评分系统降低5%)
-
- 最佳效果来自预训练+多任务微调的组合策略
未来方向
- 将NLU分类结果显式输入解码器
-
- 基于意图分类动态偏置重评分
-
- 探索半监督学习扩展自动标注数据规模
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)