技术背景

当用户与语音助手交互时,自动语音识别(ASR)模型先将语音转为文本,再由自然语言理解(NLU)模型解析文本结构。传统ASR系统采用流水线架构,而端到端模型虽更紧凑,但受限于训练数据规模,对罕见词识别效果欠佳。

核心创新

  1. 多任务训练框架
    • 在标准语言模型目标(词序列概率预测)基础上,新增NLU的意图分类和槽位填充任务
    • 共享词嵌入层,使模型学习同时优化三个目标的向量表示
    • 推理阶段仅保留语言模型评分功能(如图1所示架构)
  2. 训练策略优化
    • 采用两阶段训练:先在大规模无标注数据上预训练语言模型,再用带NLU标注的小数据集微调
    • 对比线性权重调整与随机权重多数算法,后者通过动态概率分布调整任务权重表现更优

实验结果

  • 相对基线模型,罕见词错误率降低3%(相对无重评分系统降低5%)
    • 最佳效果来自预训练+多任务微调的组合策略

未来方向

  • 将NLU分类结果显式输入解码器
    • 基于意图分类动态偏置重评分
    • 探索半监督学习扩展自动标注数据规模

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)