语音识别中的重排序挑战

当用户与语音助手交互时,自动语音识别(ASR)模型将语音转为文本。由于核心ASR模型训练数据有限,对罕见词句处理能力较弱,因此需通过语言模型对识别假设进行二次排序。传统方法使用长短期记忆(LSTM)语言模型,而本文提出基于BERT的RescoreBERT模型,显著提升准确性。

RescoreBERT架构

模型通过以下方式工作:

  1. 输入处理:每个ASR假设以分类标记(CLS)分隔,经BERT编码后,CLS标记的编码代表整句语义。
    1. 分数计算:前馈神经网络基于CLS编码生成二次排序分数,与初次分数线性插值后重排假设。

关键技术优化

  • 知识蒸馏(MLM蒸馏):通过小型BERT模型模仿大型"教师模型"的伪对数似然(PLL)分数,降低计算延迟。
    • 判别式训练:引入新损失函数MWED(匹配词错误分布),优化假设分数与错误分布的匹配,英语任务中性能提升7%-13%。

实际应用效果

与Alexa团队合作部署后,RescoreBERT在保持商用效率的同时,错误率较LSTM模型降低13%。该技术尤其擅长处理罕见词(如"fission"),通过结合初次分数与判别式训练,显著提升排序准确性。

研究贡献

  • MWER替代方案:证明MWED损失函数在英语任务中的有效性。
    • 效率平衡:蒸馏技术使BERT模型计算成本降低至可商用水平。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)