Alexa英语学习体验中的发音检测技术

数据增强、新型损失函数和弱监督训练共同实现了先进的发音错误识别模型。

2023年1月,某中心在西班牙推出了一项语言学习功能,帮助西班牙语使用者学习初级英语。该功能与西班牙领先的英语教育机构合作开发,重点提供发音评估功能,现已扩展至墨西哥和美国西班牙语人群。学习内容涵盖词汇、语法、表达和发音的结构化课程。

核心技术亮点

  1. 音素级RNN-T模型
    • 通过预测学习者发音中的最小语音单位(音素),实现单词/音节/音素粒度的错误检测
    • 采用Levenshtein对齐算法对比学习者发音与标准音素序列(如将"rabbit"误读为"rabid"时识别"IH D"错误音素)
  2. 跨语言音素消歧
    • 构建多语言发音词典和混合语音数据集
    • 利用RNN-T模型的自回归特性捕捉常见错误模式
  3. L2数据增强
    • 通过音素转述模型生成非母语发音数据
    • 采用多样化束搜索和偏好损失函数提升生成数据的真实性
  4. 误判平衡机制
    • 合并英语/西班牙语发音词典以降低误接受率
    • 多参考发音词典(如同时接受"day-tah"和"dah-tah")减少误拒绝
      当前研究正探索多语言统一模型,并扩展至语调/重音等发音特征诊断。该技术已在ICASSP 2023发表论文《Phonetic RNN-transducer for mispronunciation diagnosis》中验证其领先性能。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)