跨语言语音合成技术突破

2019年推出的双语模式需依赖不同说话人的录音数据,导致英语和西班牙语响应听起来像两个不同的人。最新研发的神经文本转语音(NTTS)技术通过以下创新解决了该问题:

核心架构

  1. 多输入系统:在标准TTS模型基础上增加:
    • 语言ID编码
    • 说话人嵌入向量(预训练于大规模说话人分类任务)
    1. 共享编码空间:编码器将不同语言的相似音素映射到相同表征区域
    1. 双重确认机制:解码器输入端再次验证语言ID,确保跨语言特征提取

技术对比

方法 口音质量 说话人一致性 可扩展性
传统音素映射
双语录音
新型多语言模型

评估结果(MUSHRA标准)

  • 自然度:双语模型英语输出略逊于单语模型(差异<5%)
    • 说话人相似度:西班牙语合成音比原生双语模式提升40%
    • 口音质量:与西班牙语录音无统计学差异

技术展望

该架构可扩展至更多语言组合,无需额外语音采集。实验表明,编码器学习到的跨语言表征能有效支持:

  • 说话人特征迁移
    • 韵律风格转换
    • 新闻播报等专业语音合成

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)