跨语言语音合成技术突破
2019年推出的双语模式需依赖不同说话人的录音数据,导致英语和西班牙语响应听起来像两个不同的人。最新研发的神经文本转语音(NTTS)技术通过以下创新解决了该问题:
核心架构
- 多输入系统:在标准TTS模型基础上增加:
-
- 语言ID编码
-
- 说话人嵌入向量(预训练于大规模说话人分类任务)
-
- 共享编码空间:编码器将不同语言的相似音素映射到相同表征区域
-
- 双重确认机制:解码器输入端再次验证语言ID,确保跨语言特征提取
技术对比
方法 | 口音质量 | 说话人一致性 | 可扩展性 |
---|---|---|---|
传统音素映射 | 差 | 优 | 中 |
双语录音 | 优 | 差 | 差 |
新型多语言模型 | 优 | 优 | 优 |
评估结果(MUSHRA标准)
- 自然度:双语模型英语输出略逊于单语模型(差异<5%)
-
- 说话人相似度:西班牙语合成音比原生双语模式提升40%
-
- 口音质量:与西班牙语录音无统计学差异
技术展望
该架构可扩展至更多语言组合,无需额外语音采集。实验表明,编码器学习到的跨语言表征能有效支持:
- 说话人特征迁移
-
- 韵律风格转换
-
- 新闻播报等专业语音合成
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)