儿童阅读场景的语音需求
某中心推出的阅读辅助功能需要合成比标准语音更缓慢、更具表现力的声音。由于表现性语音的韵律变化更大,传统模型容易出现突然停顿或语调异常等问题。开发团队通过创新数据预处理和模型优化方案,在不增加数据采集或部署负担的前提下实现了高表现力语音合成。
数据预处理关键技术
- 极端韵律过滤:通过计算说话人嵌入向量与平均值的距离,剔除韵律过于极端的训练样本
-
- 无效片段清除:自动去除音频转文字失败的静音片段,避免单词间异常停顿
-
- 混合数据策略:在训练数据中同时包含表现性和中性语音样本,提供多样化的韵律轨迹
模型架构优化方案
- 采用神经文本转语音(NTTS)系统架构,包含梅尔频谱生成器和声码器两个组件
-
- 对梅尔频谱生成器施加L2权重惩罚,通过正则化减少对录音数据的过拟合
-
- 引入风格ID作为额外输入,帮助模型区分故事讲述与其他语音风格
-
- 使用某中心先前开发的通用声码器进行相位信息合成
效果验证
通过成人众包测试评估显示:
- 在100段平均15秒的叙事段落测试中
-
- 新语音以61.16% vs 30.46%的显著优势( P<.001 )优于标准语音
-
- 用户对故事讲述语音的偏好比例达到2:1 该技术方案已成功应用于儿童阅读功能,证明了在保持系统稳定性的同时实现高表现力语音合成的可行性。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)