会议背景
国际声学、语音与信号处理会议(ICASSP 2024)于4月14-19日在首尔举行。某机构作为铜牌赞助商参与,并组织了"可信语音处理"研讨会,由AGI基础组织的高级应用科学家Anil Ramakrishna和研究经理Rahul Gupta共同主持。
技术亮点
- 语音识别(ASR)创新
-
- 最大间隔转录器损失:通过大间隔学习策略改进序列判别训练,从预训练模型的N-best列表中分离优质/劣质假设
-
- Promptformer架构:基于Conformer转录器的新型ASR框架
-
- 对话引导的自监督学习:利用任务型对话提升ASR性能
- 端到端实体解析
-
- S2E系统:直接从音频信号解析实体指称到文本目录的可操作实体,架构包含声学编码器与实体链接模块
- 语音增强技术
-
- NoLACE算法:通过自适应时域整形改进低复杂度语音编解码增强
-
- 实时立体声增强:基于双路径结构保持空间线索
- 说话人识别
-
- 嵌入对齐技术:解耦注册模型和运行时模型的参数更新
- 唤醒词检测
-
- 神经模型重编程:通过热修复技术适配端到端ASR系统
-
- 最大熵对抗增强:提升关键词识别的鲁棒性
其他研究方向
- 副语言学增强:结合大语言模型建模对话中的非语言信息
-
- 音高估计:低复杂度DSP辅助的神经网络方法
-
- 负责任AI:利用置信度模型识别语音模型中的挑战性数据子群
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)