在计算语言学国际会议(COLING)上,某中心凭借论文《利用对话系统中的用户改写行为自动收集长尾话语标注》荣获行业赛道最佳论文奖。该研究提出通过分析用户重述失败请求的行为,自动生成自然语言理解系统的训练数据。
研究方案包含三个核心模块:
- 改写检测器:采用合成数据集训练,通过随机组合载体短语生成正例,轻微调整意图/槽位生成负例,判断连续请求是否构成改写关系
-
- 摩擦检测器:综合语音识别置信度、NLU输出状态码等特征,判断交互是否成功
-
- 标签投影算法:基于Levenshtein编辑距离的贪心算法,将成功请求的槽位标签映射到失败改写句 实验表明,该方法特别适用于处理低频长尾请求。在德语场景取得最佳效果,随着意大利语和印地语模型的持续优化,预计将获得更大提升。该离线方案与现有在线自学习模型形成互补,共同提升对话系统性能。
图示:系统通过最小化词级差异,将成功请求的标签映射到失败改写句 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)