多模态指代消解技术突破
配备屏幕的语音设备(如某智能终端)日益普及,这类设备需要解决多模态交互中的核心挑战:如何通过自然语言理解准确识别屏幕上被指代的对象。该任务被称为多模态指代消解,用户可能通过视觉属性("红色外套")、绝对位置("右侧第二个")、相对位置("黑色外套旁边")或对话历史("刚才提到的")来描述目标对象。
模型架构创新
基于视觉语言预训练模型VL-BERT,研究团队进行了三项关键改进:
- 图结构表征
- 通过图神经网络构建场景中物体的空间关系图,节点表示物体,边编码五种空间关系(上/下/左/右/包含)。图卷积网络生成包含邻域信息的节点嵌入。
- 多源知识融合
- 引入品牌、价格等非视觉元数据,扩展指代消解的语义维度。
- 局部环境建模
-
- 在目标物体周围生成8个方向采样框,提取局部视觉特征
-
- 通过图像描述模型自动生成周边物体(如货架、桌子)的文本描述
技术实现细节
模型输入包含四类数据流:
- 语言流:对话文本、元数据及特殊标记
-
- 视觉流:整体场景特征、候选物体及其周边区域特征
-
- 片段流:区分对话轮次与查询内容
-
- 位置流:标记位置编码
性能表现
在DSTC10挑战赛中,该模型以F1分数领先。其创新性体现在:
- 通过图结构建模远距离物体关系
-
- 局部采样框解决未识别物体的上下文指代(如"柜台上的物品")
-
- 自动生成的周边描述支持环境语境理解(如"长椅上的夹克") 该技术将提升带屏设备的交互效率,使用户能更自然地表达意图。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)