多模态指代消解技术突破

配备屏幕的语音设备(如某智能终端)日益普及,这类设备需要解决多模态交互中的核心挑战:如何通过自然语言理解准确识别屏幕上被指代的对象。该任务被称为多模态指代消解,用户可能通过视觉属性("红色外套")、绝对位置("右侧第二个")、相对位置("黑色外套旁边")或对话历史("刚才提到的")来描述目标对象。

模型架构创新

基于视觉语言预训练模型VL-BERT,研究团队进行了三项关键改进:

  1. 图结构表征
  2. 通过图神经网络构建场景中物体的空间关系图,节点表示物体,边编码五种空间关系(上/下/左/右/包含)。图卷积网络生成包含邻域信息的节点嵌入。
  3. 多源知识融合
  4. 引入品牌、价格等非视觉元数据,扩展指代消解的语义维度。
  5. 局部环境建模
    • 在目标物体周围生成8个方向采样框,提取局部视觉特征
    • 通过图像描述模型自动生成周边物体(如货架、桌子)的文本描述

技术实现细节

模型输入包含四类数据流:

  • 语言流:对话文本、元数据及特殊标记
    • 视觉流:整体场景特征、候选物体及其周边区域特征
    • 片段流:区分对话轮次与查询内容
    • 位置流:标记位置编码

性能表现

在DSTC10挑战赛中,该模型以F1分数领先。其创新性体现在:

  • 通过图结构建模远距离物体关系
    • 局部采样框解决未识别物体的上下文指代(如"柜台上的物品")
    • 自动生成的周边描述支持环境语境理解(如"长椅上的夹克") 该技术将提升带屏设备的交互效率,使用户能更自然地表达意图。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)