利用计算机视觉清除产品目录错误

在某中心商城的商品页面中,通常会包含产品变体链接(如不同颜色、尺寸等)。但产品目录可能因错误包含无关产品或重复条目,影响用户体验。在冬季计算机视觉应用大会(WACV)上,我们提出了一种自动识别产品变体列表错误的新方法,该方法通过计算机视觉判断不同图像是否展示相同产品。

技术框架

该方法将问题构建为度量学习任务:机器学习模型学习在嵌入空间中测量产品向量表示间距离的函数。相同产品的嵌入应相似,不同产品则差异显著。由于学习到的特征嵌入通常具有良好泛化能力,该模型可应用于训练中未出现的新产品。

图示:左上为正常变体列表;右上为错误列表(产品图像不符);底部为重复变体(同一产品的两个独立页面)

多模态方法

模型采用多模态输入,包括产品图像和标题。唯一的监督信号是涵盖所有变体的总体产品描述符。实验表明,与同类多模态基准模型相比,该方法使精确率-召回率曲线下面积(PR-AUC)提升5.2%。

技术实现

产品标题的作用是引导模型学习更鲁棒且相关的表示。例如:

  • 标题提供的上下文帮助模型聚焦图像相关区域,增强对噪声背景的鲁棒性
    • 解决因图像中出现多个物体导致的歧义问题 产品标题帮助模型识别图像中的关键区域

网络架构

模型包含全局和局部两个分支:

  1. 全局网络:接收完整图像,基于产品标题确定需要关注的区域
    1. 局部网络:接收裁剪后的图像区域 两个分支均以卷积神经网络(CNN)为核心,通过以下机制增强特征提取:
  • 自注意力机制:捕捉空间依赖性
    • 空间注意力层("关注何处"):利用标题聚焦图像相关区域
    • 通道注意力层("关注什么"):强调图像表示的关键特征 空间和通道注意力均基于标题信息的自注意力嵌入(即根据其他词语权重评估每个标题词语的嵌入)。

训练策略

训练同时使用正例和负例:

  • 正例:相同总体产品描述符的实例配对
    • 负例:相同子类别的产品配对(提升模型区分相似产品的能力) 在三个产品类别的数据集测试中,相比纯图像模型,该方法带来最高17%的PR-AUC提升;相比多模态基准方法,提升5.2%。

模型成功预测案例:左列为正确识别相同产品,右列为正确区分不同产品

技术组件

  • 卷积神经网络(CNN):基础视觉特征提取
    • 多模态注意力机制:融合视觉与文本信息
    • 度量学习:构建产品相似性评估空间 该方法已证明能有效提升电商平台产品目录的准确性,为计算机视觉在商品管理领域的应用提供了新思路。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)