基于运动向量的视频表征学习新方法

研究背景

现代基础模型(如大语言模型)通过随机掩码重建任务,已能在无监督情况下从海量数据中学习有效表征。但将这种方法迁移到视频数据时面临挑战:随机掩码可能导致模型利用相邻帧信息"走捷径",而固定区域掩码则可能使模型仅学习背景重建。

核心技术

在国际计算机视觉大会(ICCV 2023)上提出的运动引导掩码(MGM)算法具有以下创新:

  1. 运动向量利用:直接使用现代视频编解码器中的运动向量(而非计算昂贵的光流)来追踪语义区域
    1. 掩码生成机制
    • 自动识别每帧中运动最显著的区域
    • 生成时空连续的3D掩码体积
    • 确保被掩区域始终保持语义一致性
  2. 技术优势
    • 计算效率比传统目标检测方法提升64倍
    • 仅需1/3训练数据即可达到SOTA性能
    • 在下游任务中相对性能提升最高达5%

实现原理

现代视频编码包含三种要素:

  • I帧:完整图像帧
    • 运动向量:描述8×8或16×16像素块的运动偏移
    • 残差:记录运动向量无法描述的细节变化 通过分析发现,互联网视频数据集中的前景区域平均运动强度显著高于背景。MGM算法据此特性:
  1. 解析视频压缩流中的运动向量
    1. 识别每帧中运动最显著的矩形区域
    1. 生成时空连续的3D掩码体积

实验验证

在对比实验中:

  • 相比6种随机掩码方法,MGM在所有指标上均表现更优
    • 消融研究证实运动引导能有效提升表征质量
    • 在视频动作识别等任务中实现显著性能提升

应用价值

该方法为视频理解领域提供了:

  1. 更高效的预训练范式
    1. 更鲁棒的视频表征
    1. 可扩展至大规模视频数据的解决方案 完整技术细节请参阅ICCV 2023论文《Motion-guided masking for spatiotemporal representation learning》。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)