基于运动向量的视频表征学习新方法
研究背景
现代基础模型(如大语言模型)通过随机掩码重建任务,已能在无监督情况下从海量数据中学习有效表征。但将这种方法迁移到视频数据时面临挑战:随机掩码可能导致模型利用相邻帧信息"走捷径",而固定区域掩码则可能使模型仅学习背景重建。
核心技术
在国际计算机视觉大会(ICCV 2023)上提出的运动引导掩码(MGM)算法具有以下创新:
- 运动向量利用:直接使用现代视频编解码器中的运动向量(而非计算昂贵的光流)来追踪语义区域
-
- 掩码生成机制:
-
- 自动识别每帧中运动最显著的区域
-
- 生成时空连续的3D掩码体积
-
- 确保被掩区域始终保持语义一致性
- 技术优势:
-
- 计算效率比传统目标检测方法提升64倍
-
- 仅需1/3训练数据即可达到SOTA性能
-
- 在下游任务中相对性能提升最高达5%
实现原理
现代视频编码包含三种要素:
- I帧:完整图像帧
-
- 运动向量:描述8×8或16×16像素块的运动偏移
-
- 残差:记录运动向量无法描述的细节变化 通过分析发现,互联网视频数据集中的前景区域平均运动强度显著高于背景。MGM算法据此特性:
- 解析视频压缩流中的运动向量
-
- 识别每帧中运动最显著的矩形区域
-
- 生成时空连续的3D掩码体积
实验验证
在对比实验中:
- 相比6种随机掩码方法,MGM在所有指标上均表现更优
-
- 消融研究证实运动引导能有效提升表征质量
-
- 在视频动作识别等任务中实现显著性能提升
应用价值
该方法为视频理解领域提供了:
- 更高效的预训练范式
-
- 更鲁棒的视频表征
-
- 可扩展至大规模视频数据的解决方案 完整技术细节请参阅ICCV 2023论文《Motion-guided masking for spatiotemporal representation learning》。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)