生成模型与基础模型趋势

在计算机视觉领域,视觉语言模型等生成式AI模型正成为研究热点。某机构在CVPR 2024的入选论文集中,视觉语言模型相关研究占据显著比例,同时涉及视觉问答、幻觉缓解、检索增强生成等衍生方向。传统计算机视觉课题如三维重建、目标跟踪、姿态估计等仍保持重要地位。

三维重建技术突破

  • 双布局估计消除360°房间布局歧义
  • 通过双布局估计算法解决全景空间建模中的结构模糊问题
    • ViewFusion多视角一致性增强
  • 采用自回归过程改进扩散模型,实现跨视角对齐(对比示意图显示改进后相邻视角的几何一致性显著提升)

关键技术创新

  1. 幻觉控制
    • 多模态视觉信息 grounding 技术
    • THRONE基准测试框架:针对大模型自由生成场景的客观评估体系
    1. 检索增强生成
    • CPR框架:通过检索机制实现版权保护
    1. 模型鲁棒性
    • 广义扩散算法(GDA)提升测试时适应能力

视觉语言模型进展

  • 双曲空间模态对齐
  • 提出基于角度的对比损失函数,允许图像嵌入沿文本嵌入轴向任意分布(示意图展示层级化嵌入结构)
    • GROUNDHOG模型
  • 将大语言模型与整体分割任务结合
    • UNet架构扩展研究
  • 通过调整通道数和Transformer深度优化文生图对齐效果(包含4组对比实验示例)

其他亮点研究

  • 6自由度姿态估计
  • MRC-Net通过多尺度残差关联提升精度(配图显示彩色3D模型与实景的精准叠加效果)
    • 视频语言对齐
  • VidLA框架实现大规模跨模态对齐
    • 公平性研究
  • FairRAG通过公平检索机制改进人类图像生成

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)