生成模型与基础模型趋势
在计算机视觉领域,视觉语言模型等生成式AI模型正成为研究热点。某机构在CVPR 2024的入选论文集中,视觉语言模型相关研究占据显著比例,同时涉及视觉问答、幻觉缓解、检索增强生成等衍生方向。传统计算机视觉课题如三维重建、目标跟踪、姿态估计等仍保持重要地位。
三维重建技术突破
- 双布局估计消除360°房间布局歧义
- 通过双布局估计算法解决全景空间建模中的结构模糊问题
-
- ViewFusion多视角一致性增强
- 采用自回归过程改进扩散模型,实现跨视角对齐(对比示意图显示改进后相邻视角的几何一致性显著提升)
关键技术创新
- 幻觉控制
-
- 多模态视觉信息 grounding 技术
-
- THRONE基准测试框架:针对大模型自由生成场景的客观评估体系
-
- 检索增强生成
-
- CPR框架:通过检索机制实现版权保护
-
- 模型鲁棒性
-
- 广义扩散算法(GDA)提升测试时适应能力
视觉语言模型进展
- 双曲空间模态对齐
- 提出基于角度的对比损失函数,允许图像嵌入沿文本嵌入轴向任意分布(示意图展示层级化嵌入结构)
-
- GROUNDHOG模型
- 将大语言模型与整体分割任务结合
-
- UNet架构扩展研究
- 通过调整通道数和Transformer深度优化文生图对齐效果(包含4组对比实验示例)
其他亮点研究
- 6自由度姿态估计
- MRC-Net通过多尺度残差关联提升精度(配图显示彩色3D模型与实景的精准叠加效果)
-
- 视频语言对齐
- VidLA框架实现大规模跨模态对齐
-
- 公平性研究
- FairRAG通过公平检索机制改进人类图像生成
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)