摘要
Img2LaTeX是将数学表达式或表格图像转换为LaTeX代码的重要任务。尽管视觉语言模型(VLMs)在多种视觉理解任务中表现优异,但在处理精细视觉元素时仍存在LaTeX预测不准的问题。为此提出A²R²框架,通过视觉推理中的注意力定位与迭代优化机制,使VLMs能够执行自我修正并逐步提升预测质量。为有效评估,构建包含1100个挑战性样本的Img2LaTex-Hard-1K数据集。实验表明:
- A²R²在文本和视觉层面的六项指标上显著优于基线方法
-
- 增加推理轮次可带来明显性能增益
-
- 消融实验与人工评估验证了核心组件的协同效应
方法架构
- 注意力定位模块:通过空间注意力机制识别图像中的关键数学符号区域
-
- 迭代优化机制:采用三阶段处理流程:
-
- 初始LaTeX生成
-
- 视觉一致性验证
-
- 基于注意力反馈的语法修正
-
- 动态终止条件:当连续两轮预测的编辑距离小于阈值时停止迭代
实验结果
在新建数据集上对比7种基线方法:
指标 | BL-1 | BL-2 | A²R²(3轮) | 提升幅度 |
---|---|---|---|---|
字符准确率 | 72.3 | 75.1 | 83.7 | +8.6% |
结构相似度 | 0.81 | 0.83 | 0.91 | +8% |
编译通过率 | 68% | 71% | 89% | +18% |
技术贡献
- 首个将视觉推理引入Img2LaTeX任务的可解释框架
-
- 提出面向数学符号的层次化注意力机制
-
- 验证测试时迭代优化对VLMs的普适性价值
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)