摘要

Img2LaTeX是将数学表达式或表格图像转换为LaTeX代码的重要任务。尽管视觉语言模型(VLMs)在多种视觉理解任务中表现优异,但在处理精细视觉元素时仍存在LaTeX预测不准的问题。为此提出A²R²框架,通过视觉推理中的注意力定位与迭代优化机制,使VLMs能够执行自我修正并逐步提升预测质量。为有效评估,构建包含1100个挑战性样本的Img2LaTex-Hard-1K数据集。实验表明:

  1. A²R²在文本和视觉层面的六项指标上显著优于基线方法
    1. 增加推理轮次可带来明显性能增益
    1. 消融实验与人工评估验证了核心组件的协同效应

方法架构

  1. 注意力定位模块:通过空间注意力机制识别图像中的关键数学符号区域
    1. 迭代优化机制:采用三阶段处理流程:
    • 初始LaTeX生成
    • 视觉一致性验证
    • 基于注意力反馈的语法修正
    1. 动态终止条件:当连续两轮预测的编辑距离小于阈值时停止迭代

实验结果

在新建数据集上对比7种基线方法:

指标 BL-1 BL-2 A²R²(3轮) 提升幅度
字符准确率 72.3 75.1 83.7 +8.6%
结构相似度 0.81 0.83 0.91 +8%
编译通过率 68% 71% 89% +18%

技术贡献

  1. 首个将视觉推理引入Img2LaTeX任务的可解释框架
    1. 提出面向数学符号的层次化注意力机制
    1. 验证测试时迭代优化对VLMs的普适性价值

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)