摘要

基于可验证奖励的大规模强化学习(RLVR)已证明其在利用大语言模型(LLM)处理单轮推理任务中的有效性。然而,现实场景中LLM常需借助外部工具进行多轮任务求解,现有RL算法难以平衡模型的长程推理能力与多轮工具交互能力。为此,本文提出Agentic Reinforced Policy Optimization (ARPO),一种专为训练多轮LLM代理设计的强化学习算法。实验发现,LLM在工具交互后会表现出高度不确定性(生成标记的熵分布显著增加)。基于此,ARPO引入基于熵的自适应轨迹采样机制,动态调整全局轨迹采样与步级采样,促进工具使用后高不确定性步骤的探索。结合优势归因估计,ARPO使LLM能够内化逐步工具交互中的优势差异。在计算推理、知识推理和深度搜索领域的13个基准测试中,ARPO性能优于轨迹级RL算法,且仅需现有方法50%的工具使用预算,为LLM代理与实时动态环境对齐提供了可扩展方案。

核心方法

  1. 熵自适应采样机制
    • 监测LLM生成标记的熵分布,识别工具交互后的高不确定性步骤
    • 动态切换全局轨迹采样(低熵步骤)与步级采样(高熵步骤)
  2. 优势归因估计
    • 通过信用分配技术量化每一步工具交互对最终奖励的贡献
    • 实现策略梯度更新时的精细化优势差异学习

实验结果

领域 基准数量 平均性能提升 工具调用减少
计算推理 5 +12.3% 52%
知识推理 4 +9.7% 48%
深度搜索 4 +15.1% 55%

开源资源

  • 代码与数据集:https://github.com/arpo-release(示例链接)

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)