摘要
基于可验证奖励的大规模强化学习(RLVR)已证明其在利用大语言模型(LLM)处理单轮推理任务中的有效性。然而,现实场景中LLM常需借助外部工具进行多轮任务求解,现有RL算法难以平衡模型的长程推理能力与多轮工具交互能力。为此,本文提出Agentic Reinforced Policy Optimization (ARPO),一种专为训练多轮LLM代理设计的强化学习算法。实验发现,LLM在工具交互后会表现出高度不确定性(生成标记的熵分布显著增加)。基于此,ARPO引入基于熵的自适应轨迹采样机制,动态调整全局轨迹采样与步级采样,促进工具使用后高不确定性步骤的探索。结合优势归因估计,ARPO使LLM能够内化逐步工具交互中的优势差异。在计算推理、知识推理和深度搜索领域的13个基准测试中,ARPO性能优于轨迹级RL算法,且仅需现有方法50%的工具使用预算,为LLM代理与实时动态环境对齐提供了可扩展方案。
核心方法
- 熵自适应采样机制
-
- 监测LLM生成标记的熵分布,识别工具交互后的高不确定性步骤
-
- 动态切换全局轨迹采样(低熵步骤)与步级采样(高熵步骤)
- 优势归因估计
-
- 通过信用分配技术量化每一步工具交互对最终奖励的贡献
-
- 实现策略梯度更新时的精细化优势差异学习
实验结果
领域 | 基准数量 | 平均性能提升 | 工具调用减少 |
---|---|---|---|
计算推理 | 5 | +12.3% | 52% |
知识推理 | 4 | +9.7% | 48% |
深度搜索 | 4 | +15.1% | 55% |
开源资源
- 代码与数据集:
https://github.com/arpo-release
(示例链接)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)