【多智能体】受木偶戏启发实现多智能体协作编排

在这里插入图片描述

😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:Multi-Agent Collaboration via Evolving Orchestration
💻时间:202505
💭推荐指数:🌟🌟🌟🌟

往期精彩专栏内容,欢迎订阅:

🔗【多智能体】20250609:基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体

创新性

  1. 动态编排:提出了一种集中式的“指挥者”(puppeteer)来动态选择和组织代理(puppets),根据任务状态的演变进行推理。这种编排方式超越了静态的协作模式,提供了灵活且可扩展的代理协调。
  2. 自适应进化:通过强化学习(RL)不断更新指挥者的策略,利用已完成任务的反馈来优化代理选择。随着时间的推移,指挥者学会了强调强代理轨迹并剪枝不有效的代理,使系统逐步进化到更高的效率和性能。
  3. 实验验证:在封闭域和开放域场景下的实验表明,该方法在提高解决方案质量的同时减少了计算开销。分析进一步揭示了指挥者演化过程中更紧凑、循环推理结构的涌现是关键改进的根源。
  4. 统一的框架:提出了一个统一的框架,通过集中式策略动态组织多样化的基于LLM的代理,并通过强化学习不断优化其协作过程。
  5. 拓扑结构演化:通过动态编排自然地促进了树状结构的交互,支持分支行为和并行路径,增强了系统的可扩展性。演化过程中出现了紧凑和循环的推理结构,显著提升了系统的内部反馈和信息重用效率。

补充这里可能会存在的疑点
论文中提出的动态指挥者是如何实现多代理协作的?其核心机制是什么?

动态指挥者通过一个集中式的指挥者(“木偶师”)来实现多代理协作。指挥者在每个时间步根据当前任务状态动态地选择激活哪个代理进行推理。这个过程被形式化为一个顺序决策问题,生成了一个隐式的推理图,支持灵活且可扩展的代理协调。具体来说,指挥者的选择过程遵循以下公式: a t ∼ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) atπ(St,τ)=P(aSt,τ)其中, π \pi π是一个将可观测上下文(如当前状态和任务描述)映射到候选代理分布的函数。指挥者根据全局系统状态和任务规范选择代理,代理生成输出并更新系统状态,过程迭代进行,直到满足停止准则。这种机制使得系统能够在任务复杂性和代理数量增加时保持高效的协作和协调开销。

论文中提到的自适应进化是如何通过强化学习优化指挥者策略的?具体优化目标是什么?

自适应进化通过强化学习来优化指挥者的策略,以最大化效率和最小化冗余。具体来说,使用REINFORCE作为底层优化框架,指挥者在每个推理回合后接收联合评估解决方案质量和资源消耗的反馈。优化目标是最大化完整推理轨迹上的期望回报,公式如下: J ( θ ) = E π θ [ R ( τ ) ] , ∇ θ J ( θ ) ≈ 1 N ∑ n = 1 N ( ∑ t = 1 T ∇ θ log ⁡ π θ ( a t ∣ S t ) ) ⋅ R ( τ ) J(\theta)=E_{\pi_{\theta}}[R(\tau)],\quad\nabla_{\theta} J(\theta)\approx\frac{1}{N}\sum_{n=1}^{N}\left(\sum_{t=1}^{T}\nabla_ {\theta}\log\pi_{\theta}\left(a_{t}\mid S_{t}\right)\right)\cdot R(\tau) J(θ)=Eπθ[R(τ)],θJ(θ)N1n=1N(t=1Tθlogπθ(atSt))R(τ)其中, R ( τ ) R(\tau) R(τ) 表示轨迹 τ \tau τ 的总奖励, N N N 是样本大小, T T T是总推理步数。通过这种RL驱动的优化,指挥者学会了强调强代理轨迹并剪枝掉较弱的代理,使系统逐步进化到更高的效率和性能。

研究背景

在这里插入图片描述

  1. 研究问题:这篇文章要解决的问题是大型语言模型(LLMs)在复杂问题求解中的可扩展性和效率问题。LLMs的单体性质限制了其在复杂任务中的表现。
  2. 研究难点:该问题的研究难点包括:如何在任务复杂性和代理数量增加时保持高效的协作和协调开销;如何避免静态组织结构带来的僵化和低效。
  3. 相关工作:该问题的研究相关工作包括基于静态组织结构的多人协作方法,这些方法在任务多样性和代理数量增加时表现出协调开销大、系统性能下降和效率低下的问题。

研究方法

在这里插入图片描述

这篇论文提出了一种基于集中式指挥者的多代理协作范式,用于解决LLMs在复杂问题求解中的可扩展性和效率问题。具体来说,

  1. 动态指挥者:首先,提出了一个集中式的指挥者(“木偶师”),它根据任务的动态状态动态地指导代理(“木偶”)进行推理。这个过程被形式化为一个顺序决策问题,生成了一个隐式的推理图,支持灵活且可扩展的代理协调。
  2. 自适应进化:其次,为了最大化效率和最小化冗余,采用了强化学习来连续更新指挥者的策略。通过利用已完成任务的反馈,指挥者学会了强调强代理轨迹并剪枝掉较弱的代理,使系统逐步进化到更高的效率和性能。
  3. 策略优化:使用REINFORCE作为底层优化框架,系统地优化协作的有效性和效率。优化目标是通过最大化完整推理轨迹上的期望回报来改进指挥者的策略。
  4. 奖励设计:设计了一个联合考虑解决方案质量和计算效率的奖励函数。通过在每个任务轨迹完成后分配一个终止奖励,鼓励指挥者优先考虑使用令牌消耗少的代理并尽早终止推理。

公式解释:

  • 指挥者在每个时间步选择激活一个代理的概率为: a t ∼ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) atπ(St,τ)=P(aSt,τ)其中, π \pi π是一个将可观测上下文(如当前状态和任务描述)映射到候选代理分布的函数。
  • 代理生成输出并更新系统状态为: o t = f a t ( s t ( a t ) , S t ) , S t + 1 = Φ ( S t , o t ) o_{t}=f_{a_{t}}(s_{t}(a_{t}),S_{t}),\quad S_{t+1}=\Phi(S_{t},o_{t}) ot=fat(st(at),St),St+1=Φ(St,ot)
  • 过程迭代进行,直到满足停止准则: P ( a t + 1 ∣ S 0 , … , S t + 1 , τ ) = P ( a t + 1 ∣ S t + 1 , τ ) P(a_{t+1}\mid S_{0},\ldots,S_{t+1},\tau)=P(a_{t+1}\mid S_{t+1},\tau) P(at+1S0,,St+1,τ)=P(at+1St+1,τ)
  • 最终聚合函数结合所有代理的输出生成整体解决方案: o ∗ = F a g g ( o 0 , o 1 , … , o T ) = Φ ( S T , o T ) o^{*}=F_{agg}({o_{0},o_{1},\ldots,o_{T}})=\Phi(S_{T},o_{T}) o=Fagg(o0,o1,,oT)=Φ(ST,oT)

实验设计

为了全面评估所提出的框架,使用了多种公开可用的数据集,涵盖闭域和开域推理任务。

  1. 闭域任务:包括GSM-Hard和MMLU-Pro,分别涉及复杂的算术问题和多样化的学科知识。评估指标为准确性。
  2. 开域任务:包括SRDD和CommonGen-Hard,分别涉及软件开发和常识推理。评估指标包括完整性、可执行性和一致性。
  3. 基线方法:为了评估方法的适应性,将代理池划分为Mimas子空间(小型模型)和Titan子空间(大型模型),并选择了多种代表性的基线方法,包括纯模型、单代理方法和多代理方法。

结果与分析

  1. 性能提升:在所有评估的任务中,Puppeteer在进化阶段始终表现出优越的平均性能。与使用相同基础模型的其他代理工作流程和多代理基线方法相比,Puppeteer-Mono在几乎所有评估任务中都表现出色。在这里插入图片描述
  2. 效率提升:系统的性能提升并未带来计算开销的增加。通过调整奖励设计中的权重因子 λ \lambda λ,可以在不同应用需求之间实现可适应的权衡。
  3. 组织拓扑进化:指挥者的动态指挥促进了树状、图状和循环状的交互结构。随着时间的推移,系统从松散的探索性交互模式转变为紧密协调的专门集体。在这里插入图片描述
  4. 紧凑性和循环性:优化过程中出现了显著的紧凑性和循环性趋势。紧凑性表现为图密度的增加,循环性表现为循环结构的增加。在这里插入图片描述

总体结论

这篇论文提出了一种新颖的框架,通过集中式的、可学习的“木偶师”指挥者来实现自适应的多代理LLMs协作。与传统的静态或手动设计的拓扑结构不同,该方法结合了上下文敏感的指挥和强化学习驱动的策略适应,实现了更原则化和高效的协作。实验结果表明,该方法在解决方案质量和计算成本方面均优于现有方法。分析进一步揭示了指挥者促进紧凑、循环推理结构的出现,这是性能提升的关键原因。希望这项工作能为多代理协作中的动态和可扩展协调提供一个有价值的步骤。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2025.6.10
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限,本文有错误和不准确之处在所难免,本人也很想知道这些错误,恳望读者批评指正!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/diannao/86527.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java八股文——Spring篇

文章目录 Java八股文专栏其它文章Java八股文——Spring篇SpringSpring的IoC和AOPSpring IoC实现机制Spring AOP实现机制 动态代理JDK ProxyCGLIBByteBuddy Spring框架中的单例Bean是线程安全的吗?什么是AOP,你们项目中有没有使用到AOPSpring中的事务是如…

NineData数据库DevOps功能全面支持百度智能云向量数据库 VectorDB,助力企业 AI 应用高效落地

NineData 的数据库 DevOps 解决方案已完成对百度智能云向量数据库 VectorDB 的全链路适配,成为国内首批提供 VectorDB 原生操作能力的服务商。此次合作聚焦 AI 开发核心场景,通过标准化 SQL 工作台与细粒度权限管控两大能力,助力企业安全高效…

开源技术驱动下的上市公司财务主数据管理实践

开源技术驱动下的上市公司财务主数据管理实践 —— 以人造板制造业为例 引言:财务主数据的战略价值与行业挑战 在资本市场监管日益严格与企业数字化转型的双重驱动下,财务主数据已成为上市公司财务治理的核心基础设施。对于人造板制造业而言&#xff0…

借助它,普转也能获得空转信息?

在生命科学研究领域,转录组技术是探索基因表达奥秘的有力工具,在疾病机制探索、生物发育进程解析等诸多方面取得了显著进展。然而,随着研究的深入,研究人员发现普通转录组只能提供整体样本中的基因表达水平信息,却无法…

synchronized 学习

学习源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖,也要考虑性能问题(场景) 2.常见面试问题: sync出…

Java事务回滚详解

一、什么是事务回滚? 事务回滚指的是:当执行过程中发生异常时,之前对数据库所做的更改全部撤销,数据库状态恢复到事务开始前的状态。这是数据库“原子性”原则的体现。 二、Spring 中的 Transactional 默认行为 在 Spring 中&am…

云灾备数据复制技术研究

云灾备数据复制技术:数字时代的“安全气囊” 在当今信息化时代,数据就像城市的“生命线”,一旦中断,后果不堪设想。想象一下,如果政务系统突然崩溃,成千上万的市民服务将陷入瘫痪。这就是云灾备技术的重要…

如何处理Shopify主题的显示问题:实用排查与修复指南

在Shopify店铺运营过程中,主题显示问题是影响用户体验与品牌形象的常见痛点。可能是字体错位、图片无法加载、移动端显示混乱、功能失效等,这些都可能造成客户流失和转化下降。 本文将从问题识别、原因分析、修复方法到开发者建议全方位解读如何高效解决…

前端监控方案详解

一、前端监控方案是什么? 前端监控方案是一套系统化的工具和流程,用于收集、分析和报告网站或Web应用在前端运行时的各种性能指标、错误日志、用户行为等数据。它通常包括以下几个核心模块: 性能监控:页面加载时间、资源加载时间…

Camera相机人脸识别系列专题分析之十二:人脸特征检测FFD算法之libvega_face.so数据结构详解

【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了: Camera相机人脸识别系列专题分析之十一:人脸特征检测FFD算法之低功耗libvega_face.so人脸属性(年龄,性别,肤…

如何配置HarmonyOS 5与React Native的开发环境?

配置 HarmonyOS 5 与 React Native 的开发环境需遵循以下步骤 一、基础工具安装 ‌DevEco Studio 5.0‌ 从 HarmonyOS 开发者官网 下载安装勾选组件: HarmonyOS SDK (API 12)ArkTS 编译器JS/ArkTS 调试工具HarmonyOS 本地模拟器 ‌Node.js 18.17 # 安装后验证版…

kotlin kmp 副作用函数 effect

在 Kotlin Multiplatform (KMP) Compose 中,“effect functions”(或“effect handlers”)是专门的可组合函数,用于在 UI 中管理副作用。 在 Compose 中,可组合函数应该是“纯”的和声明式的。这意味着它们应该理想地…

3.3.1_1 检错编码(奇偶校验码)

从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…

【Pandas】pandas DataFrame isna

Pandas2.2 DataFrame Missing data handling 方法描述DataFrame.fillna([value, method, axis, …])用于填充 DataFrame 中的缺失值(NaN)DataFrame.backfill(*[, axis, inplace, …])用于**使用后向填充(即“下一个有效观测值”&#xff09…

MQTT协议:物联网时代的通信基石

MQTT协议:物联网时代的通信基石 在当今快速发展的物联网(IoT)时代,设备之间的通信变得尤为重要。MQTT(Message Queuing Telemetry Transport)协议作为一种轻量级的消息传输协议,正逐渐成为物联…

Excel 表格内批量添加前缀与后缀的实用方法

我们经常需要为 Excel 表格中的内容统一添加前缀或后缀,例如给编号加“NO.”、给姓名加“会员_”等。手动操作效率低,本文将介绍几种实用的方法,帮助你快速完成批量添加前缀和后缀的操作。 使用“&”运算符添加前缀或后缀(推…

uniapp 实现腾讯云IM群文件上传下载功能

UniApp 集成腾讯云IM实现群文件上传下载功能全攻略 一、功能背景与技术选型 在团队协作场景中,群文件共享是核心需求之一。本文将介绍如何基于腾讯云IMCOS,在uniapp中实现: 群内文件上传/下载文件元数据管理下载进度追踪跨平台文件预览 二…

GO协程(Goroutine)问题总结

在使用Go语言来编写代码时,遇到的一些问题总结一下 [参考文档]:https://www.topgoer.com/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B/goroutine.html 1. main()函数默认的Goroutine 场景再现: 今天在看到这个教程的时候,在自己的电…

uniapp微信小程序视频实时流+pc端预览方案

方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度​WebSocket图片帧​定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐​RTMP推流​TRTC/即构SDK推流❌ 付费方案 (部分有免费额度&#x…

分布式锁实战:Redisson vs. Redis 原生指令的性能对比

分布式锁实战:Redisson vs. Redis 原生指令的性能对比 引言 在DIY主题模板系统中,用户可自定义聊天室的背景、图标、动画等元素。当多个运营人员或用户同时修改同一模板时,若没有锁机制,可能出现“甲修改了背景色,乙…