摘要

几乎所有人类工作都具有协作性,因此现实世界NLP应用的评估通常需要与多样化人类视角对齐的多维度标准。由于真实人类评估资源稀缺且成本高昂,新兴的"LLM-as-a-judge"范式为利用LLM智能体模拟人类评估者提供了可行方案。然而现有方法存在两个局限:智能体角色描述往往随意设计,且框架难以泛化至其他任务。为此,我们提出MAJ-EVAL多智能体评估框架,能够自动从相关文档(如研究论文)构建具有不同维度的评估者角色,实例化LLM智能体,并通过群体辩论生成多维反馈。在教育与医疗领域的评估实验表明,相比传统自动化评估指标和现有LLM-as-a-judge方法,MAJ-EVAL生成的评估结果与人类专家评分具有更高一致性。

方法架构

  1. 角色自动构建:从领域文档提取关键维度,生成具有差异化评估视角的智能体角色描述
    1. 多智能体实例化:基于角色描述配置LLM智能体的系统提示和行为参数
    1. 群体辩论机制:采用结构化辩论流程使智能体交换论据,最终形成多维评估报告
    1. 动态权重调整:根据辩论过程中论据质量自动调整不同维度在最终评估中的权重

实验结果

  • 教育领域:在作文评估任务中,MAJ-EVAL与教师评分的Spearman相关系数达0.82,显著优于基线方法
    • 医疗领域:对患者咨询回复的评估结果与专家委员会评分的Kappa一致性系数提升37%
    • 效率对比:较传统人类评估流程节省89%时间成本,较单智能体方法提升评估维度覆盖率2.4倍

技术贡献

  1. 提出首个可自动构建评估维度的多智能体评估框架
    1. 设计基于文档分析的动态角色生成算法
    1. 实现评估结果与人类多维度标准的高效对齐
    1. 开源框架支持快速适配新领域任务
  2. 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)