摘要
大型语言模型现在是人类决策过程中的关键助手。然而,一个常见的附言似乎总是出现:“大型语言模型可能会犯错。对重要信息要格外小心。”这指出了大型语言模型并非所有输出都可靠,用户必须手动评估它们。随着幻觉响应的出现,常常伴随着看似合理的解释,使得问题变得更加复杂,并在用户中引发信任问题。为了解决这一问题,本文提出了GE-Chat,一种知识图增强的检索增强生成框架,以提供基于证据的响应生成。具体来说,当用户上传一份材料文档时,会创建一个知识图谱,这有助于构建一个检索增强的代理,用超出其训练语料库之外的额外知识来增强代理的响应。然后我们利用思维链(CoT)逻辑生成、n跳子图搜索以及基于蕴含的句子生成来实现准确的证据检索。我们展示了我们的方法在识别自由形式上下文中的确切证据方面,改进了现有模型的性能,提供了一种可靠的方式来检查大型语言模型结论的资源,并帮助判断其可信度。数据集已发布于https://drive.google.com/drive/folders/1kNcsn1v0KH_srgL8w-NKvZM25o3onHBj?usp=sharing。
核心速览
研究背景
- 研究问题 :这篇文章要解决的问题是大型语言模型(LLMs)在生成回答时可能出现的误导性问题,即“幻觉”现象。LLMs虽然在多轮对话中表现出色,但它们可能会生成不准确或误导性的信息,用户需要手动评估这些信息的可靠性。
- 研究难点 :该问题的研究难点包括:如何在自由形式的上下文中准确识别证据,如何提供可靠的方式来检查LLMs结论的资源,以及如何帮助用户判断LLMs生成内容的可信度。
- 相关工作 :现有的解决方案主要分为两类:一类是通过微调LLMs来减少幻觉现象,但这需要大量资源且计算成本高;另一类是基于信息检索的方法,虽然可以进行多资源的事实性检查和验证,但依赖于外部信息源投票,查询次数多且复杂。此外,还有一些工作尝试通过匹配生成内容与原始文档中的证据来解决这一问题,但这些方法在处理冗余回答时效果不佳。
研究方法
这篇论文提出了GE-Chat框架,用于解决LLMs生成内容的可信度问题。具体来说,
- Graph-RAG构建:首先,基于知识图谱的检索增强生成代理(Graph-RAG)被用来整合外部信息,支持基于图的查询和关系推理。用户上传文档后,元数据被切割成语料库块,然后通过提取实体和探测实体间的关系来构建知识图谱。LLMs用于生成知识图谱,并将图谱作为外部信息反馈给LLMs以生成响应。
- CoT推理引导:其次,引入链式思维(Chain-of-Thought, CoT)推理诱导器,从LLMs生成的回答中逐步推导出推理过程。通过设计CoT模板,将每个回答与解释推理过程的CoT链关联起来。为了确保证据严格来源于提供的原始文档,引入了基于实体匹配的子图搜索步骤,将CoT推理锚定到知识图谱中的特定实体和关系上。
- 高效子图搜索:此外,基于派生的知识图谱(KG)和CoT进行子图搜索。对于每个CoT结果,匹配最相关的图实体,并通过源块检索获取多个块,将这些块与文档的原始内容连接起来。
- 证据内容优化。
实验设计
- 数据集构建 :为了解决现有研究中证据来源稀缺的问题,创建了一个包含1000个案例的数据集,涵盖10个类别:生物学、商业、化学、计算机科学、历史、管理、数学、物理、半导体和故事。数据集按PDF长度(短于10页、10-100页、长于100页)、问题类型(综合、结构、术语解释)以及人类注释的答案和相应证据句子进行结构化。
- 评估指标 :使用余弦相似度评估生成文本与正确文本的相关性,并使用简洁性分数量化LLMs找到相应证据的精确性。综合这两个方面,定义了证据得分
结果与分析
- 直接证据检索能力:实验结果表明,GPT4o的直接证据检索能力最好,其他模型表现较差,尤其是生成过多词语导致证据不简洁。
- GE-Chat框架的应用:将GE-Chat框架应用于现有模型(除GPT4o外),结果显示,应用GE-Chat框架后,每个模型的基于证据的响应性能一致提高。
总体结论
本文提出了GE-Chat框架,通过严格的证据检索和验证方法,显著提高了LLMs生成内容的可靠性。通过对十个不同领域的LLMs进行评估,证明了其鲁棒性、多样性和广泛适用性。GE-Chat提供了一种透明且用户友好的方法,有助于使AI系统更加可靠和可信,为关键决策过程中的负责任部署铺平了道路。
论文评价
优点与创新
- 提出GE-Chat框架 :论文提出了GE-Chat,一种基于知识图谱增强的检索增强生成框架,用于提供基于证据的响应生成。
- 细粒度的证据标识 :该方法不仅对派生的源进行约束,还提供了句子级别的细粒度标识,以准确标记支持LLMs结论的证据。
- 多跳子图搜索 :利用Chain-of-Thought (CoT) 逻辑生成、n跳子图搜索和基于蕴含的句子生成,实现了准确的证据检索。
- 提高模型性能 :实验表明,该方法在识别自由形式上下文中的确切证据方面提高了现有模型的性能,并提供了一种可靠的方式来检查LLMs结论的资源,帮助判断其可信度。
- 适用性广泛 :该框架可以应用于任何具有出色证据检索能力的LLM(即使是在指令跟随能力有限的小型模型上,该框架仍然有助于突出结论的证据)。
- 透明且用户友好 :通过提供透明的证据检索和验证方法,GE-Chat有助于使AI系统更加可靠和可信,为关键决策过程中的负责任部署铺平了道路。
不足与反思
- 计算复杂性 :GE-Chat的计算复杂性涉及实体提取、关系探测和子图搜索
- 数据集稀缺 :为了解决先前研究中证据来源稀缺的问题,论文创建了一个包含1000个案例的数据集,但数据集的规模和多样性仍有待进一步扩展。
- 下一步工作 :尽管GE-Chat在多个LLMs上表现出色,但论文提到需要进一步研究和优化,以提高其在不同领域和任务中的鲁棒性和适用性。
关键问题及回答
问题1:GE-Chat框架是如何利用知识图谱来增强LLMs的回答的?
GE-Chat框架通过构建一个知识图谱来增强LLMs的回答。具体步骤如下:
- 知识图谱构建 :用户上传文档后,元数据被切割成语料库块,然后通过提取实体和探测实体间的关系来构建知识图谱。LLMs用于生成知识图谱,并将图谱作为外部信息反馈给LLMs以生成响应。
- 基于图的查询和推理 :知识图谱支持基于图的查询和关系推理,帮助LLMs在生成回答时考虑更多的上下文信息和关系。
- 多跳推理 :GE-Chat框架利用知识图谱的多跳推理能力,捕捉知识库中与回答相关的多个实体和关系,从而生成更准确和有洞察力的回答。
问题2:Chain-of-Thought (CoT) 推理诱导器在GE-Chat框架中的作用是什么?
- 逐步推理过程 :CoT推理诱导器通过设计CoT模板,从LLMs生成的回答中逐步推导出推理过程,解释LLMs是如何得出结论的。
- 逻辑结构 :每个回答都与一个解释推理过程的CoT链关联起来,提供了一种逻辑结构来理解回答的生成过程。
- 证据锚定 :为了确保证据严格来源于提供的原始文档,CoT推理诱导器引入了基于实体匹配的子图搜索步骤,将CoT推理锚定到知识图谱中的特定实体和关系上,从而增强回答的可信度和准确性。
问题3:GE-Chat框架中的高效子图搜索是如何实现的?
- 基于CoT和知识图谱的搜索 :对于每个CoT结果,GE-Chat框架匹配最相关的图实体,并通过源块检索获取多个块,将这些块与文档的原始内容连接起来。
- 多跳关系探测 :框架通过预计算的n跳关系图进行搜索,而不是全局搜索整个文档,从而提高了搜索效率。
- 锚定实体 :找到的实体子图作为锚点,引导回到原始文档的相应块,确保生成的内容与其原始内容对齐,增强了回答的可追溯性和可信度。