大语言模型幻觉检测新工具与数据集

大语言模型幻觉检测新工具与数据集

news/2026/7/12 4:26:02/文章来源:href="https://blog.51cto.com/u_17480440/14109538" target="_blank"

新工具与数据集助力大语言模型幻觉检测

大语言模型（LLMs）虽能力卓越，却存在“幻觉”问题——生成看似合理但事实错误的断言。某些幻觉极为细微，例如日期误差仅一两年。

为检测此类细微幻觉，某机构推出RefChecker，包含新型幻觉检测框架和基准数据集。与以往基于句子或短语的检测方法不同，RefChecker采用知识三元组（<主体, 谓词, 客体>结构，类似知识图谱）表征事实，可对LLM输出进行更精细的评估。

基准数据集特点

三种场景：
1. 零上下文：LLM无参考文本直接生成答案（100例）；
1. 噪声上下文：提供可能含错误信息的检索文档（RAG场景，100例）；
1. 精确上下文：提供单一准确文档（100例）。

检测方法创新

参考来源：支持三种任务设置（开放问答、检索增强生成、摘要生成），数据源自NaturalQuestions、MS MARCO等公开集。
1. 评估粒度：将响应分解为知识三元组，例如句子“Richard Mulligan在《The Partridge Family》中饰演Mr. Kincaid”可拆解为：
- <Richard Mulligan, 饰演角色, Mr. Kincaid>
- <Mr. Kincaid, 所属作品, The Partridge Family>
1. 声明分类：
- 蕴含（绿色√）：参考支持；
- 矛盾（红色×）：参考反驳；
- 中性（橙色？）：证据不足需进一步验证。

技术流程

RefChecker包含两个可配置模块：

声明三元组提取器（E）：当前版本使用GPT-4和Claude 2，后续将开源Mixtral-8x7B提取器；
- 幻觉检查器（C）：支持GPT-4、Claude 2和RoBERTa-NLI自动检查，未来将增加AlignScore等开源方案。多数投票结果与人工标注一致性最佳。

使用方式

该研究认为，精准识别细粒度幻觉是制定缓解策略的第一步。反馈可通过GitHub提交，欢迎贡献改进。

致谢：Lin Qiu, Zheng Zhang 更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.tpcf.cn/news/917895.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Vue 3.6 将正式进入「无虚拟 DOM」时代！

Vue 3.6 将正式进入「无虚拟 DOM」时代！

“干掉虚拟 DOM” 的口号喊了好几年，现在 Vue 终于动手了。就在前天，Vue 3.6 alpha 带着 Vapor Mode 低调上线：编译期直接把模板编译成精准 DOM 操作，不写 VNode、不 diff，包更小、跑得更快。不同于社区实验，Vapor Mode 是 Vue 官方给出的「标准答案」：依旧是熟悉的单文…

阅读更多...

学工信息化系统在东莞的落地实践：打造智慧校园新生态

学工信息化系统在东莞的落地实践：打造智慧校园新生态

随着教育数字化转型的深入推进，学工信息化系统在东莞地区的应用正逐步展现出其独特价值。作为智慧校园建设的重要组成部分，这套系统正在为当地教育管理带来实实在在的改变。贴合本土需求的系统建设东莞作为制造业重镇，人口流动性大，学生群体结构相对复杂。传统的学生管理工…

阅读更多...

2025 ChinaJoy丨TCL华星发布电竞MNT显示技术，展示“屏宇宙

2025 ChinaJoy丨TCL华星发布电竞MNT显示技术，展示“屏宇宙

【环球网科技综合报道】第二十二届中国国际数码互动娱乐展览会（以下简称“2025 ChinaJoy”）期间，TCL华星携手三星、联想、华硕、TCL、AOC、飞利浦、iQOO、Acer、MSI、LG、雷鸟等品牌合作伙伴亮相。其在展会期间发布TCL华星电竞MNT显示技术，并为观众带来“屏宇宙3.0”沉浸式…

阅读更多...

除了可选链操作符和空值合并操作符，还有哪些实用的ES2020特性？

除了可选链操作符和空值合并操作符，还有哪些实用的ES2020特性？

ES2020（ES11）除了可选链操作符（?.）和空值合并操作符（??），还引入了多个实用特性，进一步提升了JavaScript的开发体验。以下是其他重要特性及其实用场景：1. 动态导入（Dynamic Import）允许在运行时动态加载模块，支持按需加载，优化代码分割和性能。// 传统静态导入（…

阅读更多...

Python的去重方法

Python的去重方法

在Python中，对数据去重取决于数据的类型，常见的有列表、集合等数据结构的去重操作，下面分别介绍：列表去重使用集合（Set）：集合是一种无序且元素唯一的数据结构。将列表转换为集合，然后再转换回列表，即可实现去重。my_list = [1, 2, 2, 3, 4, 4, 5] unique_list = list(…

阅读更多...

智能提示词引擎的革新与应用：PromptPilot使用全解析

智能提示词引擎的革新与应用：PromptPilot使用全解析

引言在人工智能技术飞速发展的2025年，字节跳动推出的豆包大模型系列以多模态交互与深度推理能力引发行业关注。其中，豆包1.6大模型通过动态思考模式与视觉理解能力，重新定义了AI与人类的交互方式。而与之配套的PromptPilot智能提示引擎，则以"一键生成专业指令"的…

阅读更多...

HTTP报文结构详解：数据交换的基石

HTTP报文结构详解：数据交换的基石

HTTP（超文本传输协议）是万维网数据通信的核心基础，而HTTP报文则是客户端与服务器之间交互信息的载体。掌握HTTP报文格式对开发者理解网络通信、调试API和优化Web性能至关重要。一、HTTP报文整体结构所有HTTP报文（无论请求或响应）都由起始行 + 头部字段 + 空行 + 消息主体四…

阅读更多...

跨相机深度估计知识迁移技术解析

跨相机深度估计知识迁移技术解析

跨相机深度估计知识迁移技术背景深度信息对机器人定位、建图和障碍物检测等应用至关重要。传统深度获取设备（如激光雷达）存在体积大、功耗高等问题，而单目深度估计(MDE)技术凭借低成本、免校准等优势成为更实用的解决方案。但不同相机的硬件/软件差异会导致图像风格差异，…

阅读更多...

深度学习——神经元

深度学习——神经元

神经元 (Neuron) 的详细讲解神经元（有时称为“节点”或“单元”）灵感来源于生物神经元，是人工神经网络的基本构建块。它接收输入信号，经过一系列计算，产生输出信号，传递给下一层神经元。1. 神经元的结构一个典型的人工神经元包含以下部分：输入（Inputs）：来自前一层神经…

阅读更多...

python按小时匹配表格

python按小时匹配表格

代码如下： # -*- coding:utf-8 -*- # @author:Ye Zhoubing # @datetime:2025/8/1 10:24 # @software: PyCharm # -*- coding:utf-8 -*- # @author:Ye Zhoubing # @datetime:2025/2/19 10:26 # @software: PyCharm """ 按小时匹配两个 CSV 文件中的数据，并将结…

阅读更多...

联邦学习中的动态提示调优技术FedDPG

联邦学习中的动态提示调优技术FedDPG

摘要预训练语言模型(PLMs)在各种NLP任务中表现出色，但传统微调方法存在高计算成本问题。提示调优作为高效替代方案，仅需在输入序列前添加少量可训练参数，同时冻结PLM参数。然而固定提示会降低模型灵活性。联邦学习(FL)技术虽能解决数据隐私问题，但仍面临客户端通信与计算资…

阅读更多...

MongoDB 从3.4.0升级到4.0.0完整指南实战-优雅草蜻蜓I即时通讯水银版成功升级-卓伊凡|bigniu

MongoDB 从3.4.0升级到4.0.0完整指南实战-优雅草蜻蜓I即时通讯水银版成功升级-卓伊凡|bigniu

MongoDB 从3.4.0升级到4.0.0完整指南实战-优雅草蜻蜓I即时通讯水银版成功升级-卓伊凡|bigniu由于数据库升级会带来很大的问题，因此此前我们找原厂商升级他都不肯升级，给几万都不接，最终由于我们的商业应用场景原因我们必须自主升级，很好的是我们升级成功了，以下是升级步骤…

阅读更多...

蓝易云高防CDN - Nginx与Tomcat、Client之间请求的长连接配置不一致问题分析解决

蓝易云高防CDN - Nginx与Tomcat、Client之间请求的长连接配置不一致问题分析解决

在处理Nginx与Tomcat、Client之间请求的长连接配置不一致问题时，我们需要首先理解长连接的概念以及它在Nginx、Tomcat和Client中的应用。HTTP/1.1开始，引入了持久连接（也称为HTTP Keep-Alive或HTTP connection reuse），它允许同一个TCP连接中发送多个HTTP请求。这样可以减少…

阅读更多...

蓝易云高防CDN - Linux下用base64命令加解密字符串

蓝易云高防CDN - Linux下用base64命令加解密字符串

在Linux系统中，我们可以使用base64命令来对字符串进行加密和解密。base64是一种基于64个可打印字符来表示二进制数据的方法。这种编码帮助我们将二进制数据转换为ASCII字符串格式，从而可以在文本格式中轻松传输和存储。首先，让我们看看如何使用base64命令对字符串进行加密。…

阅读更多...

蓝易云高防CDN - ubuntu20.04使用kubeadm安装kubernetes1.24.4

蓝易云高防CDN - ubuntu20.04使用kubeadm安装kubernetes1.24.4

在Ubuntu 20.04上使用kubeadm安装Kubernetes 1.24.4的过程可以分为以下几个步骤：系统更新和预配置首先，你需要确保你的系统是最新的。可以通过运行以下命令来更新和升级你的Ubuntu系统：sudo apt-get update sudo apt-get upgrade -y接下来，需要关闭swap分区，因为Kubernete…

阅读更多...

蓝易云高防CDN - nslookup测试网络命令

蓝易云高防CDN - nslookup测试网络命令

nslookup是一个网络管理员和系统管理员常用的命令行工具，用于查询DNS（域名系统）的记录，以获取特定主机名或IP地址的相关信息。这个工具在网络故障排查、服务器配置和安全审计等场景中都非常有用。nslookup命令在大多数操作系统中都可以使用，包括Windows、Linux和Mac OS。使…

阅读更多...

蓝易云高防CDN - k8s版本v1.24，kubectl top pod报错:error: Metrics API not available

蓝易云高防CDN - k8s版本v1.24，kubectl top pod报错:error: Metrics API not available

在Kubernetes（K8s）v1.24版本中，如果你在使用kubectl top pod命令时遇到了“error: Metrics API not available”的错误，这通常意味着你的集群中没有安装或者正确配置Metrics Server。Metrics Server是一个集群范围的资源指标数据聚合器，它是Kubernetes的Horizontal Pod Au…

阅读更多...

餐饮店数字化转型指南：一个小程序搞定全流程运营

餐饮店数字化转型指南：一个小程序搞定全流程运营

想提升茶饮店运营效率？只需一个智能小程序，就能轻松实现点餐、收银、客户管理全流程数字化升级！带来显著效益提升。三大核心功能，助力门店高效运营1. 电子菜单：便捷环保的智能点餐彻底告别传统纸质菜单，客户扫码即可浏览完整饮品目录支持在线支付、预约点单功能，减少高峰…

阅读更多...

【C/C++】C语言开发者必读:迈向C++的高效编程之旅

【C/C++】C语言开发者必读:迈向C++的高效编程之旅

对于习惯了 C 语言简洁与直接的开发者而言，C++ 既熟悉又陌生 —— 它兼容 C 的语法基础，却又通过面向对象、泛型编程等特性构建了全新的编程范式。从 C 迈向 C++ 并非简单地替换语法，而是需要理解两种语言在设计思想上的差异，掌握 C++ 如何解决 C 语言开发中的痛点。本文将…

阅读更多...

如何查看MySQL的配置文件路径？

如何查看MySQL的配置文件路径？

要查看MySQL的配置文件路径，可根据操作系统和安装方式选择以下方法：一、通过命令行工具直接查询1. 查看MySQL默认搜索的配置文件路径在终端或命令提示符中执行：mysql --help | grep my.cnf # Linux/macOSmysql --help | findstr "my.cnf" # Windows输出结果会列…

阅读更多...

最新文章