HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究

  • 作者:Ferran Gebelli 1 ^{1} 1, Lavinia Hriscu 2 ^{2} 2, Raquel Ros 1 ^{1} 1, Séverin Lemaignan 1 ^{1} 1, Alberto Sanfeliu 2 ^{2} 2, Anais Garrell 2 ^{2} 2
  • 单位: 1 ^{1} 1PAL Robotics, 2 ^{2} 2IRI (UPC-CSIC)
  • 论文标题:Personalised Explainable Robots Using LLMs
  • 论文链接:https://ieeexplore.ieee.org/abstract/document/10974125

主要贡献

  • 提出了一种基于大语言模型(LLMs)的架构,用于在人机交互(HRI)中提供个性化的可解释性,填补了当前XHRI研究中个性化解释的空白。
  • 通过在老年医院巡逻机器人的用例中进行模拟,展示了该架构在实际场景中的可行性,能够根据不同用户类型和交互历史生成针对性的解释。
  • 提供了未来研究方向,包括强化学习、不确定性感知以及向异构和变化群体提供解释等,为后续研究提供了思路和方向。

研究背景

  • 在人机交互(HRI)领域,解释性被认为是增强人类对机器人行为和决策过程理解的关键机制。然而,目前大多数研究集中在如何使机器人行为可解释,而较少关注个性化解释。
  • 从心理理论(ToM)的角度来看,可解释的HRI(XHRI)被概念化为一个模型协调问题,即机器人需要估计用户对机器人的心理模型,并与自身的内部心理模型进行比较,以识别潜在的不匹配并生成沟通行为来弥合差距。
  • 由于机器人需要为每个用户估计不同的心理模型,因此个性化至关重要。然而,现有研究中很少有针对XHRI中的个性化问题进行探讨。

研究方法

  • 架构设计:提出了一种基于LLMs的架构,通过整合结构化知识来解释决策和行为。该架构包括以下几个关键部分:
    • Mrobot表示:结合了机器人过去行为的总结和针对不同主题或情境的预定义行为规则。其中,过去行为的总结通过LLM从最近5分钟的活动日志中提取相关信息生成;主题查找器通过LLM识别用户问题所涉及的主题;并根据主题从数据库中检索相应的预定义行为规则。
    • M r o b o t ( M h u m a n ( M r o b o t ) M_{robot}(M_{human}(M_{robot}) Mrobot(Mhuman(Mrobot)表示:利用LLM对用户进行建模,基于用户与机器人的过往交互数据(包括对话、日志摘要以及任务相关交互)生成用户画像,反映用户对机器人的知识水平和潜在的认知差距。
    • LLM解释器:结合静态知识(行为规则)、动态知识(最近5分钟的日志总结)以及用户画像来回答用户问题,实现个性化解释。
  • 模型选择:采用OpenAI的gpt-4o-mini模型作为基础LLM。

实验

  • 用例设置:以在老年医院巡逻的机器人作为实验场景,该机器人的主要任务是监测患者房间并在检测到潜在危险情况(如患者跌倒、患者独自站立、门未按要求打开等)时向护理人员发出警报。实验记录了机器人两个月的高级日志,包括日程变更、行为状态转换和警报触发等信息,以及护理人员通过移动应用与机器人的交互记录。

  • 模拟交互:利用记录的日志模拟不同用户在指定时间点向机器人提出关于警报触发或未触发的可解释性问题。根据用户的交互历史和知识水平,将用户分为以下几种类型:
    • 非活跃用户:未与系统进行过积极互动或对话,对于此类用户,系统提供了详细的解释,以帮助其更好地理解机器人未触发警报的原因。
    • 活跃用户:在一段时间内与机器人有过多次互动,系统能够根据用户的活跃度提供简洁的回答,避免过多重复信息。
    • 活跃用户但有时间间隔:曾与机器人有过频繁互动,但在一段时间(如一个月)内未进行任何交互。对于这种用户,系统不仅考虑了过去的活动,还考虑了时间间隔,生成的解释既参考了之前的讨论,又提供了足够的细节以弥补知识的可能遗忘。

结论与未来工作

  • 结论:通过将用户过去的对话总结、机器人高级日志总结以及相关系统数据相结合,该基于LLMs的架构能够提供针对机器人决策和行为的个性化解释。在老年医院巡逻机器人的用例中展示了其可行性和有效性。
  • 未来工作
    • 用户研究与模型改进:进行用户研究,比较不同表示、更新和检索Mrobot和Mrobot(Mhuman(Mrobot)的方法,并整合多模态输入。探索检索增强生成(RAG)技术以优化信息检索过程,减少对5分钟时间窗口的依赖。
    • 实时性优化:通过并行化某些步骤和比较不同提供商的LLM模型,确保系统的实时性要求。
    • 强化学习:通过从用户反馈中进行强化学习来微调LLMs,以实现更深入的个性化解释。
    • 不确定性感知:探索在Mrobot和Mrobot(Mhuman(Mrobot)中加入模型不确定性的估计,并让LLM根据不确定性生成相应的回答。
    • 面向异构和变化群体的解释:研究如何向不同用户群体提供解释,考虑群体成员的变化以及信息共享的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/diannao/85751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gitee Wiki:重塑关键领域软件研发的知识管理范式

在数字化转型浪潮席卷全球的当下,关键领域软件研发正面临前所未有的知识管理挑战。传统文档管理模式的局限性日益凸显,知识传承的断层问题愈发严重,团队协作效率的瓶颈亟待突破。Gitee Wiki作为新一代知识管理平台,正在通过技术创…

JVM 内存溢出 详解

内存溢出 内存溢出指的是内存中某一块区域的使用量超过了允许使用的最大值,从而使用内存时因空间不足而失败,虚拟机一般会抛出指定的错误。 在Java虚拟机中,只有程序计数器不会出现内存溢出的情况,因为每个线程的程序计数器只保…

dvwa8——SQL Injection(Blind)

由题目得这一关用盲注写 LOW: 先用bp抓包一下 , 看到这low是get提交 , f12打开hackbar 输入?id1时报错 尝试闭合 , 回显正常 开始注入 1.order by 判断列数,3的时候开始回显报错,所以有两列 ?id1 order by 2--&SubmitSubmit# 2.无回显位置可以爆出,我们通过盲注来继…

探索分布式存储与通信:去中心化共享及通訊(DSAC)

在当今数字化时代,分布式系统的重要性愈发凸显。它不仅能提升数据的存储安全性和可靠性,还能增强通信的效率和隐私性。于是我做了这个去中心化共享及通訊的程序,它构建了一个强大的分布式存储和通信网络,下面我们就来详细了解其实…

ass字幕嵌入mp4带偏移

# 格式转化文件,包含多种文件的互相转化,主要与视频相关 from pathlib import Path import subprocess import random import os import reclass Utils(object):staticmethoddef get_decimal_part(x: float) -> float:s format(x, .15f) # 格式化为…

05 APP 自动化- Appium 单点触控 多点触控

文章目录 一、单点触控查看指针的指针位置实现手势密码: 二、多点触控 一、单点触控 查看指针的指针位置 方便查看手势密码-九宫格每个点的坐标 实现手势密码: 执行手势操作: 按压起点 -> 移动到下一点 -> 依次移动 -> 释放&am…

【软件】在 macOS 上安装 MySQL

在 macOS 上安装 MySQL 有多种方法,以下是两种常见的安装方式:通过 Homebrew 安装和通过安装包安装。以下是详细的步骤: 一、通过 Homebrew 安装 MySQL Homebrew 是 macOS 的包管理器,使用它安装 MySQL 非常方便。 1.安装 Home…

第11节 Node.js 模块系统

为了让Node.js的文件可以相互调用,Node.js提供了一个简单的模块系统。 模块是Node.js 应用程序的基本组成部分,文件和模块是一一对应的。换言之,一个 Node.js 文件就是一个模块,这个文件可能是JavaScript 代码、JSON 或者编译过的…

力扣热题100之二叉树的直径

题目 给你一棵二叉树的根节点,返回该树的 直径 。 二叉树的 直径 是指树中任意两个节点之间最长路径的 长度 。这条路径可能经过也可能不经过根节点 root 。 两节点之间路径的 长度 由它们之间边数表示。 代码 方法:递归 计算二叉树的直径可以理解…

OpenCV CUDA模块图像处理------创建CUDA加速的Canny边缘检测器对象createCannyEdgeDetector()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该函数用于创建一个 CUDA 加速的 Canny 边缘检测器对象(CannyEdgeDetector),可以在 GPU 上高效执行 Canny 边…

unix/linux,sudo,其内部结构机制

我们现在深入sudo的“引擎室”,探究其内部的结构和运作机制。这就像我们从观察行星运动,到深入研究万有引力定律的数学表达和物理内涵一样,是理解事物本质的关键一步。 sudo 的内部结构与机制详解 sudo 的执行流程可以看作是一系列精心设计的步骤,确保了授权的准确性和安…

什么是 TOML?

🛠 Rust 配置文件实战:TOML 语法详解与结构体映射( 在 Rust 中,Cargo.toml 是每个项目的心脏。它不仅定义了项目的名称、版本和依赖项,还使用了一种轻巧易读的配置语言:TOML。 本文将深入解析 TOML 的语法…

react native webview加载本地HTML,解决iOS无法加载成功问题

在react native中使用 “react-native-webview”: “^13.13.5”,加载HTML文件 Android: 将HTML文件放置到android/src/main/assets目录,访问 {uri: file:///android_asset/markmap/index.html}ios: 在IOS中可以直接可以直接放在react native项目下,访问…

数据结构(JAVA版)练习题

(题目难易程度与题号顺序无关哦) 目录 1、多关键字排序 2、集合类的综合应用问题 3、数组排序 4、球的相关计算问题 5、利用类对象计算日期 6、日期计算问题 7、星期日期的计算 8、计算坐标平面上两点距离 9、异常处理设计问题 10、Java源文件…

04-redis-分布式锁-redisson

1 基本概念 百度百科:控制分布式系统之间同步访问共享资源方式。 在分布式系统中,常常需要协调他们的动作。如果不同的系统或是同一个系统的不同主机之间共享了一个或一组资源,那么访问这些资源的时候,往往需要互斥来防止…

性能优化 - 案例篇:缓存_Guava#LoadingCache设计

文章目录 Pre引言1. 缓存基本概念2. Guava 的 LoadingCache2.1 引入依赖与初始化2.2 手动 put 与自动加载(CacheLoader)2.2.1 示例代码 2.3 缓存移除与监听(invalidate removalListener) 3. 缓存回收策略3.1 基于容量的回收&…

使用jstack排查CPU飙升的问题记录

最近,看到短视频传播了一个使用jstack来协助排查CPU飙升的案例。我也是比较感兴趣,参考了视频博主的流程,自己做了下对应案例的实战演练,在此,想做一下,针对相关问题模拟与排查演练的实战过程记录。 案例中…

Sql Server 中常用语句

1.创建用户数据库 --创建数据库 use master --切换到master数据库 go-- 终止所有与SaleManagerDB数据库的连接 alter database SaleManagerDB set single_user with rollback immediate goif exists (select * from sysdatabases where nameSaleManagerDB) drop database Sal…

联通专线赋能,亿林网络裸金属服务器:中小企业 IT 架构升级优选方案

在当今数字化飞速发展的时代,中小企业面临着日益增长的业务需求与复杂多变的市场竞争环境。如何构建高效、稳定且具性价比的 IT 架构,成为众多企业突破发展瓶颈的关键所在。而亿林网络推出的 24 核 32G 裸金属服务器,搭配联通专线的千兆共享带…

LangChain核心之Runnable接口底层实现

导读:作为LangChain框架的核心抽象层,Runnable接口正在重新定义AI应用开发的标准模式。这一统一接口设计将模型调用、数据处理和API集成等功能封装为可复用的逻辑单元,通过简洁的管道符语法实现复杂任务的声明式编排。 对于面临AI应用架构选择…