具身人工智能新突破

具身人工智能(EAI)致力于训练智能体在交互式模拟环境中完成涉及导航与物体操作的复杂多模态任务。该领域需解决长周期规划、视觉语言 grounding 及高效样本算法等核心挑战。

DialFRED:对话增强型指令跟随框架

  • 基准构建:发布包含53,000条人工标注对话的DialFRED数据集,支持智能体通过主动对话获取任务补充信息
    • 技术创新
    • 采用"提问者-执行者"双模型框架
    • 强化学习优化问题生成时机与内容
    • 自动应答机制利用模拟环境元数据
    • 性能表现:在未知验证集上实现33.6%成功率,较被动式模型提升15.3个百分点

具身化神经SLAM技术

  • 核心突破:首创融合视觉与语言的affordance-aware神经SLAM模型
    • 两阶段架构
    1. 探索阶段:结合语言指令与历史观测构建语义地图
    1. 执行阶段:基于语义地图的规划模块处理导航子目标
    • 性能优势:在ALFRED基准测试中绝对性能提升超20%,达到19.95%的泛化性能

关键技术细节

  • 数据采集:通过改良的众包标注流程,以视频分段方式收集任务指令与环境图像配对数据
    • 多模态导航:创新性整合视觉观测、历史动作与语言指令的三模态决策模块
    • 开源生态:DialFRED数据集与评估平台已公开,推动具身对话智能体研究

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)