多模态+类人认知：Embodied AI迈向AGI的三大瓶颈与突破路径

作者：Yequan Wang；Aixin Sun

摘要

AGI常被视为本质上具有具身特性。随着机器人技术和基础人工智能模型的最新进展，我们正站在一个新时代的门槛上——这一时代以日益通用化的具身人工智能系统为标志。本文通过提出一个涵盖五个层级（L1-L5）的具身通用人工智能系统化分类体系，为相关讨论提供了贡献。我们回顾了基础层级（L1-L2）的现有研究与挑战，并概述了实现更高层级能力（L3-L5）所需的关键要素。基于这些洞察与现有技术，我们提出了一个L3+级机器人大脑的概念框架，既提供了技术展望，也为未来探索奠定了基础。

1 引言

AGI近年来吸引了广泛关注。同时，Embodied AI也取得了快速进展。人们普遍认为，具身人工智能要么是实现AGI的关键路径——反映了人类身体在认知中的不可或缺性——甚至应被纳入AGI定义本身。我们不再进一步探讨具身AI与AGI的关系，而是聚焦于“具身AGI”，从现有具身AI文献出发，探索其距离真正类人化与通用化的差距。我们提出以下具身AGI的实用定义：

定义1（具身AGI）：具身AGI是一种具身人工智能形式，需具备类人交互能力，并能以人类水平熟练完成多样化、开放性的现实任务。

在此定义中，具身AGI被框定为AGI与具身AI的交汇点，强调类人化场景。为衡量这一目标的进展，需建立一套标准：明确终极目标、评估当前能力、定义中间阶段，并识别关键挑战与潜在加速因素。受自动驾驶分级体系启发，我们提出具身AGI的五级路线图（第2节及图1），从第一级（L1）——辅助完成有限基础任务，到第五级（L5）——独立执行具类人行为的开放性任务。

我们从四个核心维度评估具身AI的能力：

(1) 全模态能力：处理全谱信息模态的能力；

(2) 类人认知能力：包括细致的社会理解与类人学习机制（如自我意识、社会联结理解、程序性记忆及记忆再巩固，详见第4节）；

(3) 实时响应能力：执行快速准确动作与双向交互的能力；

(4) 泛化能力：适应开放环境与现实任务的能力（见图2）。

基于提出的五级分级体系与四大能力维度，我们梳理了近期进展与未来方向。第3节简要回顾了基础模型与具身学习算法的最新发展，并评估其当前成熟度。分析表明，在达到L3+级具身AGI的所有四个维度上仍存在显著差距，当前具身AI发展水平介于第一级至第二级（L1–L2）之间。第4节进一步明确了实现第三级及更高水平所需的四大维度要求。

我们观察到，现有模型架构与主流框架——如LLMs、VLMs、VLA以及近期全模态方法——在多模态处理与精确实时动作执行方面尚未满足L3+级要求。此外，主流学习范式（如监督学习与强化学习）在类人行为获取与鲁棒泛化方面仍显不足。

为应对这些挑战，第5节提出了一种L3+级具身AI学习的概念框架，包含两大核心组件：(i) 高级机器人代理的模型架构；(ii) 满足核心要求的集成学习算法：全模态处理、类人认知能力、实时响应与强泛化能力。所提出的架构与算法仅为当前研究的示例性方案，未来若有创新方法能达成相同基础目标，可予以替代。

2 L1～L5：迈向具身通用人工智能的路线图

借鉴广泛认可的自动驾驶五个等级体系，以及近期关于AGI分级的讨论，我们提出了通向具身通用人工智能的五阶段路线图（L1-L5）。该路线图在图1中概括，并在表1中详细展开，其核心基于四个维度（图2）：模态多样性、类人认知能力、实时响应能力以及泛化能力。表1还简要列出了硬件要求和运动/操作能力，并结合与自动驾驶的类比进行说明。

L1：单一任务完成

此阶段的具身智能体（如机器人）可稳定执行定义明确的单一任务——例如工业或日常场景中的物体抓取。尽管可能在新环境条件（如光照或布局变化）下展现有限泛化能力，但其功能仍局限于特定任务域。每个任务通常需要专用机器人，且复杂目标需人工分解为简单子任务。该阶段类似于早期专注于单一功能的大语言模型，或自动驾驶L1级别中仅处理孤立任务（如定速巡航和车道保持）的系统。此时机器人的物理本体需具备执行目标任务的最低鲁棒性。

L2：组合任务完成

在L2级别，机器人可通过分解高层指令为简单动作序列（如抓取后切割）处理组合任务。其技能库扩展使其相比L1更具通用性，减少人工干预需求。然而，能力仍受限于预定义任务和技能库，跨域泛化能力有限。在大语言模型领域，这相当于多语言翻译系统（支持多种语言对互译但局限于翻译领域）；在自动驾驶中，类似需显式逻辑分解的组合任务（如泊车），但复杂决策（如拥堵路况应对）仍无法实现。此阶段机器人需在物理鲁棒性的基础上，具备支持更长动作序列的响应能力。

L3：条件驱动的通用任务完成

L3级别机器人可处理广泛任务类别（如抓取与舞蹈），在任务、环境及指令间展现条件泛化能力。其具备显著实时响应性，能动态适应环境变化或指令更新。尽管支持多任务处理，但面对全新或开放式任务时性能尚不稳定，因此代表通用具身智能的初级阶段。实现此阶段需机器人具备综合感知输入（如视觉、听觉，可选触觉与本体感知）及对应输出模态。大语言模型中，类似预训练基础模型通过多任务微调或少样本提示实现通用化；自动驾驶中则相当于需人工监控的高速公路长途驾驶和交通导航任务。

L4：高度通用型机器人

从L4起，机器人对未见任务展现出稳健泛化能力，标志着真正的通用化能力。此类机器人能内化科学规律与物理世界模型，实现精准预测与决策。除实时处理外，其具备强大的多模态理解与推理能力（如语言、音频、视觉），确保与人类的深度交互。机器人本体需更灵活精准以匹配高级能力。类比大语言模型，L4相当于具备强推理能力的通用模型（如o1（Jaech等，2024）、DeepSeek-R1（DeepSeek-AI等，2025））；自动驾驶中则相当于接近人类水平的复杂驾驶任务解决（如城市道路导航），但仍需最低限度人工干预。

L5：全用途机器人

L5代表具身AGI的终极目标：开发能全面满足人类日常需求的通用机器人。其深度融合物理规律理解与人类情感社交动态，在实时中无缝处理所有模态。展现类人认知行为，包括自我意识、社会关系理解、程序性记忆和记忆重组（第4节）。此阶段机器人本体需内置安全机制以防止危险意图执行。大语言模型类比中，L5对应文本AGI的新兴阶段；自动驾驶中则体现为完全理解驾驶场景中人类细微需求，彻底消除人工干预的终极形态。

3 L1∼L2：现状与挑战

我们首先进行简要的文献综述，以评估Embodied AI的现状。该领域由两种主流方法主导：end-to-end方法和plan-and-act方法。端到端方法通常利用VLA模型，直接处理视觉和文本输入，通过下一词预测或基于扩散的方法生成动作。相反，规划-执行方法首先利用VLMs或LLMs来解释多模态输入，然后进行高层规划与任务分解，生成中间控制信号，如可执行代码、函数调用或语言指令。一些混合方法通过潜在空间规划将这两种范式结合起来。LLMs 的显著成功极大地影响了具身人工智能领域基础模型的开发，推动了使用真实世界和合成数据集进行大规模预训练的策略，以增强泛化能力。

我们达到了什么水平？我们的综述表明，L1 级Embodied AGI所需的能力，现有模型已完全或部分满足。许多模型能够可靠地完成单一任务，并在面对未见过的环境和条件时表现出鲁棒性。例如，GraspVLA1 能够在各种光照条件、背景、干扰物和物体高度下成功泛化抓取能力。然而，它仍然专精于抓取任务，无法泛化到该领域之外。最先进的机器人系统，如 Helix11，不仅在特定任务类型（例如拾取各种物体）内表现出强大的泛化能力，还能处理广泛的灵巧室内任务。这类机器人通过将复杂的人类指令分解为可执行的子任务，并独立或通过协调的双机器人系统解决它们，从而接近 L2 级水平。

向L3推进需要处理显著不同的任务类别并表现出强大的实时响应能力。最近的研究，如 π0.51，通过组合预训练（例如移动和非移动任务）部分解决了多样任务类别的问题，但其应用仍主要集中于环境泛化而非真正的任务多样性。因此，我们得出结论：当前的具身人工智能能力处于第 1 级和第 2 级之间。

我们识别出阻碍具身人工智能向 L3 及更高水平发展的四个关键挑战，覆盖了四个维度：

缺乏全面的联合模态能力。主流模型通常仅整合视觉和文本语言输入，输出仅限于动作空间。真正的具身智能需要全频谱多模态感知（例如，理解带有情感和情绪的人类语音；除了文本控制台和图像摄像头外，还需听取来自麦克风设备的环境音频输入）和多模态响应，包括实时语音反馈。缺乏这些模态不仅严重限制了具身智能体在应用中的多功能性，也阻碍了其对物理世界的透彻理解。

类人认知不足。现有机器人主要专注于实现特定任务的操作，未能充分解决更高层次的智能交互或细微沟通。完全能力的具身智能体必须在推理和会话智能方面表现出色，类似于复杂的聊天机器人，并展示出与人类偏好和伦理价值观的一致性。最终，对于 L5 级，智能体应表现出明显的类人认知行为和复杂的社会理解力，这仍是当前包括无监督、监督和强化学习在内的学习范式远未达到的目标。

有限的实时响应性。当前大多数具身人工智能系统以半双工模式运行：在行动前完全接收和处理指令，这使得它们在条件或指令快速变化的动态环境中表现挣扎。这一限制严重阻碍了其在实际世界的部署。

泛化能力受限。如上所述，近期的具身人工智能模型在跨环境泛化方面取得了实质性进展。然而，值得注意的是，当前模型在处理跨环境泛化场景方面仍存在诸多困难，一个典型的例子是对空间变换（例如相机角度）的不变性不足。必须解决这些问题才能达到更高水平。更重要的是，任务间泛化能力仍然不成熟，但对于实现真正的通用能力（L3+）至关重要。

4 L3∼L5：关键构成要素

在本节中，我们深入探讨源自其定义的 L3+ 级具身 AGI 的基本构成要素。我们分析研究界取得的最新进展，审视当前方法在达到更高水平时所面临的挑战，并提出弥合这些差距的潜在技术路径和设计选择。

Omnimodal capabilities。 L3–L5 级具身 AGI 的一个基本要求是其“通用性”，这只有通过超越视觉和语言的全面全模态能力才能实现。这是因为现实世界的应用常常需要理解听觉线索、人类语音的细微差别、触觉反馈、热感知等。此外，对于 L4 级及以上，掌握这些额外的模态对于获取和内化物理定律知识变得至关重要，而这可能是真正泛化能力的基础。

尽管双模态基础模型（如视觉-语言和音频-语言模型）已被广泛探索，三模态模型（例如视觉-语言-音频）最近也引起了相当大的兴趣，但为具身智能体整合更多模态（如动作和环境感知）在很大程度上仍是未知领域。

此外，当前模型面临两个关键挑战：

(1) 模态冲突，这对模型容量提出了高要求；

(2) 由模态特定模块和异构数据分布引起的级联错误和对齐问题。

为解决这些问题，未来模型需要：

(1) 并行理解-推理-生成架构（L3+），以有效控制模型容量带来的时间复杂度；

(2) 更先进的多模态预训练范式（特别是对于 L4+），以改进模态特定模块的协作或本质上支持多模态理解。

Humanoid cognitive behaviors。类人的认知行为在所有级别（L1–L5）都至关重要，因为

(1) 模仿人类神经大脑的基本学习机制1可能增强具身智能体的能力；

(2) 对自我和社会连接的类人理解能提升人机交互的质量。最终，L4+ 机器人应通过识别个体用户、理解情感语境、甚至发展自我认同感和社会纽带，无缝融入人类的日常生活。

我们认为以下四种能力是实现类人认知的核心（图 2）：

Self-awareness。正如认知科学1和哲学1所支持的那样，自我意识是高级认知功能的基础。具有自我意识的智能体能够更细致地理解其身份、时间连续性和目标。这种意识应是终身、动态和有状态的——而非像当前大多数 LLMs 那样静态编码在系统提示词中。

Social connection understanding。理解自己与他人或其他机器人之间的关系——以及他人之间的关系——是一种高阶认知能力。这种意识有助于人工智能系统理解其角色、责任和角色特征，增强其参与基于角色的交互的能力，尤其是在 L4+ 场景中。与自我意识类似，真正的社会连接理解也应是终身、动态和有状态的1。

Procedural memory。人类保持着对增量学习技能的、可扩展的记忆，称为程序性记忆。在人工智能中，这与克服领域偏移1和解决灾难性遗忘相关。配备程序性记忆的智能体能够随着时间的推移积累和完善技能。

Memory reconsolidation。当前大多数机器学习系统在训练后产生静态的模型检查点，不允许在部署期间进行进一步学习。相反，人类持续评估新信息的显著性，并根据时间、语境和经验更新知识——这种能力被称为记忆再巩固。对于具身 AGI，这种能力不仅对于减少再训练开销至关重要，而且对于实现长期适应和智能进化也至关重要。

上述大部分认知行为都与lifelong learning 密切相关。尽管近期研究强调了长上下文学习，但努力主要集中在扩展上下文窗口和优化位置编码上。相比之下，终身学习涉及无限的时间范围，其中模型在其参数内部持续更新其内部状态和记忆表征，而非依赖外部缓存。对身份、社会动态和情感语境的类人理解，是通过由长期记忆支持的终身经验学习而涌现的。因此，类人模型应采用类似的终身学习范式，通过主动、持续的交互，维持对自我、知识和外部环境的持续更新的内部表征。

Real-time interaction。实时响应性在几乎所有具身人工智能应用中都是必不可少的，特别是对于 L3 级及以上的通用智能体，它们必须适应动态的现实世界环境，并对快速变化的人类指令做出迅速响应。

目前，实时操作常常对模型大小施加限制；例如，GO-11 和 π0.51 等模型采用的 VLA 架构限制在 50 亿参数以内。

此外，实时的听觉和视觉交互通常使用TDM 方法实现。然而，当纳入更多模态时，这些方法会遇到可扩展性问题，因为计算复杂度随序列长度呈二次方增长。

工程导向的优化，如在 MiniCPM-o2 中实现的那些，部分缓解了这一瓶颈。然而，实现 L3+ 级的实时性能将需要专门设计的新范式来支持真正多路复用、全模态的处理。

Generalization to open-ended tasks。如第 3 节所述，当前的具身人工智能模型在跨环境泛化方面表现出显著能力，但在跨不同任务类别有效泛化方面仍然困难重重。

阻碍广泛考虑的无监督或多任务预训练方法解决任务间泛化问题的核心限制在于，它们对物理定律的内化不足，这限制了它们准确预测虚拟/想象动作结果的能力。

因此，模型常常过拟合于特定任务的线索，而非揭示潜在的可泛化原则。

开发超越简单模仿或生成的训练目标——例如物理交互的预测建模或因果推理——可以显著增强任务间泛化能力，并更好地为具身智能体应对开放、异构的任务做好准备。

5 L3+机器人概念框架

本节提出一个专为满足第2节所述L3+具身AGI开发需求而设计的概念框架。该框架由全模态模型结构及相应训练范式组成，能够潜在支持L3+能力的涌现。

5.1 模型结构

如第4节所述，L3-L5级具身AI模型结构的核心特征包括全面的模态融合和原生实时交互。理想情况下，在每个时间步t+1时，模型应基于时间步0...t内观测到的所有先前信息生成响应。具体而言，模型需联合处理多模态输入流（如音视频同步信号），并生成包括动作序列、连续语音、内部独白、思维链推理等多模态输出。

图3展示了示例架构，该结构支持全模态流式输入输出，可快速响应动态现实条件（如变化的人类指令、中断事件、环境扰动及先前动作的即时反馈）。此类架构的双模态原型案例为RQ-Transformer。

5.2 训练范式

图4展示了示例训练范式，详细说明各阶段所需数据、学习算法及里程碑目标。所引用算法均来自当前AI文献，未来可能被实现相似目标的创新方法替代。该范式的设计动机及组成部分如下：

从零开始的多模态训练。我们主张从零训练本质多模态模型，以促进深度跨模态对齐和全模态理解。关键研究方向包括开发有效的训练阶段及数据集编排方案，最大化跨模态交互并促进联合模态理解。

终身学习。受人类认知行为启发，我们建议突破传统"预训练→微调→部署"范式，转向终身持续学习框架（Fan等，2025；Zheng等，2025），整合主动学习（Bayer和Reuter，2024）及知识编辑（Wang等，2024c）等方法，用于多模态具身智能体。

面向物理的训练。为提升高级具身AGI所需开放任务场景的泛化能力，我们提出探索面向物理世界理解的训练范式。这些方法应大规模利用无监督或合成数据，并在学习目标中整合显式或隐式动作，使模型内化因果效应和物理规律。有前景的方向包括基于细粒度动作驱动的结果预测框架（Hu等，2024），以及广义世界模型（Garrido等，2024；Bar等，2024）的扩展应用，以覆盖更广泛的任务领域和交互动态。

6 结论与未来挑战

本文通过建立五级分类体系作为路线图，系统回顾了具身AGI的发展进程，评估了当前进展，识别了关键能力差距，并提出了概念框架。我们认为该路线图具有长期相关性，尽管机器人硬件、基础设施和机器学习的进步可能导致本文提出的框架作为实施策略发生演变、修改或替代。

我们的讨论基于具身AGI应展现类人智能行为的前提。因此，未来挑战不仅包含技术壁垒，还将涉及伦理安全考量及更广泛的社会影响——特别是人类、机器人及人机群体间的协作关系动态问题。

我们希望本文能为具身通用智能的未来发展提供有价值的见解，并激发更具建设性的讨论。

关于TsingtaoAI

TsingtaoAI通过对前沿先进具身机器人与协作机器人的算法和智能体开发，搭建面向自动化工厂的具身智能实训平台，可以让企业在实际大规模产线决策建设前，进行预研实训，以让企业获得更快接入超级AI工厂的能力。

TsingtaoAI基于PBL的项目式实训理念，自研基于DeepSeek的具身智能实训解决方案、LLM的AIGC应用开发实训平台、基于LLM大模型的AI通识素养课数字人助手、一站式机器学习/深度学习/大模型AI训练实训平台和基于大语言模型的AIGC案例学习平台，为央国企、上市公司、外资企业、政府部门和高校提供AI&具身智能实训道场建设服务。