首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析
创始人
2025-09-29 16:17:59
0

机器之心发布

机器之心编辑部

为具身智能行业提供了一个可复用、可扩展的通用基座,同时开源训练数据集。

今天,北京智源人工智能研究院(BAAI)正式开源 RoboBrain-X0,一个能够在零样本泛化、轻量微调条件下,驱动多种不同真实机器人完成复杂任务的具身智能基座大模型。其核心突破在于:用统一的动作空间与分层任务拆解,实现了「一个基座模型,N种身体」,为通用具身智能提供一条切实可行的路径。

RoboBrain-X0 源自 RoboBrain 的多模态基座能力,在 RoboBrain 2.0 数据基础上,进一步融合了真实机器人动作数据。通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。

据智源团队公开的评测,RoboBrain-X0 在多个主流机器人本体上的真机实验显示:

  • 零样本迁移能力突出:仅靠统一预训练,模型即能在不同本体完成pick&place等任务,指令跟随与场景切换表现稳定。
  • 小样本微调效应显著:在每个任务/域仅提供50条样本的微调情况下,RoboBrain-X0 的泛化表现已超过行业主流基线(如π0),尤其在混合本体、复杂场景下,少量微调即可具备针对复杂目标任务的拆解和执行能力,展现出远高于传统模型的数据效率和迁移性。
  • 控制一致性强:不同本体在执行同一高层任务时,生成的动作原语序列高度一致,实际物理执行表现可靠。

这些结果意味着,RoboBrain-X0 不仅是理论上的「通用基座」,而且已在工程实践中迈出了从单点突破到规模化落地的关键一步。

作为新一代跨本体基座大模型,RoboBrain-X0 突破对单一机器人体系的依赖,实现异构本体统一建模,并具备实用级 zero-shot pick&place 泛化能力与轻量微调下的复杂任务拆解能力。

  • RoboBrain-X0 Github 地址:
  • https://github.com/FlagOpen/RoboBrain-X0
  • RoboBrain-X0多芯片版本地址FlagRelease:
  • https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS
  • 核心训练数据集:
  • https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset
  • RoboBrain 2.0 技术文档:
  • https://arxiv.org/abs/2507.02029

本体泛化困境:

通用具身智能的核心阻碍

随着机器人逐步走出实验室,走进家庭、工厂、公共空间,行业也面临着一个日益突出的难题:尽管模型在单一机器人上的能力日新月异,但这种智能却像一座座孤岛,难以迁移和扩展。

问题的根源在于,当前主流模型普遍采用在单一本体上端到端训练的范式。然而,不同品牌、不同结构的机器人,其动作空间、自由度和动力学特性千差万别,导致模型的智能被其物理载体(Embodiment)牢牢「锁死」。

即便有了一个很好的具身大脑模型,每适配一种新硬件,都需要重新收集数据进行微调,更深层次上,这种模式还造成了严重的数据壁垒,不同本体间的数据难以复用,难以形成类似大语言模型领域的「数据飞轮」效应。

打破「本体枷锁」,让智能在不同物理形态间无缝流转,已成为整个领域从单点炫技迈向全面普惠的决定性关隘。

实现「语义一致、控制一致、执行一致」

三层对齐

面对这一制约,智源研究团队的思路是,将一个高度依赖硬件的控制问题,转化为了一个本体无关、直接描述物理世界交互的目标问题。

第一步,是统一「动作空间」

RoboBrain-X0 将不同类型机器人(无论是机械臂、移动底盘还是双臂系统)的控制信号,全部映射到同一个动作空间,即末端执行器(End-Effector,EE)在三维空间中的位姿(位置与姿态)。这一抽象方式,直接跨越了各类机器人在自由度、结构定义上的巨大差异,无论底层关节、驱动方式如何变化,所有本体在 RoboBrain-X0 看来,都在用同一种「动作语言」进行感知、学习与协作。

其次,是离散化「动作词汇」

智源团队进一步引入「动作Tokenizer」机制,将原本连续且高维的物理操作轨迹,离散成一组可迁移的动作原语token。这些token基于分组残差量化(GRVQ),分别对位置、旋转、夹爪等多个维度进行压缩和抽象。这样,原本冗长复杂的控制指令被浓缩为简明的token序列,模型能够用更少的计算资源表达长时序行为,大幅提升训练与推理效率,并增强了长时控制的稳定性。

最终,RoboBrain-X0 实现了跨本体的知识和能力共享

机械臂、移动底盘、双臂系统等不同本体都能共享同一套操作原语,模型可以在不同类型机器人采集的数据上进行「混合本体数据训练」,并从中抽取出具备普适性的物理知识与操作策略。过去难以迁移的跨本体能力,如今有了工程化落地的可能。

分层规划与推理:

让「意图到动作」可泛化、可迁移

RoboBrain-X0 的另一项关键创新,是将「语言到动作」这一长期困扰具身智能的难题,拆解为分层、可解释的推理链路。通过模拟人类的分步决策过程,让复杂任务的理解与执行变得更加高效、易于泛化。

  1. 高层:意图解析与任务分解。模型首先读取自然语言指令(如「把苹果放进篮子里」),理解整体目标,并自动分解为一系列语义明确的子任务(如「找到苹果」「拿起苹果」「放进篮子」)。
  2. 中层:动作原语推理。每个子任务进一步被转化为动作原语token序列。这些token代表「接近」、「抓取」、「放置」等可迁移的基础操作,成为具身智能跨本体泛化的关键「词汇」。
  3. 底层:控制信号解码。最终,动作原语token被解码为具体的底层控制信号,如增量末端位姿和夹爪开合指令。这一层将抽象的意图转化为各类本体可直接执行的物理操作。

在训练阶段,团队采用分阶段、多模态的数据策略:

  • 第一步,通过大规模视频+语言数据(无动作配对)强化模型的空间理解与语义规划能力;
  • 第二步,逐步引入动作轨迹配对数据,建立从任务语义到物理控制的精准映射;
  • 第三步,针对遮挡、干扰、新物体等现实难题,用小样本微调实现定向强化与快速适应。

推理时,模型同样先完成高层的任务拆解与子任务链生成,再通过动作Tokenizer,将抽象的动作序列稳定映射为不同本体可执行的控制信号。每一级推理都受到专门的数据监督和一致性约束,确保模型在异构机器人、复杂场景下都能输出语义一致、行为稳定的策略。 这一机制不仅极大提升了模型的泛化能力,也大幅缩短了新任务、新环境的适应周期。

不止模型,

同步开源核心训练数据集

RoboBrain-X0 卓越跨本体能力的背后,是坚实的数据基础。伴随此次模型开源,智源同步向全球开放了其核心训练数据集 RoboBrain-X0-Dataset。

该数据集的构建,旨在系统性地赋予模型两大核心能力:

  • 从通用感知到具身理解的数据:这一部分旨在让模型「看懂」并「思考」物理世界。它在传统的视觉问答(VQA)与推理数据之上,大量扩展了与物理交互强相关的任务,如物体 affordance 查询(物体可以被如何操作)、轨迹生成和动作规划。这些数据由开源成果与真实机器人采集共同组成,帮助 RoboBrain-X0 建立起从通用视觉语言到特定具身场景空间理解的桥梁。
  • 从多样化动作到泛化技能的数据:这是实现跨本体泛化的核心。智源团队整合了多源数据,形成了一个层次丰富的动作知识库。首先,它引入了如 Agibot World 等高质量的开源动作数据作为基础。其次,团队通过与松灵、星海图等厂商深度合作,同时结合自采,构建了一套体系化的真实数据采集与标注流程。这批数据不仅包含了直接的「指令-动作」对,还创新性地加入了「指令-子任务推理-动作」的样本,专门用于训练模型的长程任务分解、进度感知与动态决策能力。

该数据集的开源不仅在于提供数据本身,「所有数据均经过统一格式化与严格的质量控制,供研究者开箱即用」,智源团队表示,「同时,我们也希望为社区提供一个可复现、可比较的跨设备评测基准,帮助推动具身方法论的快速迭代与对齐,最终加速具身智能技术从实验室走向产业应用的进程」。

实验结果

为全面检验 RoboBrain-X0 的泛化能力与实际效能,智源研究团队在权威的 Libero 仿真平台和真实的机器人硬件上进行了一系列严格的评测,主要与当前业界领先的 π0-fast 和 π0 进行了比较。结果表明,RoboBrain-X0 不仅在理论性能上取得突破,更在真实世界应用中展现出显著优势。

在 Libero 仿真评测中,RoboBrain-X0 在空间理解(Spatial)、物体交互(Object)、目标导向(Goal)和长程任务(Long)等所有关键维度上,其性能均超越了其他模型,综合成功率高达 96.3%,位列第一。

Libero仿真评测结果

更为关键的是,在更具挑战性的真机评测中,RoboBrain-X0 的总体成功率达到了 48.9%,几乎是基线模型 π0(19.8%)的 2.5 倍。特别是在基础抓放任务中,RoboBrain-X0 甚至实现了 100% 的成功率。

真机评测结果,在空间关系理解(任务1)、基础抓放(任务2)、类别泛化(任务3)、多目标处理(任务4)任务上全面超越π0

这些数据证明,RoboBrain-X0 所采用的跨本体通用架构,能够有效将抽象的「任务意图」转化为精准的物理动作,其零样本泛化能力并非停留在模拟层面,而是在复杂的真实物理世界中稳定、可靠,为具身智能从实验室走向产业化落地奠定了坚实的基础。

迈向「一个基座,N种身体」的新时代

RoboBrain-X0 在工程层面实现了基于一个统一的预训练基座,在零微调条件下驱动多种异构真实机器人完成复杂任务。

RoboBrain-X0 的开源,不仅为全球具身智能行业提供了一个可复用、可扩展的通用基座,也为智能机器人规模化落地打开了新局面。

对开发者和学术界而言,研发重心将从底层的重复造轮子,转向高层的创新与应用;对于产业链,机器人产品的智能能力将像安装APP一样实现快速适配,并能基于通用基座持续拓展;数据资产也将在更大范围内流动和增值,促进软硬件解耦和生态繁荣。

当然,通用具身智能的终极目标仍然遥远。RoboBrain-X0 在复杂人机交互、动态环境理解、自主学习等方向还需持续进化。但通过统一动作空间和分层推理框架的落地,「一个大脑,多种身体」已从愿景变为现实的工程起点。

正如团队所言:「我们希望 RoboBrain-X0 能成为连接不同身体、不同环境、不同任务的通用智能枢纽。」

从今天起,全球「具身智能基座」的竞赛,或许才刚刚开始。

相关内容

最新资讯

小质讲堂第20期:9月1日起,... 荆楚网(湖北日报网)讯(记者薛培恺 通讯员刘书恒)小质讲堂,让质量科普流行起来!欢迎大家收看本期节目...
敲响法治“预备铃” 通城一中开... 荆楚网(湖北日报网)讯(记者 周梦伊 通讯员 魏刚)金秋九月,为进一步强化校园法治安全教育,切实增强...
上海专家“千里送课” 赋能夷陵... 中新网湖北新闻9月29日电 (赵俊华)近日,湖北省宜昌市夷陵区委党校报告厅内掌声阵阵,上海交通大学教...
资助贫困学生出国研学?华东理工... 选择一个大学,很多人第一问不是看它有多美,而是:毕业后能不能扎实就业?能不能在国际舞台上有更多可能?...
国风书法温暖旅客,北京北站送上... 在国庆与中秋双节即将来临之际,北京北站的候车室内洋溢着浓厚的节日氛围。9月29日上午,车站举办了一场...
这份国庆档观影指南,请收好! 国庆假期即将开启,影院里也热闹非凡。从气壮山河的热血史诗到温馨治愈的家庭喜剧,从脑洞大开的奇幻冒险到...
25秋新版三年级上册数学同步计... 今天要分享的25 秋新三年级上册数学同步计算每日一练,内容超丰富。有口算练习,涵盖整数乘除、分数加减...
电视剧《我们的河山》创作座谈会... 齐鲁网·闪电新闻9月29日讯 电视剧《我们的河山》创作座谈会今天在北京举行,演员焦俊艳在发言中谈到自...
震裕科技涨6.03%,开源证券... 今日震裕科技(300953)涨6.03%,收盘报179.95元。 2025年8月28日,开源证券研究...