衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
你斥巨资买回家的全能家务机器人,正在执行“把药片拿给奶奶”的任务。
它在大脑里推理得有条有理:“奶奶在沙发上,药在茶几,我要先去茶几那……”
结果站在茶几前的它,对着上面的半瓶可乐陷入了沉思。
短暂的停顿之后,机械臂伸出,抓起了遥控器。
恭喜你!你家的具身机器人翻车了。
其实,“一旦被扔进物理世界做任务,智商立刻欠费”是具身智能机器人当下的尴尬现状。
因为缺乏对三维物理空间的感知,模型无法像人类一样建立空间坐标系,无法记住刚刚转身后背对着的物体,也无法判断目标是否仍然存在于空间中。
这种“脑子学会了,手跟不上”的现象,本质上是因为现有的大模型大多是“缸中之脑”,它们只见过二维的图片和文本,从未真正理解过物理世界的深度与连续性。
现在,阿里达摩院出手了。
今天,达摩院开源了RynnBrain具身大脑基础模型,从2B到30B,全系列共计7个。
这是业界首个拥有时空记忆的具身大脑基础模型,其最大的特点是给具身机器人装上了一个能理解“时”与“空”的大脑:它不仅能看懂现在的画面,还能记住过去的轨迹,甚至预判未来的动作。
在20项具身Benchmark上,RynnBrain全面超越了英伟达的Cosmos-reason2和谷歌的Gemini Robotics ER 1.5等顶尖模型,轻松实现16个SOTA。
达摩院这次算是开了个好头。
技术探索一旦有了苗头,就不怕等不来雪球效应,到了全能家务机器人真正能进咱家门的时候……应该就不会翻车了吧?
RynnBrain,首个拥有时空记忆的具身大脑基础模型
RynnBrain的核心优势可以用“小而美”形容。
RynnBrain-30B-A3B作为首个MoE架构的具身基础模型,展现了极致的效率美学:
仅需3B的推理激活参数,性能却超越了72B规模的Pelican-VL(当前规模最大的具身基础模型)。
对于机器人这种对端侧算力、功耗极其敏感的设备来说,激活参数越小,意味着响应速度越快,硬件成本越低,落地的可能性就越大。
达摩院表示,RynnBrain是在Qwen3-VL的基础上进行训练。
为了解决大模型训练慢、成本高的问题,达摩院团队在RynnBrain中使用了自研的RynnScale架构。
这套架构对Dense模型和MoE模型都进行了深度的训练速度优化,使得在同等计算资源下,训练速度直接提升至200%。
所以RynnBrain不仅跑得快,迭代进化的速度也比别人快,单位时间内可完成更多实验轮次。
当然,模型好不好,数据是关键。
为了训练这个大脑,达摩院准备了超过2000万对的高质量语料。这些数据经过了精心的设计和清洗。
首先,团队复用了自研Video-Llama 3视频大模型的通用多模态训练数据,并融合了LLaVA-OV-SI、LLaVA-Video等开源视频问答数据,打好了底座。
其次,为了增强具身认知,他们引入了物体认知、空间认知和计数相关的数据。
这里有一个很有意思的细节:团队自己生成了100万对“自我为中心”的OCR问答数据。
为什么要强调“自我为中心”?
因为机器人眼中看到的世界是随着移动不断晃动的画面,是近大远小的透视。
加入OCR数据能让机器人看懂药瓶上的标签、门牌上的数字,对解决实际任务很有帮助。
在输入输出端,RynnBrain也做到了极致的灵活。
输入端,它可以接受任意分辨率的图片、多图和视频输入。
无论是高清的摄像头画面,还是模糊的监控截图,它都能处理——这满足了用户在不同场景、不同硬件条件下的视觉输入需求。
下面这个视频,就展示了RynnBrain能够根据观察物品的文字标签,选出符合人类想要的物品。
输出端,它有很强的多模态输出能力。
RynnBrain可以输出区域、轨迹、点集、夹爪位姿、文本等多种具身相关的模态。
它不仅能告诉你“那个苹果在桌子上”,还能直接告诉机械臂“把爪子移动到坐标(x,y,z),以30度的角度抓取”,为后续导航、规划与操作任务提供统一的认知接口。
这些设计共同构成了RynnBrain作为“具身大脑”的基本形态。
有时空记忆,懂物理空间推理,拓展性良好
回到我们开头假设的场景,一个问题摆在眼前:为什么现有的VLM(视觉语言模型)在做具身大脑时经常翻车?
核心原因是它们缺乏对物理世界的深刻理解。
它们能识别图片里的猫,但不知道这只猫在三维空间里的位置,更不知道当你转身后,家里的小猫还在不在猫窝里(此处很难不发出喵喵叫的声音.mp3)。
达摩院具身智能实验室的相关研究人员告诉量子位,之所以把RynnBrain定位为“具身基础模型”,是因为它针对性地提出了三个相互耦合的关键能力点。
第一,它拥有了“时空记忆”。
传统的模型往往是“健忘”的,处理视频时也是一帧一帧地看,看完了就忘。
而RynnBrain能够在其完整的历史记忆中定位物体、目标区域,甚至预测运动轨迹。
这就赋予了机器人一种“全局时空回溯能力”。
想象一下,机器人在厨房里忙活。它先在水槽边洗了菜,然后转身去冰箱拿肉。在普通模型眼里,转身的那一刻,水槽和菜就“消失”了。
但对于RynnBrain来说,它的大脑里构建了一个涵盖空间、位置、事件、轨迹的多维度表征。
它清楚地记得水槽在身后的哪个方位,刚才洗好的菜放在了水槽的左边还是右边。
这种能力对于长程任务至关重要。
比如“把药拿给奶奶”这个任务,中间可能被打断,可能需要绕过障碍物。
RynnBrain拥有时空记忆,所以任务中途哪怕发生插曲,也都还能准确地找回之前的任务断点,继续执行。
第二,它掌握了“物理空间推理”。
RynnBrain采用了一种全新的“文本与空间定位交错”的推理策略。
推理过程中,模型不仅生成语言判断,还会同步给出对应的空间指向信息。
它的推理过程是这样的:“首先走向[桌子](对应视频帧中的区域坐标),然后伸出手对准[苹果](对应物体的边界框),避开旁边的[水杯](对应障碍物的点集)……”
这种推理方式,就像是人类在指挥别人干活时,一边说话一边用手指指点点,具身模型理解指令时就更简单、更轻松。
推理与定位被强制绑定,推理结果天然受到物理世界约束,能够大幅降低具身任务中常见的幻觉问题。
在具体实现上,达摩院围绕计数、物体定位、操作点定位、区域定位和轨迹预测等任务构建了系统化的数据与评测流程。
尤其在计数任务中,强调“先定位再计数”,显著提升了复杂场景下的稳定性。
第三,它展现了良好的可拓展性。
RynnBrain不仅仅是一个好用的模型,更是一个强大的基座。
达摩院团队在RynnBrain基础模型上,微调了视觉语言导航和精准操作规划模型,结果令人惊喜。
在导航任务中,他们使用了SOTA模型StreamVLN的训练数据对RynnBrain进行微调。
在没有任何架构改进的情况下,RynnBrain-Nav的导航成功率比StreamVLN直接提高了2%-3%。
如果把RynnBrain作为基础模型,利用相同数据训练,能让微调出的导航模型能力提升5%。
在操作规划任务中,仅使用几百条数据微调后,RynnBrain-Plan-30B(A3B)就在域内和域外的任务上全面超越了Gemini 3 Pro。
咱就是说,RynnBrain在预训练阶段打下的底子确实非常厚实。
从模型开源到生态补齐,达摩院系统性修复具身认知断层
具身智能发展至今,仍面临数字世界(二维、离散)与物理世界(三维、高熵)之间的巨大断层。
为了跨越这个断层,业界目前主要在探索两条路径。
一是从通用VLM演化,优势是泛化强,劣势是操作精度弱。
二是从动作策略(VLA)切入,优势是执行准,劣势是数据稀缺、换场即废。
达摩院团队透露,他们从第一性原理、泛化性角度以及工程化实践三个维度出发,深入思考后,倾向于采用“大小脑分层架构”。
以RynnBrain为代表的“大脑”负责长程规划、场景理解与时空记忆;执行层“小脑”则专注电机控制与动作执行。
这一架构在理论上更有利于泛化,在工程上也更便于模块化迭代。
这套架构的加持下,面对“把3个面包装到2个盘子里”这种任务,拥有长程规划和空间规划能力的具身机器人就有自己的机智解法。
请看大屏幕:
虽然项目作者直言两种路线目前尚未收敛,也难言好坏优劣之分,但RynnBrain的出现,首次为这种分层架构提供了可直接落地的大脑层实现。
说到这儿,大家可以问那个问题了:开源不?
开,而且是全方面开。
此次达摩院不仅开源了RynnBrain模型,还配套开放了完整的推理训练代码、以及包含22项细粒度指标的全新评测基准RynnBrain-Bench。
该测试涵盖物体认知、空间认知、物体定位及具身点预测四大维度,侧重考察模型对视频序列的理解与时空定位能力。
通过开源这一大脑底座,开发者能直接在公认的基础设施上进行二次开发,将精力转向硬件优化或垂直场景应用。
这里想就两个点展开说几句。
一来,“通过RynnBrain补齐大脑的物理常识,再通过开源把这套常识变成行业的公共基础设施”这个动作,让达摩院“想做具身生态的建设者”这事儿藏不住了。
二来,此次开源RynnBrain,发布RynnBrain-Bench等一系列动作,降低了困扰行业的三大门槛,意义深远。
第一道是研发门槛,告别重复造轮子。
以往每家公司都需自行训练模型让机器人理解“左边”或“障碍物”,现在RynnBrain将这些物理常识打包成公共基础设施,随拿随用。
第二道是系统门槛,解决认知状态不共享的顽疾。
在RynnBrain的统一表征下,导航、规划与操作模块对物理世界的理解达成一致,信息的无损流转极大地提升了系统整体效率。
第三道是协作门槛。
RynnBrain-Bench提供了一把统一的标尺,让不同团队能在相同的参照系下评估模型能力,驱动行业良性竞争。
跳出模型本身来看,达摩院在具身智能这边,路线已经相对清晰了。
用最简单易懂的话说,他们在赌。
赌具身智能的未来不是一家独大,而是百花齐放;赌通用的物理世界认知,是所有机器人走向实用的必经之路。
毕竟具身智能最终拼的,不是参数规模或Demo视觉效果。
咱们期待的是机器人有朝一日能丝滑可靠地推开通往物理世界的大门。
现在,这扇通往真实世界的大门已经被RynnBrain推开了一条缝。剩下的,就看这个被激活的生态,能在这条路上跑出怎样的惊喜了。
GitHub:
https://github.com/alibaba-damo-academy/RynnBrain
抱抱脸:
https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
项目主页:
https://alibaba-damo-academy.github.io/RynnBrain.github.io/