小米汽车与小米具身智能团队联合发布MiMo-Embodied,这是首个成功打通自动驾驶与具身智能双领域的开源多模态基础模型。
该模型通过一套统一的架构和渐进式的四阶段训练策略,有效解决了室内机器人与室外自动驾驶车辆之间长期存在的域间隙问题。
在涵盖感知、规划、推理等维度的29个权威基准测试中,MiMo-Embodied不仅实现了对现有开源和闭源模型的全面超越,更证明了跨域学习能够实现能力的相互增强而非干扰。
统一架构弥合室内外的巨大鸿沟
长期以来,人工智能在物理世界的应用被割裂为两个互不干扰的平行宇宙。
一侧是具身智能,通常指代服务机器人。
它们工作在室内,环境相对封闭但非结构化,面对的是复杂的家居物品,核心任务是理解物体的功能属性,比如知道杯把手可以抓,椅子可以坐,并执行短程的物理交互。
另一侧是自动驾驶。
它们驰骋在室外,环境高度动态且结构化,面对的是车流、人流和交通规则,核心任务是高速运动中的环境感知和安全决策,比如判断前车意图、规划避让路径。
这两类场景的数据分布差异极大。
室内环境光照复杂、物体种类繁多但运动缓慢;室外环境空间开阔、物体类别相对固定但运动速度极快。
过去的技术路线通常是分别为这两个领域训练专用的视觉语言模型。具身模型不懂交通规则,驾驶模型不懂怎么叠衣服。
这种割裂带来了两个严重后果。一是模型缺乏通用的空间理解能力,无法在不同场景间迁移。二是研发资源分散,难以利用大规模数据进行联合预训练。
小米MiMo-Embodied没有设计两套系统,而是构建了一个统一的大脑。
这个大脑的核心架构简洁而高效。它采用了基于MiMo-VL改进的设计,主要由三个部分组成:视觉编码器、投影器和大型语言模型。
视觉编码器负责看。
它能够处理单张图像、多张图像以及连续的视频流。对于自动驾驶这种需要极高反应速度和细节捕捉的任务,高分辨率的视觉输入至关重要。
MiMo-Embodied沿用了经过验证的视觉编码器,利用自注意力机制从像素中提取出关键特征,无论是路边的交通标志还是桌上的小药瓶,都能被转化为计算机可理解的视觉信号。
投影器负责翻译。
视觉信号和语言信号在底层表示上是不同的。投影器通过多层感知机,将高维的视觉特征映射到与语言模型对齐的潜在空间。这就像是将眼睛看到的画面翻译成语言中枢能听懂的代码,确保视觉信息在传输过程中不丢失本质特征。
大型语言模型负责思考。
作为整个系统的大脑,它接收经过处理的视觉信号和文本指令,启动推理过程。它不仅能回答“这是什么”,还能解释“为什么这么做”以及规划“接下来怎么做”。
这种统一架构的设计哲学在于,无论是机器人抓取物体,还是汽车规避行人,底层逻辑都是对物理世界的感知、理解和预测。
只要数据足够丰富,训练策略得当,一个模型完全可以同时掌握这两项技能,甚至让它们互相促进。
构建跨越三个维度的全能知识库
为了训练这样一个全能模型,单纯的数据堆砌是无效的。
小米团队构建了一个结构严谨、覆盖广泛的混合数据集,分为通用基础、具身智能和自动驾驶三个维度。
通用数据集是模型的基石。
它源自MiMo-VL的训练语料,目的是让模型具备基础的认知能力。
这里面包含了视觉定位数据,让模型学会把图像中的物体和文字描述对应起来;包含了文档与图表理解数据,培养模型对结构化信息的处理能力和OCR文字识别能力;包含了视频理解材料,支持模型进行时间维度上的推理;还包含了涉及数学和科学的多模态推理数据,锻炼模型的逻辑思维。
没有这些通用知识,模型就像一个只有肌肉没有常识的莽夫。
具身智能数据集则专注于让模型学会如何与物体互动。
这里面有一个非常关键的概念叫做“可供性”(Affordance)。
简单来说,就是物体能提供什么功能。一个杯子,不仅是圆柱体,更是“可以盛水”和“可以被握持”的器具。
为了教会模型这一点,数据集整合了PixMo-Points等资源,通过“指向性对象计数”和“指向性视觉解释”等任务,训练模型将语言指令精确对应到物体的具体部位。
除了认识物体,还得会干活。
高层任务规划数据利用了Cosmos-Reason1等资源,特别是引入了由DeepSeek-R1生成的推理链。
这些数据不只是简单的视频描述,而是包含了复杂的因果逻辑。比如视频里一个人在拿茶杯,模型需要推断出他接下来可能要倒水,而不是要把杯子扔掉。
空间理解数据则解决了“在哪”的问题。
通过在相机坐标系中回归3D框,模型学会了在三维空间中定位物体,理解前后左右的空间关系,这对于机器人在混乱的房间里移动至关重要。
自动驾驶数据集聚焦于高速动态场景下的生存法则。
环境感知数据涵盖了全景和局部视角。
既有对整体交通场景的描述,也有对长尾场景(Corner Cases)的深度分析。比如路边突然出现的一只狗,或者一个倒扣在路中间的锥桶,这些罕见但危险的情况被专门标注出来,用于训练模型的应急感知能力。
状态预测数据教模型学会预判。
利用DriveLM等数据集,模型学习基于历史运动轨迹来预测其他车辆或行人的未来行为。那辆在路口犹豫的车是不是要变道?那个站在斑马线边的人会不会突然冲出来?这些都需要模型具备极强的时间序列预测能力。
驾驶规划数据则是关于决策。
它不仅要求模型输出加速、减速或转向的指令,更要求模型给出理由。DriveLM和NuInstruct等数据集提供了丰富的驾驶推理样本,确保模型的每一个操作都符合交通规则且具备可解释性。
这三个维度的数据集,就像是通识课、专业课和实操课的教材,共同构成了MiMo-Embodied庞大的知识体系。
像人类学习一样的四阶段渐进式训练
拥有了教材,还需要科学的教学方法。如果一股脑地把所有数据丢给模型,很容易导致模型消化不良,甚至出现灾难性遗忘。
小米团队采用了一种渐进式课程学习策略,分四个阶段循序渐进地训练模型。
第一阶段是具身智能监督微调。
这一阶段的目标是打基础。模型在通用数据和具身数据上进行混合训练。重点是建立核心的视觉语言理解能力和具身推理能力。
模型开始学习如何从像素中识别出细粒度的对象,如何理解空间关系。这时候的模型,更像是一个在室内学习生活技能的学生,它学会了什么是把手,什么是盖子,什么是“放在桌子左边”。
第二阶段是自动驾驶监督微调。
在具备了基础的空间和物理理解后,模型开始接触更复杂的自动驾驶数据。
这一阶段引入了密集的驾驶专用样本。重点在于培养对动态环境的理解能力。模型需要处理多视角的空间推理,保证视频序列在时间上的一致性。
它开始学习识别危险对象,预测其他车辆的意图,理解复杂的道路几何结构。这时候的模型,走出了房间,开始在繁忙的街道上学习驾驶。
第三阶段是思维链推理监督微调。
这是提升模型智商的关键一步。在复杂的场景下,直觉反应往往不够准确。
这一阶段引入了包含显式推理链的数据。对于具身任务,模型要学会分析物体的可供性和空间约束;对于驾驶任务,模型要学会评估风险和论证轨迹。
模型不再只是输出一个结果,而是要学会拆解问题。
比如在驾驶时,它不能只说“减速”,而要思考:“前方红灯亮起 -> 距离停止线还有50米 -> 当前车速60 -> 需要平缓刹车 -> 输出减速指令”。
这种显式的推理训练,极大地提升了模型处理复杂多步任务的能力,也增加了决策的透明度。
第四阶段是强化学习微调。
这是最后的精修环节。利用组相对策略优化(GRPO)算法,模型针对特定的任务进行针对性优化。
对于多选推理任务,奖励基于答案是否匹配;对于空间定位任务,奖励基于预测框的精准度。
这一阶段特别关注之前训练中发现的失败案例和长尾问题。通过不断的试错和反馈,模型的输出变得更加精确和鲁棒,就像是一个已经学会技能的实习生,通过大量的模拟练习,最终成为熟练的专家。
消融实验的结果完美验证了这套策略的有效性。
如果只用具身数据训练,模型在自动驾驶任务上表现平平;如果只用驾驶数据训练,模型在具身任务上能力骤降;如果简单粗暴地混合训练,虽然具身能力提升了,但自动驾驶能力反而受损。
这套四阶段的渐进式策略,让MiMo-Embodied在具身任务上提升了4%的性能,在自动驾驶任务上提升了8.1%的性能,真正实现了鱼和熊掌兼得。
在两大领域全面领跑的实战成绩
MiMo-Embodied在29个基准测试中交出了一份令人信服的答卷。
在具身智能领域,它的表现堪称惊艳。
可供性预测是机器人操作的基础。在VABench-Point基准测试中,MiMo-Embodied的得分为46.93,而专用的RoboBrain-2.0模型仅得26.67分。
这个巨大的分差意味着,当用户发出“抓住那个杯子”的指令时,MiMo-Embodied能更准确地识别出杯子的位置和最佳抓取点。
任务规划考验的是逻辑思维。在RoboVQA基准上,MiMo-Embodied得分为61.99,显著优于其他模型。这表明它具备强大的因果推断能力,能够根据当前的场景,合理规划出一系列动作序列来完成复杂任务。
空间理解是连接数字与物理世界的桥梁。在CV-Bench综合空间智能评测中,MiMo-Embodied以88.82的高分位居榜首,证明了它对3D空间关系有着深刻的洞察力。
在自动驾驶领域,它的表现同样稳健。
长尾场景是自动驾驶的噩梦。在CODA-LM评测中,MiMo-Embodied得分为58.55,不仅超越了通用的GPT-4o,也击败了专用的RoboTron-Drive模型。
这意味着在面对路面上出现的奇形怪状的障碍物或突发情况时,它能更准确地识别并做出反应。
在规划推理任务中,LingoQA和NuInstruct基准上的高分(69.90和83.58)证明,它不仅是一个老司机,还是一个能把道理讲清楚的教练。它能生成符合交通逻辑的解释,让乘客知道为什么现在要停车,为什么现在要变道。
除了枯燥的分数,定性评估的结果更加直观。
在家庭导航任务中,当接到“我想睡觉”这样模糊的指令时,模型需要先理解这意味着要去卧室找床。
对比GPT-4o和RoboBrain-2.0,MiMo-Embodied定位的蓝点(目标位置)总是精准地落在床的中心。
当指令是“给书房的植物浇水”时,它能准确识别出画面中的多个花盆,而其他模型往往会漏掉或者定位偏离。
在机械臂操作任务中,细节决定成败。MiMo-Embodied能清晰区分锅盖和勺柄的不同抓取部位。
面对“抓取第一排左起第三个橙子放在底层橙子之间”这样包含复杂计数和空间关系的指令,它也能准确执行,没有丝毫混淆。
在自动驾驶轨迹规划的实战中,MiMo-Embodied展示了其强大的端到端能力。
在NAVSIM公开基准测试中,它的综合评分高达91.0。
定性结果显示,在路口左转时,它能平滑地避开对向来车;在弯道行驶时,它能保持在车道中央;在需要借道超车时,它能果断地识别空档并完成变道。
值得一提的是,MiMo-Embodied在处理视频输入时采用了3D卷积技术,而不是简单地将视频切成图片块。
这种技术选择虽然增加了计算的复杂性,但极大地保留了时空上下文信息,这对于判断车辆速度和预测动态轨迹至关重要。
MiMo-Embodied证明了通用的物理世界模型是可行的。
我们不需要为每一个具体的任务单独训练一个大脑。通过合理的架构设计和训练策略,一个统一的模型完全可以理解复杂的物理规则,无论是操纵室内的微小物体,还是驾驶室外的高速车辆。
参考资料:
https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B
https://arxiv.org/abs/2511.16518
END