小米发布并开源首代机器VLA大模型!刷新多项SOTA
创始人
2026-02-12 18:23:09
0

快科技2月12日消息,小米正式发布并开源首代机器人VLA大模型——Xiaomi-Robotics-0。

该模型拥有47亿参数,核心解决了传统VLA模型推理延迟、真机动作不连贯的行业痛点,兼具视觉语言理解与高性能实时执行能力,可在消费级显卡上实现实时推理,在仿真测试和真机任务中均刷新多项SOTA成绩。

Xiaomi-Robotics-0采用Mixture-of-Transformers(MoT)混合架构,通过“视觉语言大脑+动作执行小脑”的组合,实现感知、决策、执行的高效闭环,兼顾通用理解与精细动作控制。

视觉语言大脑(VLM):以多模态VLM大模型为底座,能精准理解人类模糊自然指令,同时捕捉高清视觉输入中的空间关系,是模型的“决策核心”;

动作执行小脑(Action Expert):嵌入多层Diffusion Transformer(DiT),不直接输出单一动作,而是生成高频、平滑的“动作块”,并通过流匹配技术保障动作精准度,让机器人动作更具物理灵活性。

为避免模型学动作丢失基础理解能力,小米设计了跨模态预训练+后训练的两阶段训练方法,让模型既懂常识又精通体力活。

跨模态预训练:先通过多模态与动作数据混合训练,引入Action Proposal机制让VLM的特征空间与动作空间对齐;再冻结VLM专注训练DiT,使其从噪声中恢复精准动作序列,保障动作的平滑性;

后训练:这是解锁物理智能的核心,采用异步推理模式从机制上解决真机“动作断层”问题;同时引入Clean Action Prefix保障动作轨迹时间连续性,通过Λ-shape Attention Mask让模型聚焦当前视觉反馈、摆脱历史惯性,大幅提升机器人对环境突发变化的响应能力。

实测该模型在多维度测试中均展现出行业领先水平,实现“仿真通、真机强、多模态能力不丢失”的突破。

仿真测试:在LIBERO、CALVIN、SimplerEnv三大主流仿真测试的所有Benchmark中,对比30种现有模型均取得当前最优结果;

真机任务:在双臂机器人平台部署后,面对积木拆解、叠毛巾等长周期、高难度任务,展现出极高的手眼协调性,能灵活处理刚性积木和柔性织物等不同材质物体;

多模态能力:保留了VLM本身的物体检测、视觉问答、逻辑推理等能力,在具身相关基准测试中表现优异,弥补了传统VLA模型重动作、轻理解的短板。

小米已将Xiaomi-Robotics-0的技术主页、开源代码、模型权重全量开放,相关资源可分别在GitHub、Hugging Face等平台获取,为全球具身智能领域的开发者和研究机构提供免费技术支持。

相关内容

最新资讯

凤凰晚报|比“新闻女王”硬核!... 今日人物【比“新闻女王”还硬核!香港女记者转身成总督察,曾专门打击电诈】近日,香港一起1989年的谋...
国民党副主席张荣恭:共同推动两... 在国共两党智库论坛结束后,就进一步落实论坛达成的共同意见,中国国民党副主席张荣恭接受了总台记者的专访...
莱芜农商银行辛兴分理处:银行小... 鲁网2月10日讯为扎实推进金融知识普及从娃娃抓起,帮助幼儿树立正确的金钱观和财富观,近日,莱芜农商银...
三大指数集体收涨,11只基金单... 2月12日,三大指数集体收涨,大小指数分化。板块来看,算力产业链集体爆发,算力租赁、CPO、算力芯片...
2026广东3+证书高职高考高... 2026年广东省“3+证书”高职高考成绩公布后,随之而来的分数段变化、报考趋势及录取预判成为考生和家...
退休年龄可在规定范围内自主决定... 文|教而育之 前几天遇到了一位女教师,她是高级职称,说到退休这件事,她说自己想延迟退休,也不知道原来...
绿营吹嘘与美关税谈判“六成民众... 海峡导报综合报道 民进党12日公布台美关税谈判满意度民调,声称74.1%岛内民众希望台民意机构尽速审...
法国已有三名婴儿因食用问题奶粉... 当地时间2月11日,法国卫生部发布通报称,目前已有三名婴儿因食用被召回的婴幼儿配方奶粉死亡,相关部门...
威海市图书馆尼山书院2026年... 2026年2月11日,威海市图书馆尼山书院第一期和第二期少儿冬令营圆满结营。本期冬令营以“马”文化为...
郑丽文邀蓝营民代讨论“防务特别... 海峡导报综合报道 各界关注国民党是否自提“防务特别条例草案”,国民党主席郑丽文12日找国民党民代马文...