近日,特斯拉官方X账号发布了Optimus首次奔跑演示。这段几秒的画面中,该机器人以自然流畅的姿态完成自主奔跑动作。标志着Optimus完成了“从2024年慢走→2025年初快走→2025年底奔跑”的迭代。
看似简单的运动场景背后,实际上有不少新看点,Optimus在奔跑过程中展现出三个关键能力:
一是实时地形适应:相比行走,新版本机器人的步态生成算法明显升级,可以根据感知到的外力动态调整自身动作,像人一样调节,而非一味刚性输出。Optimus曾在此前演示中就展现了柔顺控制的进步:其在户外不平地形行走时,团队仅用神经网络控制各肢体而未开启远程操控,机器人能够自主适应松软的覆盖物上下坡,偶有打滑但未跌倒。特斯拉机器人副总裁Milan Kovac也透露,该演示中机器人未使用视觉,即在“盲走”情况下仅凭自身平衡和触地反馈就通过了碎木屑覆盖的坡地。
二是容错与恢复能力:尽管视频没有展示意外情况处理,但奔跑这一动作本身表明系统具备快速调整重心和步态的能力,这是应对突发干扰的基础。
三是Tesla选择沿用自动驾驶系统的AI架构,包括视觉感知模型、神经网络规划模块、时间序列预测机制等。这使Optimus在应对动态环境时具备类似于人类的反应能力。
Milan Kovac在今年4月份的视频中介绍,擎天柱完全采用RL(强化学习)模拟训练方案。RL模拟训练是指利用软件模拟环境对RL模型进行训练的过程。强化学习是一种通过试错学习来优化策略的方法,其核心思想是通过与环境交互,逐步学习如何做出最优决策,以最大化累积奖励。
从技术角度来说,Optimus的突破本质在于将FSD自动驾驶的端到端范式成功迁移至机器人控制,使奔跑这类高动态行为能通过数据驱动自主涌现,而非传统编程实现。其价值在于验证了神经网络+强化学习路线在人形机器人上的可行性,为2026年量产奠定了基础。
波士顿动力液压版Atlas依靠28个液压关节实现了后空翻等极限动态动作,但系统复杂、能效低、维护成本高导致其商业化失败,2024年已正式退役。马斯克旗下xAI的GrokAI曾点评:擎天柱Optimus专注工业实用性与可拓展性,目标以2万-3万美元单价部署于特斯拉工厂完成搬运、分拣等任务;而原版Atlas更像研究平台。不过,电动版Atlas已快速跟进,今年已经进入现代汽车工厂试点,当前版本的Atlas预计售价在15万美元左右,价格不菲。
今年2月,Figure公司正式发布了自研的端到端具身智能模型Helix。该模型在软件端的泛化能力表现,超出了行业此前的预期。从核心架构分析,Helix采用了预训练视觉语言模型(VLM),主要功能为场景理解与语义解析等认知类任务,为机器人动作提供决策支持,还有视觉运动策略模型,主要作用是实现快速响应与执行,保障机器人动作的及时性和协调性。通过单一端到端视觉语言动作(VLA)模型,实现了对机器人头部、躯干、手腕及灵巧手的全上半身一体化控制,可协调35个自由度的运动空间,避免了传统多模块控制中的协同问题。
在泛化能力方面,当输入自然语言提示时,基于该模型的机器人可对未接触过的物品完成拾取操作,这一特点减少了机器人对特定场景训练的需求。同时,Helix是首款完全搭载嵌入式低功耗GPU的VLA模型,降低了传统智能模型部署中的成本与能耗问题,为其商业规模化部署创造了条件。
特斯拉将汽车领域的视觉感知系统和实时控制算法迁移到机器人领域,形成了独特的技术路径。特斯拉Optimus主要的差异化优势有:一是借鉴自动驾驶技术栈,特斯拉构建了从感知到控制的统一学习框架,这种数据驱动的方法具有更好的泛化潜力。二是能够采用汽车级供应链和制造工艺,这是其他实验室型机器人公司难以比拟的。
从国内玩家来看,中国机器人公司在快速发展,宇树H1等机器人已展示跑跳能力,主要优势还是在于供应链整合和成本控制,性价比较高。