小鹏汽车AI大牛详解:第二代VLA与机器人的「涌现」背后
创始人
2025-11-09 00:36:28
0

对话人物简介:

刘先明 | 小鹏汽车自动驾驶负责人

他于2016年博士毕业于伊利诺伊大学厄巴纳-香槟分校(UIUC),曾在Facebook(现Meta)、Cruise任职,从事机器学习与计算机视觉领域的前沿研究工作。现全面负责小鹏汽车自动驾驶中心业务和组织管理工作。

米良川 | 小鹏汽车机器人副总裁及AI技术委员会负责人

他是机器人与AI领域的资深专家。曾在NVIDIA任职十余年,有深厚的GPU并行计算、移动计算、深度学习及自动驾驶技术功底;并曾于CMU机器人研究所深造,且拥有创办机器人公司的实践经验。

在近日举办的2025小鹏科技日上,何小鹏讲述了几次技术「涌现」的节点,超出一般人对于技术发展的认知。

例如,本来长期处于「痛苦阶段」的第二代VLA研发工作,突然迸发了成效;本来一些难以攻破的场景,居然被系统自己学会了对策;本来步态一直僵硬的人形机器人,突然走得像个真人……

这其中的有些涌现,甚至连负责研发的专家都无法完全解释。

“涌现的过程对小鹏来说极其突然,项目经历了数月的失败,我们内部曾多次讨论是否把它停掉。但后来,涌现的发生让我们发现了全新的大陆,许多多年无法解决的场景一下子就走通了。”

在小鹏的第二代VLA和第二代人形机器人——IRON引发极大的关注后,RoboX参与了刘先明与米良川的对话环节,针对许多技术疑问和背后故事进行了探讨。

涌现背后:

坚持第一性原理

从2024年到现在,小鹏投入了3万张卡的算力,烧了20多亿的训练费用,直到今年二季度的某一天,出现了一次巨大的跳跃。

但在刘先明看来,这并非偶然涌现,更不是「拼运气」的行为,而是持续的坚持与投入,更是对Know-how的累积和催熟。

“这套逻辑非常简单直接,不太Fancy,但它接近于第一性原理,那么得出结果就是时间问题。”

他指出,这看起来的「偶然」,背后是对Infra的巨大投入——要从训练端一口气读出来数十Pb的数据、降低系统延迟、增加存储量和SM利用率,乃至彻底改变底层Infra架构……

(小鹏汽车自动驾驶负责人 刘先明)

这一切都源自小鹏和刘先明坚信的「第一性原理」——应当在VLA中省去从Vison到Language的转译部分,省去云端繁重的复杂计算,告别数据标注和信息损失,极大提高推理速度。

刘先明介绍称,传统VLA架构带来的问题,是离散化的语言输出会限制数据的使用规模。而第二代VLA的核心逻辑,就是拆掉language,做到极致效率;同时让自监督成为可能,大规模地使用数据。

一旦这种范式得到验证,那么如果小鹏去各个城市、海外市场推行智驾辅助功能,乃至做Robotaxi,都不再需要做任何数据标注——只需要当地有小鹏的车,就可以在各种市场进行泛化。

他表示,通过大量的模仿学习和自监督,模型能够学会某种「范本」,然后进行推理和自我学习。

有个令人尤其惊喜的案例:某一天,当红灯即将转绿前,他发现测试车开始缓缓向前蠕动,就像人类预备起步一样;而且,即便正前方红绿灯没有变灯预示,车辆也可通过两侧的红绿灯变化进行推测。

“这些事情你是没办法告诉模型的,只能是数据量大到一定程度时,它自然就会理解。”

VLA的瓶颈:

为何非得甩掉「L」

VLA的核心方法,是将连续的输入信号(如视频帧、传感器数据等)离散为Token序列,通过以Transformer为主的架构进行特征编码与上下文建模,最终再生成离散的Token序列作为输出,并基于自回归机制预测下一个文字Token,以实现序列生成。

在这其中,存在三个难点:

难点一:当输入信号从文字变为视频,就意味着从明确离散的结构化数据变成了连续信号,有大量的信息损失。

难点二:文字是可数的,但控制信号是个连续量,没办法通过离散化Token的方式来进行输出。

难点三:缺乏真实交互反馈。刘先明指出,现在很多人将强化学习当成了 SFT(Supervised Fine-Tuning)。就像解物理题时,按照步骤给分,这和有监督的微调没有太大区别。

“如果要解决物理世界问题的话,需要世界模型给你真实反馈,而非单纯的只是做仿真重建。”

基于上述问题,刘先明介绍称,小鹏第二代VLA的第一个核心是让输入信号尽量使用真实世界的物理信号,也就是video stream,而非大量的文本。

第二个核心是输出空间不再采用文字的离散化表达,而是使用更多的连续信号来完成相关任务,从而让网络结构极其简单。

“我一直信奉‘简单就是美’——越简单的系统,搭建起来越容易维护和Scale up。由此看来,模型的系统就应该是输入多模态的数据,然后直接作为物理世界Action的输出。”

因此,刘先明团队去掉了Vision→Language的转译过程,但其实也不能说是完全抛弃了文字。

“文字是以Token化的形式作为输入。不过在过去训练时采用的图文对(Image-Text Pair,将视频结合文字作联合训练)模块已经被我们拆了。”

他介绍称,目前标准的大模型训练过程,是language先处理文字→ 视觉经独立Vision Encoder(CNN/ViT)→ CLIP对齐模块 → 进入LLM进行推理。

“这就很绕,效率也很低。小鹏做的,是将大模型很「绕」的训练方式给大大简化了。”

根据刘先明的演示,第二代VLA的输入,已经可以拿掉作为指令的Text(例如导航、语音控车),例如Super LCC不需要任何指令,就可以实现园区漫游,找到出口。

量产部署的优化方案

众所周知,世界模型的云端计算是非常庞杂的。而小鹏第二代VLA在训练过程中,直接内嵌推理逻辑,那么部署时就可去掉云端计算部分——这意味着,在量产上车时,可以直接使用VLA架构进行推理,大大提高了测算和推理效率。

要想实现量产,除了剪枝、蒸馏,量化等传统方法外,小鹏还必须做出一个低延时、高帧率,本地化的部署方案,这是一个从模型到软件、再结合编译器和硬件的联合优化过程。

“我需要让如此大规模模型在本地的图灵芯片上跑到实时,也就是与摄像头的帧率完全一致。为此,小鹏从头设计了编译器,然后榨取了图灵芯片每一比特的算力。”

激光雷达是不会装回来的

当问及小鹏Robotaxi会否装配激光雷达,刘先明一口否定了。

“Robotaxi上是有冗余的,为什么一定要用激光雷达?”

他表示,激光雷达的扫描频率只有10赫兹。若要实现远距离探测或穿透半透明障碍物,激光雷达需要具备更高的发射功率。这是不符合车规级标准的。

而且在雨雾天气中,激光雷达会产生一些噪声点,反而会带来一些问题。

那为什么行业还在大规模地使用激光雷达?刘先明认为,这是由于在过去算力、模型比较小的情况下,系统比较依赖于偏物理的探测器来获取准确的感知信息,但其实激光雷达输入的信息量是有限的。如果针对摄像头的算法能够优化,其信息量可以远远高于激光雷达。

“摄像头具有500万或800万的高像素,每个像素包含三个通道(channel),每个通道为8比特,一秒钟提供的信息量远超激光雷达。但之前的系统没有足够大的模型或者更好的算法,来利用这些信息。”

刘先明介绍称,摄像头采集的原始数据一般为28比特,但在将其转换为RGB格式时,会转换为12比特,有16比特的信息损失,换算成动态范围,其值为2的16次方。

“另外,在强光、逆光、黑夜等环境下,摄像头并非完全无法成像,而是由于用ISP算法将图像转换为适合人眼观看的形式时,对大量信息进行了过滤处理。”

小鹏机器人:

螺旋上升期的涌现

刘先明的团队,也正在和小鹏的机器人团队紧密合作。不光如此,小鹏可谓是倾注了全公司的资源和精力来协作开发机器人。

要知道,小鹏机器人除了螺丝外,全都是自研的。一方面是觉得目前的机器人产业链仍欠成熟,另一方面这也有助于降本和加速迭代。

在目前的机器人行业中,VLA在Manipulation上还未展现出质变。但在米良川看来,与其去卷进展速度,更应关注技术上限。

在他看来,第二代VLA的上限是非常高的。发展过程可能缓慢,但涌现也会像自动驾驶一般突然出现。

“如果说人类的的能力是100分,那机器人至少也得做到80分才能进入家庭,这80分需要一分一分攒出来。”

他认为,现在的机器人综合能力可能只有30分,那就应用在30分的实际场景中,从中发现新的问题,其能力就会变成40分,然后再将其放在40分场景中应用。这就是机器人能力螺旋上升的过程。

在此过程中,也会出现一些「涌现」时刻。

今年4月的上海车展上,小鹏IRON来到现场进行了行走演示。但就在一个月前,米良川的团队还在因为没有在步态上看到质变而焦虑。

“可就在3月的一个晚上,IRON在倒退行走时突然变得非常拟人。这是我们生成式控制器的一个拐点,但我也说不清楚到底是哪次优化带来了变化,只能说当数据和算力达到了一定程度,就实现了阶跃。

如今,凭借通用的生成式控制器,IRON能够轻松做出大师级别的太极、叶问蹲,更别提被人怀疑「有真人在里边」的超拟人步态。

惊艳步态的秘密

IRON超拟人步态的实现,与腰部设计有直接关系:“新一代IRON其实做的不是「腰」,而是「脊柱」。目前人形机器人的腰一般有三个自由度,我们觉得还是有待优化。”

米良川仿造人类构造进行了腰部设计——脊柱+肌肉群+腹腔+皮肤,这一系列的组织构成了腰部。把这种构造复刻到机器人身上的难度是非常大的,小鹏团队付出了巨大的努力,所幸实际效果远远超出预期。

另外,除了腰部之外,IRON的前脚掌也增加了自由度,再加上自研的生成式控制器,构成了其令人惊艳的表现。

(小鹏汽车机器人副总裁及AI技术委员会负责人 米良川)

“想要机器人步子一致是非常困难的,因为所有运动都是生成式的,所以我无法控制它到底先左还是先右,还是有一定巧合性。”

米良川介绍称,最近展示的IRON采用的是第三代控制器,其步态与风格实际上是嵌在控制模型里的,并非是轨迹跟随或姿态跟随。

目前第四代控制器也获得了初步的成效,米良川命名其为「反重力器」,因为他认为,控制的本质就是对抗重力。

新型控制器应对的是更加广阔、更高阶的生成式模型,所以只要把连续的姿态输入到控制系统,机器人就会完成相应动作:“就像在太空中发生一样。”

正是基于这种通用的生成式控制器,小鹏的机器人丝滑进行了打太极、叶问蹲等动作,而且过程就是由太极大师来录制轨迹,直接输给控制系统就可执行。

除了探索人形机器人的能力外,小鹏也在探索未来它们与人相处的方式,是否能够建立更深的情感链接。也是因此,小鹏给予了机器人性别,以及超拟人的动作。

“IRON步态引发的关注,让我们看到一些希望,我觉得它真的可以成为大家非常亲密的伙伴。”米良川称,他看到一位网友问,能不能把机器人做成她妈妈的样子,因为她妈妈上个月刚刚去世。

米良川觉得,这一愿望的实现时间不会太遥远了。

相关内容

最新资讯

安卓系统电脑版下载推荐,轻松办... 你有没有想过,在电脑上也能享受到安卓系统的便捷和乐趣呢?没错,现在就有这么一款神奇的软件,让你轻松将...
苹果xs是安卓系统吗,揭秘其是... 你有没有想过,那个在我们生活中无处不在的苹果手机,它的操作系统竟然不是安卓系统?没错,就是那个苹果x...
安卓系统导航键设置,导航键设置... 你有没有发现,手机里的安卓系统越来越智能了?这不,最近我在捣鼓我的安卓手机,发现了一个超级实用的功能...
美国联邦航空局暂停所有麦道11... 当地时间11月8日,美国联邦航空管理局(FAA)发布命令,暂停所有麦道11型货机(MD-11)飞行,...
suuntoambit3安卓系... 你有没有听说过那个超酷的运动手表——Suunto Ambit3?这款手表简直就是户外运动爱好者的神器...
小米的运行系统和安卓,深度定制... 你有没有发现,手机的世界里,操作系统就像是个大管家,默默守护着我们的日常使用。今天,咱们就来聊聊小米...
美前航空官员:若政府“停摆”持... △机场塔台(资料图)当地时间11月8日,美国联邦航空管理局(FAA)前副局长丹·埃尔韦尔表示,随着本...
windowsce改安卓系统吗... 你有没有想过,把那台老掉牙的Windows CE设备改头换面,让它摇身一变成为安卓小精灵呢?这可不是...
360胡振泉谈AI换脸乱象:以... 近日,演员温峥嵘在直播间自曝被AI换脸盗播,多个直播间出现其带货形象一事引发热议。360数字安全集团...
考研英语先学长难句还是先做真题 在考研英语备考的初始阶段,学习者普遍面临"长难句解析"与"真题实战"的优先级抉择。这一问题的本质是语...