我们独家了解到,理想汽车VLA虚拟项目组已于端午节前完成了“封闭研发”,不过有知情人士透露,其研发可能未能达到“端到端”路线的效果。
根据公开资料显示,理想的端到端智驾方案大约从2023年11月立项推进,原本计划于2024年底量产上车。此前理想端到端模型负责人为夏中谱,其直接汇报给理想辅助驾驶研发副总裁郎咸朋,不过夏中谱已于近期离职。
所谓端到端模型,即深度学习中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只要输入原始数据就可以输出最终结果。应用到自动驾驶领域,意味着只用一个模型,就能把摄像头等传感器收集到的感知信息,转换成车辆方向盘怎么转、油门踩多少等操作指令,让汽车自动行驶。
和传统的基于规则控制的智能驾驶辅助系统不同,端到端的自动驾驶解决方案意味着从感知到规控的全过程都通过先进的算法和深度学习技术进行处理。端到端技术在自动驾驶上的应用,把原本感知、预测、规划等多个模型组合的架构,变成了“感知决策一体化”的单模型架构。通俗来说,过去自动驾驶路线就好比多个人开一辆车,而端到端技术是单人开车,更加接近真实的人类驾驶。
特斯拉是最早在智能驾驶上应用端到端大模型的企业。除了特斯拉,眼下,华为、小米、蔚小理,甚至比亚迪和奔驰等传统车企,都在尝试端到端的技术路线。但各家的方案略有不同,比如,特斯拉和理想的思路是One Model(一个大模型),在此基础上,理想则是在业内落地了双系统——端到端+VLM(视觉语言模型),而华为和小鹏则是分段式端到端。
理想对端到端研发不可谓不重视。根据36氪汽车报道,去年初,理想智驾高层亲赴美国看到了特斯拉的端到端智驾效果后,决定全速推进端到端方案。团队搭建了端到端+VLM(视觉语言模型)的技术框架。去年4月,理想经历了公司层级的收缩调整,智驾团队也从千人级缩减到数百人。
由于端到端效果方案超出预期,去年10月,理想已经向智驾Max版本用户全量推送端到端智驾方案。
端到端方案落地,是理想汽车打响名声的关键一战。去年理想汽车在二季度财报电话会议上透露,内部已经启动了更长期的端到端VLA模型(Vision-Language-Action Model,即视觉-语言-动作模型)。
VLM模型的目标是将端到端驾驶模型与多模态视觉语言模型(VLM)深度融合,以实现更接近人类司机的决策能力,实现“司机Agent”级别的智能驾驶,即不仅能自主驾驶,还能通过自然语言交互理解用户指令。
据上述知情人士称,目前来看,理想VLA还未完全超越端到端方案的实际表现,尤其是在实时决策和极端场景应对方面。“当然,这一架构的整合难度较高,尤其是如何让VLM(理解能力强但推理速度慢)与端到端模型(实时性强但可解释性弱)高效协同”。
目前,理想汽车的端到端+VLM方案仍属于双系统架构,而VLA的目标是将其合二为一,这一过程需要更深入的模型融合和数据训练。
而强化学习阶段需要大量真实驾驶数据和仿真环境训练,以确保模型的安全性和舒适性,但长尾场景如极端天气、复杂路口的覆盖仍需时间优化。
事实上,VLA模型的运行对车端芯片的算力要求也极高,目前多数车企的高阶智驾方案(如双Orin-X芯片,508TOPS算力)可能不足以支撑VLA的高效推理。理想汽车曾计划采用英伟达Thor芯片(算力1000TOPS)来支持VLA,但该芯片的量产进度可能影响研发节奏。
理想汽车创始人李想曾提到,理想通过自研编译优化和操作系统能力,尝试在现有硬件上运行VLA,但效果可能仍有提升空间。