随着自动驾驶技术不断发展,智驾辅助系统正在从高端车型普及到更多消费者可及的主流市场。从城市NOA到高速自动变道,背后的技术路线却并不统一。当前智驾圈内部也存在分歧,不同的工程师、不同的公司,选择了截然不同的造车思维。比如主流的端到端模型和VLA路线到底有什么不同?还有哪些技术路线?下面我们来详细科普。
什么是“端到端”模型?
端到端,在英文中的表述是End-to-End,这是一种简单又复杂的技术路线,它试图用一个超大模型接管整套自动驾驶决策流程:从摄像头、雷达获取的数据,直接输入给模型,由模型输出控制信号,比如打方向盘、踩刹车这类动作。
端到端不再像传统架构那样分成感知、预测、规划、控制四大模块,而是希望一步到位学会驾驶行为。得到车企青睐的原因是架构很简单,越少的模块意味着出错的地方也更少;模型可以从真实人类驾驶数据中自我学习,理论上学得越久越聪明,模仿人类驾驶的逻辑,而不是像传统那样一板一眼。
但另一方面,也存在问题,模型采用黑箱决策,难追溯原因,比如为何突然刹车,一旦出问题,很难知道是哪一步出错。其次训练成本高,需要成千上万小时的驾驶数据,还有昂贵的算力。当然,工程落地也难。简单来说,端到端就像让AI从头学会开车,但学得又慢又贵,还容易犯错,是未来派的路线,比如特斯拉的FSD V12就是端到端,国内有华为的ADS3.0。
VLA路线,更稳的中间派
VLA,Vision-Language-Action,直译就是视觉语言动作,是一种介于传统模块化和端到端之间的技术架构。它不直接控制车辆,而是先把路况转化为“语义信息”,比如把感知硬件看到的车道、障碍物、红绿灯等信息做成语义标注,包括文本描述+视觉关联,动作生成器综合视觉+语义信息输出决策。
简单来说,它不像端到端那样盲目,而是先理解场景,再决定行动。优点在于更容易理解和调试,一旦出错可以发现错误在哪里。同时可以和现有的感知系统搭配,不需要彻底推倒重建,安全性更好,容易通过工程验证。
缺点则是仍然比传统架构复杂,尤其语义信息的设计,算力和数据成本仍高,也有人认为,VLA模型是端到端的2.0版本。VLA就像是先看清楚再开车,比起端到端更靠谱一点,适合现在这个想开快车但不敢全交给AI的阶段。小鹏和理想等品牌采用VLA方案。
VLA还有一些缺点,比如需同时处理视觉、语言和动作的多模态数据,对车端芯片算力要求高。现有主流芯片难以高效运行,需依赖下一代芯片,如Thor 的1000 TOPS,为满足算力,部分车企采用多芯片方案,导致算力浪费和整车成本上升,成本转嫁到消费者身上。
模块化路线,老派稳妥之选
除了这两种主流的方案,还有更传统的模块化架构,这是自动驾驶早期常见的做法,把整个流程拆分成几个明确的部分,包括感知、越策、规划和控制四步,先识别物体、再预测行为、规划路线,最后再控制车辆。
这种架构在L2级别的辅助驾驶中被广泛使用,比如ACC自适应巡航、LKA车道保持等。优点是结构清晰、可控,每个模块都能单独优化,此外,历经多年发展,工具链、数据体系都很完整。
缺点则是模块之间协作不够聪明,有点像流水线作业,这意味着缺乏变变通能力,场景适应性差,复杂的城市工况会让系统懵圈,当然用户体验往往比较僵硬,和真人驾驶有明显区别。换句话说,模块化的思路是“别出错就行”,不灵活,但靠得住,目前被广泛采用。
除了上述三种主流路线,行业里还有一些新奇但潜力巨大的思路,比如BEV+Transformer,把车周围信息转成鸟瞰图BEV,然后用Transformer模型去理解和预测。另一个方案是图神经网络GNN,把路况建模成一个动态图,每个车辆、行人都是图中的节点,这种方法在城市拥堵路段表现更好。此外,还有智能体对智能体概念,每辆车都像一个思考的机器人,和其他车辆一起谈判怎么走。
选车侦探观点:总体来说,端到端未来感强,但落地慢、风险高。VLA更快见效,技术先进,但不激进,同时缺点是成本高。更主流的模块化更稳定、量产无忧,但可能错过变革。也有车企结合了端到端模型+VLM视觉语言模型,提升复杂交通中的判断能力。在智驾领域,不同公司根据自己资金实力、人才结构、市场目标选择不同策略。大家觉得哪一种才是更适合智驾的方案?欢迎讨论。