智能驾驶技术正经历一场颠覆性的变革,2024年成为技术路线分化的关键转折点。曾经由“端到端”一统天下的格局,正在向两条截然不同却又相互交融的技术路径演进:一条是以“视觉-语言-行为”(VLA)为核心的语义化认知架构,另一条是以物理规律推演为根基的“世界模型”路线。这不仅是技术架构的升级,更是一场从“感知执行”到“认知决策”的范式跃迁。特斯拉FSD所代表的黑盒式端到端模型虽具备高上限,但可解释性差、调试困难;而小鹏、Wayve等采用的模块化端到端虽更可控,却难以摆脱模块间的误差累积。在此背景下,VLA与世界模型的崛起,标志着智能驾驶正式迈入“认知智能”时代。
VLA架构的革命性在于打通了感知、理解与行动的全链路语义闭环。它不再局限于传统模型的“感知-决策”分离模式,而是将摄像头捕捉的视觉信息转化为语言Token,交由大语言模型进行逻辑推理与意图理解,最终生成可执行的驾驶动作。这一过程如同赋予车辆“思考”能力——不仅能“看到”前方有障碍物,更能“理解”这是施工区域、“推理”出应减速变道,并“执行”平稳的避让轨迹。尤其在处理语音指令、复杂交通博弈等场景时,VLA展现出前所未有的交互自然性与决策一致性,成为当前快速落地的优选路径。
而世界模型则代表了更底层的认知方式。它绕开语言转化,直接在模型内部构建对物理世界的动态模拟,通过3D高斯表征、点云数据等空间信息,在潜空间中推演车辆碰撞风险、行人轨迹等物理规律,实现“想象未来、预判风险”的能力。云端的“世界引擎”负责大规模预训练,车端的“行为模型”则实时响应,形成强大的预测与规划能力。尽管工程化挑战更大,但其对物理规律的深刻理解,被视为实现完全自动驾驶的终极方向。
当前,VLA正沿着“空间-时间-成本”三大维度演进:从2D感知迈向3D语义建模,从瞬时反应升级为长时记忆与预测,并通过MoE、模型蒸馏等技术实现算力优化。未来,VLA与世界模型的深度耦合,或将催生具备类人驾驶思维的超级智能体。在这场由“数据-算法-算力”驱动的竞赛中,谁掌握高质量数据闭环与认知架构创新,谁就将主宰智能驾驶的未来。
以下为报告节选内容