国海证券《汽车行业专题报告:VLA和世界模型_通往高阶智能驾驶之路》聚焦高阶智能驾驶核心技术,剖析VLA与世界模型的技术内涵、产业实践及融合趋势,明确行业发展方向与投资逻辑。
VLA(视觉-语言-动作)模型是端到端多模态AI架构,融合视觉输入与自然语言指令生成物理动作,核心优势在于多模态融合与语义推理泛化。产业中,理想汽车自研Mind VLA模型,具备空间理解、思维等四大功能,2025年9月全量推送至AD MAX车主;小鹏采用“VLA+OL”云端基模,通过蒸馏技术部署车端XVLA模型;元戎启行DeepRoute IO 2.0搭载自研VLA模型,已获5个定点,首批量产车将入市。其技术演进分四阶段,从语言解释器逐步升级至推理增强型,可实现人机交互升级与推理透明化,中长期依赖AI数据闭环进化。
世界模型以视觉与运动数据为基础,通过生成式建模预测环境动态与行为后果,核心能力是反事实推理,能应对数据中未出现的决策场景。主流架构有RSSM(生成式预测)与JEPA(表征式预测)。海外Wayve的GAIA系列模型可生成多场景驾驶数据;国内华为乾崑ADS 4.0的WEWA架构,借难例扩散生成模型提升难例密度1000倍;蔚来NWM模型支持多模态交互,2025年5月推送的首个版本实现停车场自主寻路;Momenta R6飞轮大模型融合长短期记忆,通过数据闭环迭代优化。
两者并非对立,是产业玩家实现端到端能力后优化侧重点的分化。VLA侧重语义融合与交互控制,世界模型侧重环境预测与仿真可靠性,且技术融合趋势显著,VLA引入强化学习与仿真,世界模型扩展语言交互。数据飞轮与安全性能是核心壁垒,头部车企积累海量数据驱动模型迭代,第一梯队MPA已达人类驾驶安全6倍以上,MPI持续优化。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系