当前,辅助驾驶已实现“全国都能开”的基础覆盖,但用户从“能用”到“爱用”的鸿沟依然显著。核心痛点在于“安心感不足”——系统决策缺乏解释性、盲区预判能力薄弱、人机交互过于机械化等问题,导致用户对智驾系统缺乏信任。
而理想与元戎启行同期押注VLA(视觉-语言-动作)模型,正是针对这一痛点,通过技术升维破解智驾体验的“最后一公里”。
VLA模型的本质是通过运用语言模型,增强系统的推理能力,让系统对社会常识有更全面的认知,从而解决更多的长尾场景。
当下智驾面临的挑战和质疑,主要归类为以下几类问题:
首先是模型存在不可解释性。
用户并不知道系统为何会无故加速、减速,甚至退出。信息的不透明导致用户对智驾系统丧失安全感和信任,不敢用辅助驾驶系统。
其次是防御型驾驶能力不足。
防御型驾驶能力的高低是新老司机的最大区别。
最典型的就是高架桥的桥墩盲区。匝道汇入主路时,一侧的桥墩会遮住司机大半个视野,新手司机可能察觉不到,但老司机会提前减速观察,避免突然出现车辆。
交管部门数据显示,在众多交通伤亡事故中,因内轮差和盲区引发的事故占比达到 70% 以上。现在多数智驾遇到鬼探头只能做到急刹避让,但防御型驾驶是要能提前结合场景,预知鬼探头风险提前减速。
最后是人机交互过于机械化。
目前大多数车辆进入辅助驾驶状态后,用户选择仅限于接管和不接管,没有专属用户的定制化驾驶风格,与个性化的语音交互,这也是系统决策容易偏离用户预期的原因质疑,智驾行业都没有彻底解决用户“安心感”的问题。
在此背景下,以理想、元戎为代表的玩家坚定押注VLA技术路线,运用语言模型的能力来解决以上这些问题。
首先,元戎和理想的VLA模型将语音交互控车进行了全面升级——用户能在车辆在辅助驾驶中,语音控制车辆的动作、车速、车道选择等,甚至还释放了豪车识别功能。若遇上豪车,智驾则会更加谨慎,展示了VLA系统对场景深刻精准的理解能力。
语音控车指令
此外元戎启行还释放了空间语义理解、异形障碍物识别、文字类引导牌理解三大功能。
空间语义理解,即 VLA 可以解决盲区场景设计的问题。相当于为系统装上透视眼,预判行车中的交通盲区。
例如,在通过无红绿灯的路口时,VLA模型能提前识别到“注意横穿,减速慢行”的指示牌,即使公交车通行造成动态盲区,VLA也会结合公交车的动作去做出准确的决策。当公交车进行减速时,它会通过推理前方可能有行人穿行,并做出“立即减速、注意风险、谨慎通行”的决策。
公交车动态盲区遮挡
异形障碍物识别属于智驾的算法长尾问题,过去经常被归类为 1% 的极端路况。但依靠 VLA 模型,即便识别到“变形”的超载小货车,也能结合实际路况,执行减速绕行或靠边驾驶。
异形障碍物识别
此外,VLA 也可以加强系统对文字类引导牌的理解能力。元戎启行的 VLA 模型能识别并理解各种图形、文字类路牌信息,按照路牌引导内容行驶。
特殊路标识别
面对左转待行区、可变车道、潮汐车道等 “动态规则路段”,VLA模型能够读懂字符与图标的含义,高效匹配实时路况。在多车道复杂路口选道直行的场景中,能够准确识别车辆前方的文字及图案标识牌,从左转右转混杂的路口准确找到左转车道,并执行操作。
元戎启行正在通过VLA模型,打造能防御型驾驶的 AI 司机。
据悉,元戎的 VLA 模型将会在第三季度量产上车 5 款车型。接下来,智驾是否具备更长远的思维、推测能力,VLA 能否大规模量产上车,也将是下半年智驾玩家们能否进入 VLA 第一梯队的关键。