在伦敦市中心,一辆搭载Wayve自动驾驶系统的测试车正以45 km/h的速度穿行于牛津街与摄政街交汇的复杂路口。没有高精地图、没有预设规则库、甚至没有激光雷达——仅靠前视摄像头输入,其端到端神经网络直接输出方向盘转角与纵向加速度指令,完成了一次无接管的无保护左转。
这不是一次“演示”,而是一场对当前主流模块化自动驾驶架构(perception → prediction → planning → control)的根本性质疑。Wayve正在用“具身智能”(Embodied AI)+ 纯视觉端到端(End-to-End, E2E)范式,重新定义城市自动驾驶的技术边界。
传统L4方案依赖高精地图(HD Map)作为“世界先验”,将感知结果与地图对齐后,再通过规则引擎或优化器生成轨迹。这种架构在结构化道路表现稳健,但在伦敦、曼谷等“非结构化”城市环境中,地图鲜度、标注误差、动态障碍物交互等问题导致系统频繁降级。
Wayve则彻底摒弃地图依赖,采用单阶段端到端神经网络架构。其输入仅为多视角RGB图像序列(通常6–8路摄像头),输出为底层车辆控制信号(steering, throttle, brake)。整个系统可形式化为:
其中fθ为参数化的神经网络,It为时间步t的图像帧,ut为控制动作。该映射通过大规模模仿学习(Imitation Learning)与强化学习(Reinforcement Learning)联合训练获得。
关键在于:系统不显式建模“物体”、“车道线”或“交通灯状态”,而是学习从像素到行为的隐式因果映射。这使得模型在面对未见过的场景(如施工区、临时路障、异常行人行为)时,具备更强的零样本泛化能力。
Wayve的核心创新并非仅在模型结构,更在于其具身学习闭环(Embodied Learning Loop)。该系统由三大组件构成:
World Simulator(世界仿真器):基于神经辐射场(NeRF)与生成式AI构建高保真城市场景,支持百万级并行episode训练;
Real-World Fleet(现实车队):部署于伦敦等地的测试车队持续收集人类接管事件(disengagement)与边缘案例;
Online Policy Distillation(在线策略蒸馏):将人类干预数据与仿真策略融合,通过离线强化学习(Offline RL)更新主策略网络。
这一闭环实现了“在真实世界中试错,在仿真中放大经验,在云端统一进化”的飞轮效应。据内部披露,Wayve的模型每周迭代一次,每次更新覆盖数万小时的真实+合成驾驶数据。
尽管学术界对端到端自动驾驶的可解释性与安全性存疑,Wayve已迈出关键一步:2025年与日产达成前装合作,其E2E软件将于2027年量产上车,定位L2+高级辅助驾驶。
这意味着系统需满足ISO 21448(SOTIF)功能安全要求。为此,Wayve引入了多重保障机制:
不确定性量化(Uncertainty Quantification):通过贝叶斯神经网络或集成方法估计模型置信度,低置信场景触发降级或请求接管;
行为克隆+RL混合训练:初期以专家驾驶数据(human demo)进行行为克隆,后期通过在线RL微调以提升鲁棒性;
硬件冗余设计:依托英伟达Orin-X双芯片平台,实现计算与控制链路的ASIL-D级冗余。
值得注意的是,Wayve并未完全放弃中间表示。其最新论文《GAIA-1: A World Model for Driving》提出,可在端到端主干中嵌入轻量级世界模型(World Model),用于短期轨迹预测与反事实推理,但不破坏端到端梯度流。
2024年C轮融资10.5亿美元(软银领投,英伟达、微软跟投),使Wayve累计融资超13亿美元。这笔资金主要用于三大方向:
构建EB级驾驶数据湖:整合真实车队、仿真器、第三方数据源;
训练超大规模视觉-语言-动作模型:类比NVIDIA的Alpamayo-R1,Wayve正研发多模态驾驶基础模型;
部署分布式训练集群:基于Azure云与本地GPU集群,支持千亿参数模型的高效训练。
微软的深度参与不仅提供算力,更带来Copilot式的人机协同接口——未来驾驶员可通过自然语言指令干预系统(如“绕过前方施工区”),系统则动态调整策略。
Wayve的路径清晰表明:自动驾驶正在经历类似NLP领域的“大模型范式转移”——从手工特征、模块堆砌,转向数据驱动、端到端统一建模。
其成功与否,不仅关乎一家公司的命运,更将决定“具身智能”能否成为通用人工智能(AGI)在物理世界落地的第一个规模化场景。
伦敦街头那辆沉默行驶的汽车,或许正是这场技术革命最真实的预演。