端到端具身智能如何破解城市驾驶？Wayve的神经驱动范式解析

创始人

2025-12-09 00:45:30

0次

在伦敦市中心，一辆搭载Wayve自动驾驶系统的测试车正以45 km/h的速度穿行于牛津街与摄政街交汇的复杂路口。没有高精地图、没有预设规则库、甚至没有激光雷达——仅靠前视摄像头输入，其端到端神经网络直接输出方向盘转角与纵向加速度指令，完成了一次无接管的无保护左转。

这不是一次“演示”，而是一场对当前主流模块化自动驾驶架构（perception → prediction → planning → control）的根本性质疑。Wayve正在用“具身智能”（Embodied AI）+ 纯视觉端到端（End-to-End, E2E）范式，重新定义城市自动驾驶的技术边界。

从模块拼接走向神经闭环

传统L4方案依赖高精地图（HD Map）作为“世界先验”，将感知结果与地图对齐后，再通过规则引擎或优化器生成轨迹。这种架构在结构化道路表现稳健，但在伦敦、曼谷等“非结构化”城市环境中，地图鲜度、标注误差、动态障碍物交互等问题导致系统频繁降级。

Wayve则彻底摒弃地图依赖，采用单阶段端到端神经网络架构。其输入仅为多视角RGB图像序列（通常6–8路摄像头），输出为底层车辆控制信号（steering, throttle, brake）。整个系统可形式化为：

其中fθ为参数化的神经网络,It为时间步t的图像帧,ut为控制动作。该映射通过大规模模仿学习（Imitation Learning）与强化学习（Reinforcement Learning）联合训练获得。

关键在于：系统不显式建模“物体”、“车道线”或“交通灯状态”，而是学习从像素到行为的隐式因果映射。这使得模型在面对未见过的场景（如施工区、临时路障、异常行人行为）时，具备更强的零样本泛化能力。

Fleet Learning Loop构建真实世界梯度

Wayve的核心创新并非仅在模型结构，更在于其具身学习闭环（Embodied Learning Loop）。该系统由三大组件构成：

World Simulator（世界仿真器）：基于神经辐射场（NeRF）与生成式AI构建高保真城市场景，支持百万级并行episode训练；

Real-World Fleet（现实车队）：部署于伦敦等地的测试车队持续收集人类接管事件（disengagement）与边缘案例；

Online Policy Distillation（在线策略蒸馏）：将人类干预数据与仿真策略融合，通过离线强化学习（Offline RL）更新主策略网络。

这一闭环实现了“在真实世界中试错，在仿真中放大经验，在云端统一进化”的飞轮效应。据内部披露，Wayve的模型每周迭代一次，每次更新覆盖数万小时的真实+合成驾驶数据。

L2+量产验证端到端可行性

尽管学术界对端到端自动驾驶的可解释性与安全性存疑，Wayve已迈出关键一步：2025年与日产达成前装合作，其E2E软件将于2027年量产上车，定位L2+高级辅助驾驶。

这意味着系统需满足ISO 21448（SOTIF）功能安全要求。为此，Wayve引入了多重保障机制：

不确定性量化（Uncertainty Quantification）：通过贝叶斯神经网络或集成方法估计模型置信度，低置信场景触发降级或请求接管；

行为克隆+RL混合训练：初期以专家驾驶数据（human demo）进行行为克隆，后期通过在线RL微调以提升鲁棒性；

硬件冗余设计：依托英伟达Orin-X双芯片平台，实现计算与控制链路的ASIL-D级冗余。

值得注意的是，Wayve并未完全放弃中间表示。其最新论文《GAIA-1: A World Model for Driving》提出，可在端到端主干中嵌入轻量级世界模型（World Model），用于短期轨迹预测与反事实推理，但不破坏端到端梯度流。

13亿美元背后的AI基建

2024年C轮融资10.5亿美元（软银领投，英伟达、微软跟投），使Wayve累计融资超13亿美元。这笔资金主要用于三大方向：

构建EB级驾驶数据湖：整合真实车队、仿真器、第三方数据源；

训练超大规模视觉-语言-动作模型：类比NVIDIA的Alpamayo-R1，Wayve正研发多模态驾驶基础模型；

部署分布式训练集群：基于Azure云与本地GPU集群，支持千亿参数模型的高效训练。

微软的深度参与不仅提供算力，更带来Copilot式的人机协同接口——未来驾驶员可通过自然语言指令干预系统（如“绕过前方施工区”），系统则动态调整策略。

自动驾驶的“大模型时刻”正在到来

Wayve的路径清晰表明：自动驾驶正在经历类似NLP领域的“大模型范式转移”——从手工特征、模块堆砌，转向数据驱动、端到端统一建模。

其成功与否，不仅关乎一家公司的命运，更将决定“具身智能”能否成为通用人工智能（AGI）在物理世界落地的第一个规模化场景。

伦敦街头那辆沉默行驶的汽车，或许正是这场技术革命最真实的预演。

数据地图模型训练 Wayve 系统城市神经自动智能英伟达伦敦端到端

上一篇：驶向规模化——2025年自动驾驶重卡的欧美进程

下一篇：智能被四大国产车追平，新势力的黄金年代，快结束了？