当Waymo的无人出租车在旧金山完成第25万次付费出行时,特斯拉的纯视觉车队正在收集第10亿公里的行驶数据。这两组并行的数字背后,是自动驾驶行业最尖锐的现实:全球1500万辆智能汽车正在用不同的“眼睛”看世界,不同的“大脑”做决策,甚至用不同的“灵魂”理解驾驶这件事。从传感器选型到算法架构,从数据训练到决策逻辑,自动驾驶的每条技术路线都押注着不同的未来——但没有任何一条路能被证明是绝对正确的。这些争议从未停止,也正是这些争议,推动着自动驾驶从实验室走向街道,从科幻变成日常。
自动驾驶的一切分歧,都始于“如何看见”。2004年美国沙漠里的那场DARPA挑战赛,本质上是一场传感器的选拔赛。卡内基梅隆大学用激光雷达生成的3D点云图,让车辆第一次“看清”了沙漠的沟壑与岩石,也奠定了早期自动驾驶“用硬件堆安全”的技术基因。Waymo继承了这条路,2016年其原型车车顶的激光雷达造价高达7.5万美元,相当于当时一辆特斯拉Model S的售价。这种“精英路线”确保了技术的领先性,但也让商业化陷入停滞——没有消费者愿意为一套传感器支付豪车的价格。
十年后,特斯拉用8个摄像头重构了游戏规则。马斯克的逻辑简单粗暴:人类靠两只眼睛就能开车,机器为什么需要激光雷达?2016年推出的Autopilot系统,通过深度学习算法从二维图像中重建三维环境,成本直接砍掉90%。更关键的是,纯视觉方案构建了“卖车-收数据-迭代算法”的飞轮:每卖出一辆车,就多一个移动的数据采集终端;数据越多,算法识别行人、障碍物、特殊路况的能力就越强。截至2025年,特斯拉FSD用户已累计贡献超10亿公里的真实道路数据,这套“用数据换安全”的模式,让纯视觉阵营迅速占领市场。
但摄像头的“被动感知”短板从未消失。2023年旧金山暴雨夜,一辆纯视觉自动驾驶车因无法穿透雨幕,误将积水路面识别为平坦道路,导致车辆失控。类似的事故在逆光、眩光、隧道出入口等场景中反复出现,印证了多传感器阵营的核心观点:机器的智能在可见的未来无法完全模拟人类的常识判断,硬件冗余是安全的底线。Waymo的解决方案是“激光雷达+毫米波雷达+摄像头”的三重感知:激光雷达负责高精度建模,毫米波雷达穿透恶劣天气,摄像头补充色彩与纹理信息。这种“三保险”方案让其事故率比人类驾驶低60%,但代价是每辆车的传感器成本仍高达5000美元,是纯视觉方案的5倍。
如今这场争论已不再是非此即彼。特斯拉开始在新款车型上偷偷增加毫米波雷达的数量,而小鹏、蔚来等多传感器阵营玩家,则将激光雷达成本压降至1500美元以下。更微妙的是传感器融合算法的进化:激光雷达的点云数据正在与摄像头的图像数据实时拼接,形成“1+1>2”的感知能力。这场“眼睛之争”的结局,或许不是某一方的胜利,而是硬件成本与数据规模的动态平衡——当激光雷达价格降至200美元,当纯视觉算法能处理99.99%的极端场景,两种路线可能最终在中间地带相遇。
多传感器阵营内部,另一场更精细的博弈正在上演:激光雷达与毫米波雷达的“触觉分工”。激光雷达的优势是“看得细”,角分辨率可达0.1度,能分辨100米外行人的肢体动作,甚至路面上的一颗石子;毫米波雷达的强项是“看得远”,在暴雨、大雾等场景中,其24GHz和77GHz频段的电磁波能穿透障碍物,探测距离比激光雷达远50%。这两种传感器的搭配,本质上是“精度”与“鲁棒性”的平衡。
Waymo的Robotaxi采用“5激光雷达+12毫米波雷达”的豪华配置:车顶的激光雷达负责全局3D建模,车身四周的短距激光雷达监测近距离障碍物,毫米波雷达则24小时扫描远距离来车。这种“不计成本”的方案,让其在旧金山的复杂路况中实现了99.98%的通过率。但对量产车而言,如此配置显然不现实。小鹏G9选择“1激光雷达+5毫米波雷达”的折中方案:车顶激光雷达重点监测前方150度范围内的远距离目标,毫米波雷达覆盖车身四周,在保证高速场景安全的同时,将传感器成本控制在3000元以内。
4D毫米波雷达的出现加剧了这场竞争。传统毫米波雷达只能输出目标的距离、速度和方位,而4D雷达通过增加高度维度,能区分路面上的井盖与减速带,甚至识别车辆的行驶姿态。2025年量产的华为MDC 610芯片,已能同时处理4颗4D毫米波雷达的数据,其点云密度虽不及激光雷达,但成本仅为后者的1/5。这让“摄像头+4D毫米波雷达”成为L2+车型的新选择——吉利银河L7就靠这套方案,将智能驾驶的起售价压到15万元以下,月销突破2万辆。
传感器的选型从来不是技术问题,而是商业问题。L4级Robotaxi需要极致的安全冗余,因此激光雷达是“必需品”;L3级量产车需要平衡成本与体验,因此“激光雷达+4D毫米波雷达”成为主流;而10万元以下的经济车型,则可能长期依赖“摄像头+传统毫米波雷达”的组合。正如Mobileye CEO阿姆农·沙舒亚所言:“自动驾驶的传感器配置,最终由用户愿意为每公里安全支付的成本决定。”
如果说传感器是“眼睛”,算法架构就是自动驾驶的“大脑”。过去十年,行业主流是“模块化架构”:将驾驶任务拆解为感知、预测、规划、控制四个独立模块,每个模块由不同团队开发,像流水线一样协作。这种模式的优势是“各司其职”:感知模块负责识别障碍物,预测模块计算其他车辆的行驶轨迹,规划模块生成最优路径,控制模块执行方向盘和油门指令。Waymo的Chauffeur系统就是典型代表,其每个模块都有明确的输入输出标准,工程师可以针对性优化——比如当系统误将阴影识别为障碍物时,只需调整感知模块的算法参数。
但模块化的“局部最优陷阱”始终存在。感知模块输出的“行人”标签,可能丢失了“行人正举手示意”的关键细节;预测模块基于历史轨迹的判断,可能忽略了“路口突然冲出的自行车”这类极端案例。这些信息损耗在层层传递后,可能导致最终决策的偏差。2022年特斯拉FSD V12彻底打破了这种架构:端到端模型直接将8摄像头的原始视频数据,映射为方向盘转角、油门开度和刹车力度,中间不经过任何人工定义的模块。
端到端的优势是“信息无损”。当系统看到“行人举手”的画面时,无需将其抽象为“行人”标签,而是直接学习人类司机的应对方式——减速、鸣笛、准备避让。这种“模仿学习”的效率惊人:特斯拉用200万段人类驾驶视频训练的模型,在复杂路口的通过率比模块化架构提升40%。但“黑箱问题”也随之而来:如果系统突然急刹车,工程师无法判断是感知模块误判,还是预测模块出错,甚至无法确定是学习了哪个不良驾驶样本。这与汽车行业“功能安全ISO 26262”的要求直接冲突——传统车企需要知道每个决策的因果关系,而端到端模型只给结果,不给解释。
“显式端到端”成为折中方案。百度Apollo的“轻量级端到端”模型,在保留端到端效率的同时,输出“可行驶区域”“目标轨迹”等中间结果。当系统遇到异常场景时,工程师可以通过这些中间变量追溯问题根源。2025年推出的Apollo 10.0版本,已能用这种混合架构处理95%的城市道路场景,同时满足ISO 26262的ASIL D级安全标准。这意味着,未来的算法架构可能既不是纯粹的模块化,也不是完全的端到端,而是“数据驱动为主,规则驱动为辅”的弹性系统——在常规场景用端到端提升效率,在极端场景用规则模块兜底安全。
当传感器和算法架构的争议逐渐清晰,自动驾驶的“灵魂之争”浮出水面:大模型应该是“思考者”还是“执行者”?VLM(视觉语言模型)和VLA(视觉语言动作模型)的分歧,本质上是“过程可控”与“结果最优”的选择。
VLM阵营的逻辑是“专业分工”。Waymo的VLM系统将大模型定位为“辅助决策的顾问”:传统感知模块识别出“前方有物体”,VLM通过多模态大模型将其分类为“被风吹动的塑料袋”,并给出推理过程——“根据纹理、运动轨迹和天气条件,该物体质量小于0.5kg,不会对车辆造成威胁”。最终的决策仍由经过验证的规划模块做出——“保持当前速度,无需避让”。这种“人类监督AI”的模式,确保了每个决策都有明确的因果链,符合汽车行业对安全性的严苛要求。
VLA阵营则信奉“AI涌现能力”。特斯拉的VLA模型试图让AI从零开始学习驾驶的一切:输入一段8摄像头视频,直接输出方向盘、油门、刹车的控制信号。其核心假设是“数据足够多,模型足够大,AI就能超越人类”。2025年发布的特斯拉D1芯片,算力达到1000TOPS,能实时处理8路4K视频流,配合10亿公里的标注数据,VLA模型在加州的自动驾驶事故率已降至人类司机的1/3。但这种“黑箱决策”始终让监管机构警惕——2024年NHTSA的报告显示,VLA系统在“阴影误判为障碍物”的场景中,仍有0.01%的概率出现不必要的急刹车。
数据成本成为关键变量。VLA需要“视频-控制信号”的配对数据,即一段视频对应同步的方向盘、油门操作,这种数据每小时的标注成本高达1000美元;而VLM可以利用互联网上的“图像-文本”数据预训练,比如用“红色信号灯意味着停车”的图片-文字对学习交通规则,数据成本仅为VLA的1/20。这也是为什么Waymo、华为等公司选择VLM路线——在保证安全的前提下,用更低成本实现技术落地;而特斯拉凭借百万级的用户车队,能持续获取廉价的VLA训练数据,坚定地走“数据换能力”的路线。
从激光雷达与摄像头的“眼睛之争”,到模块化与端到端的“大脑之战”,再到VLM与VLA的“灵魂分歧”,自动驾驶的技术路线从未统一。但这些争议并非内耗,而是行业探索边界的必然过程——纯视觉推动了数据标注技术的进步,多传感器融合加速了激光雷达的成本下降,端到端模型倒逼传统算法优化效率,VLM则为大模型在安全领域的应用提供了新思路。
2025年的自动驾驶行业,已经呈现出“融合”的趋势:特斯拉在纯视觉中加入毫米波雷达的冗余,Waymo在模块化架构中引入端到端的感知模块,华为的VLM系统开始学习VLA的推理能力。没有任何一家公司能垄断所有技术优势,也没有任何一条路线能永远领先。这种“百花齐放”的格局,恰恰是技术快速迭代的最佳土壤。
当未来的历史学家回顾自动驾驶的发展时,这些流派之争或许会被视作“技术进化的试错过程”。就像当年燃油车的四冲程发动机战胜蒸汽机,智能手机的触摸屏取代键盘,自动驾驶最终也会在争议中找到属于自己的技术范式。而现在,我们正站在这个范式形成的前夜——每个传感器的参数,每行代码的逻辑,每次数据的迭代,都在书写着未来出行的规则。