在智能辅助驾驶蓬勃发展的当下,这项技术既需要创新活力,也需要回归本质的定力。
近日,特斯拉副总裁陶琳发布了马斯克近期对智能辅助驾驶技术路线的判断。马斯克从道路系统设计的根本逻辑出发,阐述了特斯拉坚持纯视觉方案的理论基础。
他指出,全球道路交通体系本质上是围绕智能体的视觉感知能力构建的,无论是人类的生物神经网络还是人工智能系统,都依赖“眼睛”这一核心感知器官获取环境信息。基于这一认知,人工智能结合数字神经网络和摄像头的技术组合,才是与现有道路系统最为匹配的自动驾驶解决方案。
他同时认为,一个模型扎根于现实是非常重要的,从未见过有人打破物理定律。对于任何一个AI,必须建立在现实的基础上,这些有助于确保模型的真实性和准确性,但这是一个常常被忽视的话题。只有遵循物理定律,AI才能实现真正的智能。
对于汽车,用户对“安全抵达”与“舒适体验”的期待始终如一,这促使我们不断思考:智能辅助驾驶的差异化创新是否应聚焦于表层功能,还是应回归本质需求,以标准化能力推动普惠价值?
谈到智能辅助驾驶“第一性原理”,很多人第一时间会想到马斯克的理论——“以人类视觉认知为根基,通过海量真实路况数据训练神经网络,用纯视觉感知实现类人驾驶决策的通用化自动驾驶系统。”
一直以来,马斯克批评激光雷达技术在智能辅助驾驶领域的应用价值。“道路系统并非为从眼睛发射激光而设计”,这一表述凸显了他对激光雷达技术适用性的根本性质疑。当摄像头与激光雷达同时工作时,系统往往面临信息冲突的困扰——究竟应该相信视觉传感器还是激光测距数据,这种技术层面的不确定性,可能会导致交通事故的发生。
“第一性原理”最早源自古希腊哲学,亚里士多德在其著作《形而上学》中首次提出了这一概念。他认为,第一性原理是“不可被进一步推导的最基本的命题或假设”,即所有知识和推理的终极基础。
简单来说,每个系统中存在一个最基本的命题,它不能被违背或删除。其核心思想是:回归事物的本质,剖析最基本的原理和假设,从而构建新的认知框架或解决方案。
任何系统都是有边界的,所谓边界就是这个系统的前提条件,也叫前提假设。对于这个系统,这些“前提假设”会成为“不证自明”的概念和命题,而这些概念命题就是这个系统的“第一性原理”。
对于“第一性原理”的理解,我们可以看作是任何一个系统的“关键设定”。这个设定既不是谁家自创的,也不是独家专有的,而是一个需要费尽心力去探索和思考的逻辑起点。
这个逻辑起点,只需要你信还是不信,想明白还是想不明白,此后的行动能否一以贯之的按照这个逻辑起点去贯彻执行,能够笃定相信这一逻辑起点所打造的系统的“真理性”。
手机行业的演进史为汽车智能化提供了绝佳启示。基带芯片作为手机通信能力的核心,始终以“稳定传输”为第一性原理,无论用户是商务精英还是学生群体,其对通话质量的需求本质趋同。
智能辅助驾驶同样遵循这一逻辑——从A点到B点的安全、舒适、高效,是人类对出行最基础且不可妥协的需求。智能辅助驾驶无法像音乐或香氛一样,为不同用户提供差异化体验,它的终极使命是成为像基带一样可靠的基础设施。
这一认知正在重塑行业对“智驾平权”的理解。真正的平权应聚焦于功能价值的标准化收敛:通过统一的安全标准、普适的舒适性定义、可复制的效率优化,让智能辅助驾驶能力像手机通话功能一样,成为所有车型的“默认配置”。
就像19世纪初,大批美国的早期创业者们闯入西部开疆扩土,开启了持续半个世纪的西进运动。马斯克带着特斯拉开启了乘用车智能辅助驾驶的狂飙突进。
特斯拉的这场“西进运动”从2014年至今大致可以分为三个阶段。2014年至2016年的外部合作期,2016年至2019年的自研过渡期,以及2019年至今的全面自研期。
第一阶段,特斯拉先后与Mobileye和英伟达建立过合作,经历了从“软硬件外采”到“硬件外采、软件自研”的艰难历程。
2014年,特斯拉在AutoPilot上并无多少积累,选择了当时市面上能达到L2辅助驾驶能力的视觉方案——Mobileye的EyeQ3。AI算力是只有0.25 TOPS,只能支持1个前视摄像头、1个毫米波雷达和12个超声波雷达,从而实现了自适应巡航、前车碰撞预警以及方向盘自主变道等功能。
基于这一软硬件外采方案,特斯拉于2014年10月发布AutoPilot 1.0版本和硬件模块Hardware 1.0。
马斯克从一开始就对Mobileye的黑盒交付(将软硬件封装起来,不对主机厂开放)十分不满。借着2016年那场全球首例自动驾驶致死车祸,特斯拉果断抛弃Mobileye,转向英伟达的怀抱。
2016年10月,特斯拉发布AutoPilot 2.0和硬件模块HW 2.0。整体算力达到10 TOPS,几乎是Mobileye EyeQ3的整整40倍。外接传感器包含了8个摄像头、1个毫米波雷达、12个超声波雷达。
第二阶段,特斯拉在和英伟达热络之际,就开始了智驾芯片的自研之路。这就是后面被公众所熟知的FSD芯片,单片AI算力72 TOPS,采用高度定制的CPU+GPU+ASIC架构,其中ASIC是由两个神经网络处理单元NPU组成,专门用作视觉图形处理。
2019年,特斯拉推出FSD软件系统和HW 3.0。相比较前一代HW 2.5(算力20 TOPS),HW 3.0平台上配备了两颗FSD芯片达到144 TOPS,系统算力增长了7倍多。
也是在这一阶段,除了芯片自研之外,特斯拉招募了大批人工智能算法专家,开始感知和决策当中引入深度学习算法。为适应AI算法所需要的大规模数据处理和标注,特斯拉还引入了上千人的标注团队并不断扩容数据中心。
以至于在2019年4月的Autonomy Day上,马斯克首次公布了超级计算机Dojo的研发计划。
至此,特斯拉进入第三阶段——全面自研阶段。
作为量产的智能辅助驾驶方案,在特斯拉这里,形成一个基于AI三要素——即算法、数据和算力,所形成的数据驱动的开发范式。
数据,来自量产车型和采集车回传的大量驾驶场景数据和驾驶行为数据,由于当时的算法采用监督学习,十分依赖高质量的标注数据,所以数据标注一直是一个“人工大于智能”的苦活累活。同时也包括大量仿真构造的虚拟场景数据,用于真实世界里很难遇到的Corner Cases(极端场景)或长尾场景。
算力,车端计算单元主要是运行智驾算法的AI芯片。同时也包括在云端进行算法训练和数据处理的AI芯片,市面上主要是被英伟达的GPU所垄断,而特斯拉的Dojo则更进一步为智能辅助驾驶视觉模型训练设计。
算法,是由云端计算平台根据大规模数据学习所训练出来的神经网络,然后经过微调、蒸馏等方式部署到车端,形成一个可以处理感知理解、认知决策和预测规划等任务的复杂神经网络系统。
2021年的Tesla AI Day具有里程碑意义,公开了特斯拉在之前数年时间的技术探索。以智驾系统最重要的感知算法为例,特斯拉的智驾算法也经历了数次迭代过程。
感知的核心任务是识别和理解外部环境。特斯拉的8个摄像头可以不停地采集到外部世界的2D图像,但这不足以构造出人类驾驶所需要的始终延续的车道线、疾驰而过的车辆等信息。通过感知神经网络,特斯拉构建出一个表征真实世界的3D向量空间。
作为特斯拉车型上唯一的传感器,摄像头存在两个固有缺陷:第一,没有深度信息,所接受的只是一连串二维图像;第二,易受夜晚、大雨、浓雾等极端天气影响,获取的图像质量直线下降,可能导致识别错误或者漏检。
为了弥补这两个缺陷,特斯拉推出了基于Transfomer的BEV(Bird’s Eye View,鸟瞰视角)算法栈,这也就是外界所津津乐道的“BEV+Transformer”,让视觉感知网络获得了测速、测距能力,能把车辆周围摄像头拍摄的2D画面,拼接成一张完整的俯视地图,让车辆“看到”周围360度的全景,从而获得感知。
也就是在这一年,特斯拉宣布北美地区的新款Model 3和Model Y将不再配备毫米波雷达,转而采用全新的纯视觉技术,以支持AutoPilot驾驶辅助系统。
到了2022年的AI Day上,特斯拉在感知模块进一步升级了占用网络(Occupancy Network),可以在BEV+Transformer感知框架的基础上实现通用能力更强的3D空间感知。形象理解,就是把车辆周围空间划分成无数个小方格,像乐高积木一样标记每个格子是否被物体占据,让汽车仅靠摄像头就可获取周围环境的深度信息,实现高分辨率的三维感知与重建。
这之后,特斯拉又放出了“端到端”的全新方案。此前,在特斯拉智驾软件算法中,感知、规划、控制等模块一直是相对独立,其中感知算法是神经网络化最为彻底的,而规控算法则带有大量的人工规则代码。而特斯拉在“端到端”方案之前,已经尝试将神经网络用于自车轨迹预测、规划当中。
而端到端,就是这一进程的最极致表现,完全采用一张神经网络,将感知、规控和执行链接起来,“图像进、动作出”,像极了人类老司机开车的过程,在做出加减速、转向灯动作时几乎是跟感知同时且不假思索。而之前的所谓模块化,则像极了新手司机先要判断下看到了什么、思考下这个情况应该怎么办,然后再告诉手和脚要怎么行动。
端到端方案和模块化方案高下立判,但实现端到端并不容易。2023年,特斯拉开始尝试端到端方案的测试,系统运行速度比原方案更快,甚至直接删掉了30万行人工代码,辅之以端到端系统自己学到的人类的开车知识。
同一年,特斯拉车型全面取消了超声波雷达配置,由高清摄像头所取代,采用100%纯视觉方案实现车辆的智能辅助驾驶。
2024年,特斯拉FSD V12版本正式发布,采用端到端架构和数据驱动的技术范式,再次引领了潮水的走向。
从特斯拉的发展历程来看,马斯克似乎更多解决的是车辆在复杂环境中的有效行动,需要的不仅仅是视觉给出的条件反射,更需要在不同交通状况下形成较强的适应能力和应变能力,因此要不断训练车辆对于当下环境的认知和反应,促使车辆在“所见所感”和“如何反应”之间发展出人类般的智能化水平。
事实上,对于坚持纯视觉方案的特斯拉驾驶辅助系统AutoPilot,至少在美国本土市场一直存在比较大的争议。
特斯拉已经向主导美国国家公路安全的美国国家公路交通安全管理局(NHTSA)提交了和使用AutoPilot有关的1000多起事故。其中,美国媒体《华尔街日报》就列举的222起事故中,有31起事故是未能识别出障碍物而导致整车未能做出反应所导致的。
纯视觉方案有一个比较大的缺陷在于识别前方的静态物体上存在局限性。对于静态物体的识别,摄像头往往无法准确区分路牌、红绿灯架、桥墩等障碍物与实际需要避让的静态物体。
2022年,一位特斯拉前员工约翰·贝纳尔帮助《华尔街日报》分析一场交通事故时表示,面对路上出现的一辆被撞坏的汽车,AutoPilot中的一个摄像头识别出了它,但是另外一个没有识别出。基于这样的输入,AutoPilot选择让车辆继续前进,最后车辆全速地撞了上去。
纯视觉方案主要依靠摄像头来收集周边道路场景的信息,然后通过预先设置的算法来识别周边环境并做出判断。这种方案有最大的两个优点:成本较低且贴近人眼逻辑。按照马斯克的观点,通过对摄像头的持续优化,可以将摄像头无限接近人类的眼睛。只要人类驾驶员可以开车,那么特斯拉的纯视觉方案也可以。
但特斯拉或者其他纯视觉方案的坚持者忽略了一个事实:由于摄像头接受的是反射光,因此受到光的影响比较大。也就是说,如果遇到了暴雨、夜间等环境情况,摄像头就会和人类驾驶员一样,在感知上存在比较大的挑战。
由于拿掉了激光雷达这个关键传感器,纯视觉方案在远距离识别场景、生成点云方面的确会有一些欠缺,如何通过视觉传感器和其他基础雷达来弥补激光雷达的缺失,是特斯拉、小鹏这些纯视觉方案坚持者要考虑的首要问题。
和纯视觉方案并行的是多传感器融合方案,其本质是希望来融合纯视觉和雷达(主要是激光雷达)各自的优势,来达成更好的对周边态势情况的感知。和摄像头相比,激光雷达再探测距离、精度和实时性方面有比较明显的优势,同时在抗干扰方面也有一定的优势。
重要的是,多数据融合在搭载激光雷达的同时,也会同时布置多个摄像头,因此纯视觉方案在感知上的优势,多传感器融合方案也不会落下。
而激光雷达、毫米波雷达等传感器也并非完美。作为一种主动传感器,激光雷达在测量远距离的复杂地形或障碍物可能发生多次反射,导致信号混叠,使得原来的信号失真,或者产生错误,难以准确识别甚至误识别真实目标。
激光雷达对于天气状况非常敏感,但穿透雨雾主要依靠的是毫米波雷达。遇到雨雪雾等极端天气就会在传感器附近几米内形成一团噪点,并且不能穿透这些透明障碍物看到雾气后面的目标,从而“致盲”。
另外一个问题就是数据融合。纯视觉方案下,自动驾驶控制器只需要考虑摄像头的数据输入;但是在多传感器融合的方案中,控制器需要同时对摄像头和激光雷达的输入进行融合判断。
这不仅大大增加了控制器需要处理的数据量,而且更为关键的是,如果当控制器发现摄像头和激光雷达的输入由于误报存在相冲突时,采信哪个输入源也将对整个自动驾驶系统带来不小的考验。
纯视觉与多传感器融合两种方案自诞生以来,一直被质疑,一直在成长。可以发现,并不存在一种完美方案能够解决所有问题。纯视觉方案需要在软件算法层面弥补摄像头的不足,而多传感器融合方案则需要承担偏高的硬件成本以及开发能够融合多传感器数据的算法,同时两者均需要采用高算力的芯片来完成数据计算。
智能辅助驾驶仍是一条充满不确定性的道路,一切尚无定论。目前各家所认定的“第一性原理”都是基于自身视角形成的认知框架,目前仍停留在“假设”阶段,远未成为行业公认的普适准则。
真正的“第一性原理”并非冰冷的传感器或算法,而是人类对驾驶安全的永恒追求。在整个驾驶体系中,人类始终是自身安全的第一责任人,机器永远无法完全取代人类的决策地位。在这条通往未知的路上,技术的光芒或许会照亮前路,但唯有对安全底线的敬畏与坚守,才是穿透迷雾、指引方向的北极星。