目录
一、谁先提出了快慢双系统
二、为什么有必要快慢双系统
三、快慢双系统的基本原理
四、总结:快慢双系统的现状和未来
一、谁先提出了快慢双系统
自动驾驶快慢双系统的灵感源泉来自于心理学家丹尼尔・卡尼曼(Daniel Kahneman)提出的人类认知的快慢双系统理论。在其著作《思考,快与慢》中,卡尼曼指出,人类的思维存在两个不同的系统:系统 1(快系统)和系统 2(慢系统)。系统 1 是基于直觉、经验和习惯运行的,它能够快速、自动地处理信息,几乎不耗费认知资源,例如我们在面对简单的数学运算如 1+1 时,能瞬间得出答案,或者在日常驾驶中,遇到常见路况时凭借习惯轻松应对。而系统 2 则涉及到逻辑推理、分析思考和复杂计算,它需要集中注意力并消耗较多的认知资源,通常在面对新的、复杂的或不确定的问题时被激活,比如在解一道复杂的数学难题或者在陌生且交通状况混乱的路口驾驶时。
原话是“系统 1 的运行是无意识且快速的,不怎么费脑力,没有感觉,完全处于自主控制状态。” 这恰如自动驾驶中的快系统,基于端到端模型,能够快速接收传感器数据,凭借大量训练形成的经验模式,在常见、高频场景下迅速做出决策,保障车辆行驶的流畅性,整个过程高效且自动,几乎无需额外的 “思考” 成本。
“系统 2 将注意力转移到需要费脑力的大脑活动上来,例如复杂的运算。系统 2 的运行通常与行为、选择和专注等主观体验相关联。”
图 《思考 快与慢》的封面
所谓快慢系统有点类似于下意识(肌肉记忆)和刻意思考的区别。
借鉴人类认知的快慢双系统理论,自动驾驶领域的快慢双系统架构应运而生。最早将这一概念引入并进行深入研究和实践的包括一些知名的汽车制造商和科技公司。
快慢系统在圈内比较有名的是理想,但是似乎不能说一定是理想最先提出的自动驾驶快慢系统,本文无法考证谁是第一。
理想汽车在其自动驾驶技术研发中,可能受卡尼曼快慢系统理论启发,确实设计了独特的快慢双系统框架。他们将从输入直接到轨迹输出的端到端模型作为快系统,而将视觉语言大模型作为慢系统,二者协同工作,模拟人类在驾驶过程中的决策过程。
清华与博世中央研究院 RIX 也联合提出的 Chameleon 系统,也是快慢双系统在自动驾驶领域的典型应用。该系统通过 VLM 合成程序,根据视觉输入定制推理过程,并动态切换快慢系统以平衡效率和性能,用于解决车道拓扑提取这一自动驾驶中的关键任务。随着时间的推移,越来越多的企业和研究机构开始关注并投入到快慢双系统的研发中,现在形成了一股潮流。
二、为什么有必要快慢双系统
其实为什么会有快慢双系统?直观上从人们日常的购买行为可以类比。
比如人们经常开玩笑形容某位不理性者的购买决策不合理:
买五千元的手机货比三家,花了足足一个月,反复对比;
买五百万的房子却一个礼拜就成交,莫说跑遍全城调研,就是本区都没有跑遍。
这种反差固然有其心理因素,就是人们害怕大的交易,心理负担大,为了快速摆脱心理负担心理压力而快速决策。而“快速决策就是不安全的决策”。
所以说为将者和为商人者有类似之处,人才可以通用,都需要良好的心理负重能力。
快系统就好比在路边买瓶矿泉水,贵点或者便宜点没有什么大的关系,可以快决策,也不要求绝对优度最高,可以牺牲精度换取速度。
慢系统好比买房子,决定和谁成家等等重大决策,宁可牺牲速度,也要提高优度,提高一点点优度在未来都是巨大价值。
如果更加技术化一点,可以如下描述:
2.1 复杂交通场景的多样性与不确定性
现实世界的交通场景极为复杂,包含了各种不同的路况、天气条件、交通参与者的行为以及道路基础设施状况等。在城市道路中,可能会遇到拥堵路段、频繁的交通信号灯变化、行人的突然横穿马路以及其他车辆的加塞等情况;在高速公路上,会面临高速行驶下的车辆间距保持、恶劣天气如暴雨、大雾对视线的影响以及复杂的道路交汇和出入口等场景。而且,交通场景还存在大量的不确定性,例如,驾驶员无法准确预知前方车辆何时会突然刹车、行人是否会在没有斑马线的地方横穿马路等。对于自动驾驶系统而言,要在这样复杂且不确定的环境中安全行驶,单一的决策模式显然无法满足需求。
快慢双系统的引入,使得自动驾驶系统能够像人类驾驶员一样,在面对常见、简单的交通场景时,利用快系统迅速做出决策,保证驾驶的流畅性;而在遇到复杂、罕见或不确定的场景时,通过慢系统进行深入分析和推理,提高决策的准确性和安全性。
2.2 对决策效率与准确性的双重要求
在自动驾驶过程中,决策效率和准确性都至关重要。一方面,车辆行驶速度较快,需要系统能够快速对周围环境变化做出反应,例如在紧急情况下,如前方车辆突然急刹车,自动驾驶系统必须在极短的时间内做出制动决策,否则就可能导致碰撞事故。这种对快速响应的需求,就如同人类驾驶时的直觉反应,由快系统来实现。
2.3 传统单一系统的局限性
打个比方,单一模式的缺点就在于,您用来购买股票的深思熟虑系统和在菜市场家常做饭的简易系统居然要通用,居然是一个系统,这自然是不合适的。
另外,请不要误解慢系统是真的慢。慢系统的深思熟虑只是相对快系统。快慢系统的推理时间都是毫秒范围,人类根本不感知其中的差异(人类的感知要超过600毫秒差异才能感觉出来)。
1. 快系统:毫秒级(10-50ms)实时响应
快系统基于端到端模型(如理想汽车采用的 CNN+Transformer 架构),核心目标是 “快速输出决策”。其推理过程省去复杂中间模块(如传统感知 - 预测 - 规划的拆分步骤),直接将传感器数据(摄像头、激光雷达)映射为行驶轨迹。
硬件适配要求不高,依托车载低算力芯片(如 Orin-X)即可运行,模型参数量通常在千万级以下,特征提取与 BEV 空间投影环节可通过硬件加速(如 GPU 并行计算),单帧数据处理时间控制在 10-30ms; 在高速公路巡航、城市道路匀速行驶等常见场景中,快系统可实现 50ms 内完成 “环境感知 - 轨迹输出” 全流程,满足车辆每秒 20 次以上的决策更新需求(即控制频率≥20Hz),避免因延迟导致的跟车距离偏差、车道保持偏移等问题。
2. 慢系统:百毫秒级(100-500ms)深度推理
慢系统依赖视觉语言大模型(VLM,如理想汽车 22 亿参数的 Transformer 解码器、毫末 HMVLM),需完成语义理解、逻辑推理等复杂任务,推理链路更长: 时间拆解:视觉编码(30-80ms,需处理多相机图像与地图数据)→ 模态对齐(20-50ms,实现文本 prompt 与视觉特征的匹配)→ 自回归推理(50-300ms,生成决策建议或轨迹规划),全流程耗时通常在 150-400ms;
硬件要求高,对算力需求极高,需搭载高规格车载 AI 芯片(如英伟达 Drive AGX Orin 高性能版),且难以实现高频闭环 —— 目前行业实践中,慢系统决策更新频率多为 1-5Hz(即每 200-1000ms 输出一次结果),无法直接用于紧急制动、快速变道等需要瞬时响应的场景。
三、快慢双系统的基本原理
3.1 快系统一般是基于端到端模型的快速决策
快系统在自动驾驶中通常基于端到端的模型架构。这种模型直接将传感器输入(如摄像头图像、激光雷达点云数据、车辆状态信息以及导航信息等)映射为车辆的行驶轨迹或控制信号输出。以理想汽车的快系统为例,其输入包括摄像头、激光雷达、GPS 定位、车辆位姿、IMU 导航信息等,这些多源信息首先经过专门为 Orin - X 优化过的 CNN 主干网络进行特征提取和融合,并投影至 BEV(鸟瞰图)空间。为增强 BEV 空间特征表达能力,还加入了记忆模块,不仅具备时序记忆功能,还拥有空间记忆能力。同时,特意额外设计了自车状态信息和导航信息这两个输入。信息进入 Transformer 编码器后,和加强后的 BEV 特征一起通过解码器,解码出动态障碍物、道路结构、OCC(占用栅格地图)以及行驶轨迹。这种端到端的设计方式,避免了传统模块化架构中复杂的中间处理环节,大大提高了决策的速度。
3.2 慢系统一般会包括语言模型和推理链拆解,就是慢在语义推理
图 理想的慢系统(系统2),来自网络
慢系统在自动驾驶中通常依托视觉语言大模型(VLM)来实现。视觉语言大模型能够对多模态的输入信息进行深度的语义理解和复杂的逻辑推理。
慢系统的核心优势在于其处理复杂、罕见交通场景的能力。与快系统不同,慢系统并不依赖于简单的模式匹配和经验决策,而是通过深入的语义理解和逻辑推理来应对各种复杂情况。在面对一些罕见的场景,如道路上突然出现的不明物体、特殊的交通事故现场或者不常见的交通管制情况时,快系统可能因为缺乏相应的经验模式而无法准确决策,但慢系统可以凭借其强大的推理能力,对场景进行全面分析,从多个角度考虑可能的行动方案,并评估每个方案的风险和可行性,最终做出合理的决策。例如,当遇到道路上有一个形状奇特的大型障碍物,且周围交通状况混乱时,慢系统能够综合考虑障碍物的位置、大小、自身车辆的性能以及周围其他车辆和行人的动态,制定出安全绕过障碍物的行驶轨迹。
由于推理链CoT的加入,慢系统的决策过程具有较好的可解释性。由于其基于逻辑推理和语义理解,在做出决策的过程中会生成一系列可读、可解释的中间结果。以毫末的慢系统为例,它采用多阶段链式推理(CoT Prompt),将模型推理过程拆分为场景理解、决策推理和轨迹生成三步,每一步都有明确的输出结果。这种可解释性使得研发人员能够更好地理解系统的决策依据,从而进行针对性的优化和改进。当发现系统在某个特定场景下做出了错误决策时,可以通过分析其推理过程,找出问题所在,如对某个交通标志的理解错误或者推理逻辑的漏洞等,进而对模型进行优化训练,提高其在该类场景下的决策准确性。而且,慢系统可以通过不断学习新的知识和案例,持续提升自身的推理能力和决策水平,具有较大的优化潜力。
3.3 快慢双系统的协同工作模式
在实际运行中,快慢双系统并非独立工作,而是通过信息交互紧密协作。
例如,在正常行驶过程中,快系统负责车辆的常规驾驶控制,如保持车速、跟车距离等。当遇到前方道路出现复杂的交通事故,交通状况混乱时,快系统无法准确判断行驶路径,此时它会将该场景信息发送给慢系统。慢系统经过分析,得出应该先在安全距离外停车等待,观察事故现场情况,寻找合适的绕行路线的决策建议,并将这些信息反馈给快系统。快系统根据慢系统的建议,控制车辆停车,并在合适的时机按照慢系统规划的绕行路线行驶。
快慢系统的分工如下:
场景类型 |
优先系统 |
推理时间需求 |
典型应用案例 |
紧急场景 |
快系统 |
≤50ms(需瞬时响应) |
前方车辆急刹、突发障碍物 |
常规场景 |
快系统 |
50-100ms(保证行驶流畅性) |
高速巡航、城市道路匀速跟车 |
复杂场景 |
慢系统 |
100-500ms(允许短时延迟) |
无信号灯复杂路口、道路施工 |
罕见场景 |
慢系统 |
500ms 内(需准确决策) |
特殊交通管制、极端天气路况 |
四、总结:快慢双系统的现状和未来
目前,多家企业已经在自动驾驶领域积极实践快慢双系统架构,并取得了一定的成果。理想汽车在其自动驾驶技术中应用快慢双系统,其快系统端到端模型在处理常见驾驶场景时表现出高效性,能够快速输出行驶轨迹,而慢系统视觉语言大模型为复杂场景下的决策提供了有力支持。