思维链 (Chain of Thought,CoT) 是一种人工智能方法,通过将复杂的任务分解为一系列逻辑步骤,最终实现解决方案,以模拟类似人类的推理过程。这种方法反映了人类智能的基本特征,提供了一种结构化的问题解决机制。换句话说,思维链 (CoT) 基于认知策略,将复杂问题分解为可管理的中间思想,然后依次引导至最终答案。思维链是针对大模型不擅长做逻辑思考题而开发的新技术,大模型也正是靠思维链获得了推理能力。
思维链是最适合端到端智能驾驶的技术路线,可以复用传统分段式智能驾驶的技术积累,可以单独优化某一模块,最重要是它提高了智能驾驶的可解释性,提高了智能驾驶的迭代能力,也能给乘客带来更高的信心,更信任智能驾驶。
如果 AI 被问到“天空是什么颜色的?”,AI 会生成一个简单直接的回答,例如“天空是蓝色的。”然而,如果使用思维链 (CoT) 提示要求 AI 解释为什么天空是蓝色的,AI 会将问题拆解为两步,首先会定义“蓝色”的含义(即一种原色),然后推导出天空之所以呈现蓝色,是因为大气吸收了其他颜色。这一回答体现了 AI 构建逻辑论证的能力。
智能驾驶可以视作一个推理问题,即输入环境信息(主要就是V,即视觉,激光雷达的点云信息和深度信息可以看做是一种特殊V,如果是全数字激光雷达可以直接输出3D图像,这和视觉完全一致,是更高级的3D视觉,单从这个角度说,激光雷达也可以是纯视觉),输出底盘执行动作A,L即大语言模型或基石多模态大模型做了环境认知。如果没有思维链,那就是没有L,直接从V输出到A。
图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》
树形思维链和图形思维链是最适合自动驾驶的,因为正确的驾驶是不止一种的,ToT (Tree-of-Thoughts)允许语言模型同时考虑多种不同的推理路径,通过对推理过程进行自我评估,以及在必要时进行前瞻或回溯以做出全局选择。思维链的开山之作源自谷歌2021年12月发表的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,核心作者是知名AI华人学者魏杰森,2020 年本科毕业成为谷歌大脑的高级研究员,目前在OpenAI。
一般来说CoT会分为两种:基于人工示例标注的Few-shot CoT和无人工示例标注的Zero-shot CoT。回答问题“与法国接壤并有红白国旗的国家的首都在是哪里?”时,尽管没有经过此类问题的特定训练,但使用零样本思维链 (CoT) 的模型会利用其内嵌的地理和国旗知识来拆解问题,第一步是与法国接壤,第二步是红白国旗,推断出来是瑞士,第三步,根据地理知识,推断出是伯尔尼。
这里是一个CoT思维链在自动驾驶中的详细实例,车辆通过十字路口场景。
感知阶段
行为决策阶段
问题拆分:针对每个风险点,结合规则与车辆性能推理对应决策,并整合为最终方案。风险点包括黄灯剩余时间未知,根据常规交通灯周期推算,快速变红概率高,若强行通过可能违反交通规则;行人干扰:行人位于车辆行驶路径上,若保持原速行驶,到达路口时可能与行人发生碰撞;变道风险:右侧车辆变道会侵占本车道空间,且两车速度差与相对位置存在碰撞可能;最终决策:综合以上因素,同时满足交通规则与安全需求的最优解是立即减速停车。
底盘执行阶段
将停车决策拆解为制动力度控制、停车位置选择、后续动作规划三个步骤。系统根据当前车速与距离,计算合适的制动压力,向制动系统发送指令,平稳降低车速;选择距离行人与变道车辆安全距离外的位置,完全停车等待;持续监测行人与变道车辆动态,待行人通过、右侧车辆完成变道,且信号灯状态允许时,再规划启动与行驶路径。
自动驾驶与思维链总览
图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》
使用思维链技术的智能驾驶模型一览
图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》
上图包括了目前开环测试成绩最好的地平线的Senna,理想的Drive-VLM,小米的ORION,Waymo的EMMA,华为的DRIVE-CoT。 基本上优秀的端到端智能驾驶都采用了思维链技术。
有思维链与无思维链智能驾驶对比
full pipeline mode (V-L-A),vision-only mode (V-A), language-only mode (L-A), and uninformed mode (A) ,很明显,VLA效果要明显好很多。
数据来源:理想汽车论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》
图片来源:论文《DriveLM: Driving with Graph Visual Question Answering》
中国的交通规则执行查处的广度和深度是全球范围内最高的,因此必须使用思维链技术。
DriveCoT框架
上一篇:车最不建议买的三个颜色