一段式端到端终将消失,端到端智能驾驶新技术之思维链CoT
创始人
2025-06-14 15:09:14
0

思维链 (Chain of Thought,CoT) 是一种人工智能方法,通过将复杂的任务分解为一系列逻辑步骤,最终实现解决方案,以模拟类似人类的推理过程。这种方法反映了人类智能的基本特征,提供了一种结构化的问题解决机制。换句话说,思维链 (CoT) 基于认知策略,将复杂问题分解为可管理的中间思想,然后依次引导至最终答案。思维链是针对大模型不擅长做逻辑思考题而开发的新技术,大模型也正是靠思维链获得了推理能力。

思维链是最适合端到端智能驾驶的技术路线,可以复用传统分段式智能驾驶的技术积累,可以单独优化某一模块,最重要是它提高了智能驾驶的可解释性,提高了智能驾驶的迭代能力,也能给乘客带来更高的信心,更信任智能驾驶。

如果 AI 被问到“天空是什么颜色的?”,AI 会生成一个简单直接的回答,例如“天空是蓝色的。”然而,如果使用思维链 (CoT) 提示要求 AI 解释为什么天空是蓝色的,AI 会将问题拆解为两步,首先会定义“蓝色”的含义(即一种原色),然后推导出天空之所以呈现蓝色,是因为大气吸收了其他颜色。这一回答体现了 AI 构建逻辑论证的能力。

智能驾驶可以视作一个推理问题,即输入环境信息(主要就是V,即视觉,激光雷达的点云信息和深度信息可以看做是一种特殊V,如果是全数字激光雷达可以直接输出3D图像,这和视觉完全一致,是更高级的3D视觉,单从这个角度说,激光雷达也可以是纯视觉),输出底盘执行动作A,L即大语言模型或基石多模态大模型做了环境认知。如果没有思维链,那就是没有L,直接从V输出到A。

图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

树形思维链和图形思维链是最适合自动驾驶的,因为正确的驾驶是不止一种的,ToT (Tree-of-Thoughts)允许语言模型同时考虑多种不同的推理路径,通过对推理过程进行自我评估,以及在必要时进行前瞻或回溯以做出全局选择。思维链的开山之作源自谷歌2021年12月发表的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,核心作者是知名AI华人学者魏杰森,2020 年本科毕业成为谷歌大脑的高级研究员,目前在OpenAI。

一般来说CoT会分为两种:基于人工示例标注的Few-shot CoT和无人工示例标注的Zero-shot CoT。回答问题“与法国接壤并有红白国旗的国家的首都在是哪里?”时,尽管没有经过此类问题的特定训练,但使用零样本思维链 (CoT) 的模型会利用其内嵌的地理和国旗知识来拆解问题,第一步是与法国接壤,第二步是红白国旗,推断出来是瑞士,第三步,根据地理知识,推断出是伯尔尼。

这里是一个CoT思维链在自动驾驶中的详细实例,车辆通过十字路口场景。

感知阶段

行为决策阶段

问题拆分:针对每个风险点,结合规则与车辆性能推理对应决策,并整合为最终方案。风险点包括黄灯剩余时间未知,根据常规交通灯周期推算,快速变红概率高,若强行通过可能违反交通规则;行人干扰:行人位于车辆行驶路径上,若保持原速行驶,到达路口时可能与行人发生碰撞;变道风险:右侧车辆变道会侵占本车道空间,且两车速度差与相对位置存在碰撞可能;最终决策:综合以上因素,同时满足交通规则与安全需求的最优解是立即减速停车。

底盘执行阶段

将停车决策拆解为制动力度控制、停车位置选择、后续动作规划三个步骤。系统根据当前车速与距离,计算合适的制动压力,向制动系统发送指令,平稳降低车速;选择距离行人与变道车辆安全距离外的位置,完全停车等待;持续监测行人与变道车辆动态,待行人通过、右侧车辆完成变道,且信号灯状态允许时,再规划启动与行驶路径。

自动驾驶与思维链总览

图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

使用思维链技术的智能驾驶模型一览

图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

上图包括了目前开环测试成绩最好的地平线的Senna,理想的Drive-VLM,小米的ORION,Waymo的EMMA,华为的DRIVE-CoT。 基本上优秀的端到端智能驾驶都采用了思维链技术。

有思维链与无思维链智能驾驶对比

full pipeline mode (V-L-A),vision-only mode (V-A), language-only mode (L-A), and uninformed mode (A) ,很明显,VLA效果要明显好很多。

数据来源:理想汽车论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》

图片来源:论文《DriveLM: Driving with Graph Visual Question Answering》

中国的交通规则执行查处的广度和深度是全球范围内最高的,因此必须使用思维链技术。

DriveCoT框架

相关内容

最新资讯

公费留学推荐人员名单,公费留学... 关 注 这 里 · 遇 见 更 好 的 自 己 ★ ★ ★ ★ ★ 以下文章来源于: 梁老师说: ...
洛阳留学机构哪家口碑好 我是从业八年的国际教育规划师陈岚,工作中接触到大量洛阳地区的学生与家庭,见证了留学咨询行业的诸多变化...
连续三年获瞪羚企业认定,掌上大... 近日,杭州市高新区(滨江)正式公布2024年度“瞪羚企业”名单,国内领先的校园综合服务平台掌上大学(...
长沙新加坡留学中介哪家强权威排... 一、在长沙如何选择新加坡留学中介? 近年来,新加坡以其优质的教育资源和地理文化上的邻近性,成为许多长...
乌克兰谈判代表:将与美方团队举... 当地时间12月21日,正在美国访问的乌克兰国家安全与国防委员会秘书乌梅罗夫在社交媒体表示,当天将与乌...
北京朝阳区成立未来创新教育中心 央广网北京12月20日消息(记者 王进文)12月20日,未来创新教育中心成立暨PDC教育联盟创新发展...
教育部召开2025年终总结会 12月18日,教育部召开2025年终总结会,深入学习贯彻党的二十届四中全会精神,聚焦贯彻落实习近平总...
以色列外长:只有哈马斯解除武装... 当地时间12月21日,以色列外交部长萨尔在社交媒体上发布消息称,他当天与美国参议员林赛·格雷厄姆举行...
欧亚经济委员会最高理事会会议在... 当地时间12月21日,欧亚经济联盟最高权力机构欧亚经济委员会最高理事会会议在俄罗斯圣彼得堡召开。会议...
山东枣庄:全市第二届初中校长年... 鲁网12月20日讯(记者 张刚)12月19日,以“数智时代的校长课程领导力与管理智慧”为主题的枣庄市...