一段式端到端终将消失，端到端智能驾驶新技术之思维链CoT_科技资讯_新闻资讯

一段式端到端终将消失，端到端智能驾驶新技术之思维链CoT

创始人

2025-06-14 15:09:14

0次

思维链 (Chain of Thought，CoT) 是一种人工智能方法，通过将复杂的任务分解为一系列逻辑步骤，最终实现解决方案，以模拟类似人类的推理过程。这种方法反映了人类智能的基本特征，提供了一种结构化的问题解决机制。换句话说，思维链 (CoT) 基于认知策略，将复杂问题分解为可管理的中间思想，然后依次引导至最终答案。思维链是针对大模型不擅长做逻辑思考题而开发的新技术，大模型也正是靠思维链获得了推理能力。

思维链是最适合端到端智能驾驶的技术路线，可以复用传统分段式智能驾驶的技术积累，可以单独优化某一模块，最重要是它提高了智能驾驶的可解释性，提高了智能驾驶的迭代能力，也能给乘客带来更高的信心，更信任智能驾驶。

如果 AI 被问到“天空是什么颜色的？”，AI 会生成一个简单直接的回答，例如“天空是蓝色的。”然而，如果使用思维链 (CoT) 提示要求 AI 解释为什么天空是蓝色的，AI 会将问题拆解为两步，首先会定义“蓝色”的含义（即一种原色），然后推导出天空之所以呈现蓝色，是因为大气吸收了其他颜色。这一回答体现了 AI 构建逻辑论证的能力。

智能驾驶可以视作一个推理问题，即输入环境信息（主要就是V，即视觉，激光雷达的点云信息和深度信息可以看做是一种特殊V，如果是全数字激光雷达可以直接输出3D图像，这和视觉完全一致，是更高级的3D视觉，单从这个角度说，激光雷达也可以是纯视觉），输出底盘执行动作A，L即大语言模型或基石多模态大模型做了环境认知。如果没有思维链，那就是没有L，直接从V输出到A。

图片来源：论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

树形思维链和图形思维链是最适合自动驾驶的，因为正确的驾驶是不止一种的，ToT (Tree-of-Thoughts)允许语言模型同时考虑多种不同的推理路径，通过对推理过程进行自我评估，以及在必要时进行前瞻或回溯以做出全局选择。思维链的开山之作源自谷歌2021年12月发表的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》，核心作者是知名AI华人学者魏杰森，2020 年本科毕业成为谷歌大脑的高级研究员，目前在OpenAI。

一般来说CoT会分为两种：基于人工示例标注的Few-shot CoT和无人工示例标注的Zero-shot CoT。回答问题“与法国接壤并有红白国旗的国家的首都在是哪里？”时，尽管没有经过此类问题的特定训练，但使用零样本思维链 (CoT) 的模型会利用其内嵌的地理和国旗知识来拆解问题，第一步是与法国接壤，第二步是红白国旗，推断出来是瑞士，第三步，根据地理知识，推断出是伯尔尼。

这里是一个CoT思维链在自动驾驶中的详细实例，车辆通过十字路口场景。

感知阶段

行为决策阶段

问题拆分：针对每个风险点，结合规则与车辆性能推理对应决策，并整合为最终方案。风险点包括黄灯剩余时间未知，根据常规交通灯周期推算，快速变红概率高，若强行通过可能违反交通规则；行人干扰：行人位于车辆行驶路径上，若保持原速行驶，到达路口时可能与行人发生碰撞；变道风险：右侧车辆变道会侵占本车道空间，且两车速度差与相对位置存在碰撞可能；最终决策：综合以上因素，同时满足交通规则与安全需求的最优解是立即减速停车。

底盘执行阶段

将停车决策拆解为制动力度控制、停车位置选择、后续动作规划三个步骤。系统根据当前车速与距离，计算合适的制动压力，向制动系统发送指令，平稳降低车速；选择距离行人与变道车辆安全距离外的位置，完全停车等待；持续监测行人与变道车辆动态，待行人通过、右侧车辆完成变道，且信号灯状态允许时，再规划启动与行驶路径。

自动驾驶与思维链总览

图片来源：论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

使用思维链技术的智能驾驶模型一览

图片来源：论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

上图包括了目前开环测试成绩最好的地平线的Senna，理想的Drive-VLM，小米的ORION，Waymo的EMMA，华为的DRIVE-CoT。基本上优秀的端到端智能驾驶都采用了思维链技术。

有思维链与无思维链智能驾驶对比

full pipeline mode (V-L-A),vision-only mode (V-A), language-only mode (L-A), and uninformed mode (A) ，很明显，VLA效果要明显好很多。

数据来源：理想汽车论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》

图片来源：论文《DriveLM: Driving with Graph Visual Question Answering》

中国的交通规则执行查处的广度和深度是全球范围内最高的，因此必须使用思维链技术。

DriveCoT框架

车辆 Survey 推理模型 Driving 问题 Future 思维行人智能 mode Chain and 思维链

上一篇：车最不建议买的三个颜色

下一篇：订单“链”动，助力淄博新能源汽车产业加速跑

一段式端到端终将消失，端到端智能驾驶新技术之思维链CoT

相关内容

最新资讯