端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
创始人
2026-01-15 00:06:30
0

一个智能驾驶系统,在迈向高阶自动驾驶的过程中,应当具备何种能力?除了基础的感知、预测、规划、决策能力,如何对三维空间进行更深入的理解?如何具备包含法律法规、道德原则、防御性驾驶原则等知识?如何进行基本的视觉 - 语言推理?如何让智能系统具备世界观和价值观?

来自北京大学王选计算机研究所王勇涛团队的最新工作 KnowVal 给出了一种有效可行的方案。

  • 论文标题: KnowVal: A Knowledge-Augmented and Value-Guided Autonomous Driving System
  • 论文链接:https://arxiv.org/abs/2512.20299

本工作提出了一种新型自动驾驶系统 KnowVal,该系统通过感知模块与知识检索模块的协同作用,实现视觉 - 语言推理能力。

团队构建了涵盖交通法规、防御性驾驶原则与道德考量的综合驾驶知识图谱,并为其开发了高效的基于大型语言模型的检索机制。通过设计集成世界模型与价值模型的规划器,从而实现价值对齐决策。同时构建了人类偏好数据集用于训练价值模型。

实验表明,KnowVal 兼容现有的端到端和 VLA 方法,在 nuScenes 数据集上实现了最低碰撞率,并在 Bench2Drive 基准测试中取得了最先进的性能表现。

KnowVal 系统框架:

开放三维感知与知识检索

相互引导的视觉 - 语言推理

相比于当前主流的端到端自动驾驶系统和视觉 - 语言 - 动作(VLA)系统,KnowVal 将视觉 - 语言范式升级为开放三维感知 - 知识检索范式,并通过感知和检索的相互引导,实现了基础的视觉 - 语言推理:

检索引导的开放世界感知

通过自动驾驶领域专用感知和开放式三维感知,能够抽取常见实例与长尾实例的 3D 目标检测结果与实例特征,以及面向开放世界的全场景占据栅格预测与体素特征,抽取特征保证了整个系统的特征传递与可导;同时,通过利用轻型 VLM 实现的抽象元素理解,能够对上一时间帧知识检索分支要求的信息进行补充,针对「是否是隧道、桥梁场景?是否是夜间场景?」等抽象概念进行自然语言描述。

感知引导的知识图谱检索

将感知信息进行自然语言化,对包含了法律法规、道德原则、防御性驾驶原则等知识的知识图谱进行检索,得到多条相关性由高到低排列的知识条目以及其 Token。

基于世界预测和价值模型的轨迹规划

通过规划模块和世界模型模块的多轮迭代,得到多条候选自车轨迹、对应的其他物体的运动预测与隐式世界状态。价值模型以上述信息为输入,针对每条候选轨迹和检索得到的知识,进行价值评估,最终选定规划轨迹。

该系统的各个模块之间保持了显式结果和隐式特征的共同传递,是可端到端微调的 3D 视觉 - 语言 - 动作框架。

驾驶知识图谱构建与知识检索

作者团队收集了多样化的驾驶相关资源——包括国家现行交通法律法规、防御性驾驶原则、道德准则以及经验知识访谈——并依据文本结构构建了初始的知识森林。

随后利用大语言模型抽取实体并定义节点与边,形成结构化的知识图谱。在推理过程中,KnowVal 生成富含三维感知信息的自然语言查询,通过实体抽取、知识条目过滤与向量化,从知识图谱中检索相关条目,并按相关性降序进行排序。

价值模型构建与

基于价值模型的轨迹规划

KnowVal 提供了一种与现有端到端和 VLA 模型兼容的改造方式,针对其轨迹规划 Transformer 或 RNN 进行改造,引入对自车查询叠加的多条预设高斯噪声和多样性约束损失函数,使其具备生成多样化候选轨迹的能力。

KnowVal 构建了一个大规模驾驶价值偏好数据集,用以训练价值模型。数据集选取了多个自动驾驶真实场景数据,通过规划模型预测和随机生成的方式获取多条轨迹,并保存其相应的场景状态(隐式特征向量与显式鸟瞰渲染图),并利用前述的检索方法得到多条知识,为每个轨迹 - 知识对进行介于 -1 到 1 之间的价值评分标注,最终得到包含 16 万个轨迹 - 知识对的数据集。

模型推理时,该模块以构造的多条自车特征和感知得到的实例特征与作为查询,以感知得到的全部信息作为键 - 值,通过规划模块和世界模型模块的多轮迭代,得到多条候选自车轨迹、对应的其他物体的运动预测与隐式世界状态;价值模型以上述信息为输入,针对每条候选轨迹和检索得到的每条知识,进行价值评估,并计算每条轨迹的降序加权平均分数,以最终选定规划轨迹。

实验结果

作者团队将 KnowVal 框架应用至 GenAD、HENet++ 与 SimLingo 三个基线模型,并在 nuScenes 开环端到端驾驶基准和 Bench2Drive 闭环端到端驾驶基准上进行了测试。KnowVal 范式能够在 nuScenes 上取得最低的驾驶碰撞率,并在 Bench2Drive 上取得最高的驾驶分数和成功率。

现有基准测试对于法律和道德行为的评估并不够全面,因此,作者也提供了几个定性分析样例,以说明 KnowVal 的实际效果:

上图中两个样例,前者是在 nuScenes 真实数据上通过场景编辑得到,测试智能驾驶系统是否能够在路过积水时减速慢行、以免溅到行人;后者是在 CARLA 模拟器中隧道场景进行的测试,测试智能驾驶系统是否会遵循「隧道内 / 实线车道不能变道」的法律法规。实验结果说明,原本无法正确处理这些情况的端到端智驾模型,增加了 KnowVal 的知识检索与价值评估后,能够正确应对这些情形。

作者介绍

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室,第一作者为北京大学博士生夏仲禹,通讯作者为博士生导师王勇涛副研究员。VDIG 实验室近年来在 CVPR、NeurIPS、IJCV、ICCV、ICML、AAAI、ECCV 等顶会顶刊上有多项重量级成果发表,多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项,与国内外知名科研机构和企业广泛开展合作。

相关内容

最新资讯

敏感时刻,美国媒体突然怒斥:双... 曾威胁伊朗政府不得对伊朗国内的“抗议者”采取措施,否则就会出兵干涉的美国白宫,如今却因为自家的移民与...
大理市海东墨弦书院实验小学举办... 近日,大理市海东墨弦书院实验小学举办了一场以“科技点亮童年·元旦奔赴未来”为主题的科普活动,全校师生...
内蒙古小学校服薄膜调查结果通报 2026年1月9日,网民发布视频反映“锦山第三小学的冬季校服夹层中发现薄膜状物质”,引起社会关注。喀...
取消期末统考 家长“慌”的是失... 顶端新闻·河南商报评论员 聂辉 取消高一、高二期末统考,所有的学生都值得欢呼一场。 “为孩子好”的家...
女子当街抢小孩,被周围群众按住... 近日,湖南邵阳。“女子当街抢小孩被群众按住”一事引发关注,现场视频显示,涉事女子被控制后不停认错求饶...
舰上思政课!武汉城市学院让红色... 日前,武汉城市学院打破传统思政课堂边界,将《思想道德与法治》课程搬进校内驻泊的106西安号驱逐舰,打...
刚刚,徐州市教育局最新发布! 刚刚, 晨小编得到最新消息, 徐州市2026年中考报名工作 即将开始! 什么时候报名? 如何报名? ...
凤凰直击丨伊朗举行大规模公开葬... 据凤凰卫视报道,在伊朗抗议持续两周后,伊朗1月14日在首都德黑兰为在骚乱中超过百名遇难者举行隆重葬礼...
美国驻沙特使馆要求工作人员“提... △沙特阿拉伯首都利雅得(资料图)美国驻沙特阿拉伯大使馆当地时间14日发布安全警告说,鉴于地区局势持续...
团体标准落地、多方共促中老年文... 为推动中老年艺术与文化教育规范化发展,让中老年群体的艺术学习与文化求知有章可循、有标可依,1月10日...