机器之心报道
作者:泽南
AI 正在进入下半场,最先进化的会是辅助驾驶?
最近,有关 AI 大模型进入瓶颈的讨论越来越多。强化学习之父 Rich Sutton 发表的前瞻论文《体验时代》指出,人工智能正在从依赖人类生成数据向体验式学习的范式转变。
OpenAI 前研究员姚顺雨则直言不讳地表示 AI 正在进入「下半场」。他认为,需要为现实世界的任务开发新的 AI 评估或配置。更重要的是,要实现超越人类的智能,AI 就必须超越模仿人类,依赖一种可随智能体改进而扩展的新数据源。
在自动驾驶领域,AI 范式转变的趋势同样也已显现。
上周刚刚结束的全球计算机视觉学术顶会 ICCV 2025 上,理想汽车自动驾驶高级算法专家詹锟在研讨会上发表了以《世界模型:让我们从数据闭环走向训练闭环》(World Model: Evolving from Data Closed-loop to Training Closed-loop)为主题的演讲。
詹琨在 ICCV 2025 具身智能研讨会(Learning to See: Advancing Spatial Understanding for Embodied Intelligence)上发表了主题演讲。
理想详细阐述了自己「从数据到训练」的系统化思路,提出了全球首个将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构。
自规则算法时代到大模型时代,理想不仅是技术演进的亲历者,同时也是行业趋势的塑造者。它这次在 AI 顶会上的亮相恰逢一个技术的重要节点,AI 的「下半场」有更多挑战,也有更多的突破点。
世界模型加入 VLA 闭环
理想 LiAD 的新技术路线
在 ICCV 大会上,理想系统介绍了自身在先进辅助驾驶技术上的技术路线,并由点带面,用近期的一系列研究工作将其串联起来。
目前理想汽车的辅助驾驶技术(LiAuto AD Max),是以 VLA(Vision Language Action,视觉语言行动模型)为核心的可交互自动驾驶方案。理想辅助驾驶的发展经历了从规则算法到端到端方案的进化。在去年,理想率先提出双系统方案 —— 使用 E2E 和 VLM 结合构建辅助驾驶系统,逐渐成为 AI 时代的主流路线。
通过直接输入传感器信号,输出驾驶轨迹来全量学习人类驾驶行为的方式,理想的辅助驾驶能力实现了能力的突破。自去年端到端辅助驾驶上线后,理想落地技术的 MPI(人类接管里程)水平在近 12 个月以内提升明显。
这是理想辅助驾驶技术的数据量和接管里程(MPI)之间的比值:
然而在 AI 模型的训练数据扩展到 1000 万 Clips 之后,理想发现基本的端到端、增加数据模范学习的方式面临着边际效应,技术提升再次出现了瓶颈。
研究人员发现:在辅助驾驶任务上,很多场景的数据是稀疏的,自然采集到的数据不足以训练 AI,但这些少见的场景(CornerCase)正是辅助驾驶需要改进的重点。在构建 L4 级的自动驾驶系统时,这些问题都需要得到解决。
面对缺乏数据源的挑战,理想的思路是从单一的数据闭环中走出来,进入更加系统的训练闭环。后者不仅意味着数据采集,还包含在给定训练目标的情况下,不断通过环境生成和环境反馈来进行迭代,最终达到训练的目标。
这种闭环的核心在于训练目标的达成,而不是单纯收集新的数据。
具体而言,理想希望构建一套具备先验知识和驾驶能力的 VLA 车端模型,并构建云端世界模型的训练环境为其进行训练。训练环境中既包含采集到的真实世界数据,也包含合成数据,又包含可以跟随模型一起探索的数据。然后,通过强化学习的体系,包括 RLHF/RLVR/RLAIF 等范式,可以不断训练模型,最终实现迭代训练的目标。
这套基于世界模型的庞大系统,其中要用到的技术会涉及到环境构建、智能体构建、反馈构建以及场景的多种推演。它主要支撑三种关键内容的产出:
根据上述目标,就需要有多种关键的模块和技术栈提供支持,比如场景重建能力、多传感器渲染能力、多模态生成能力、交通智能体、3D 资产库、评价反馈系统等等。与此同时,AI 基础设施的算力和效率也至关重要。
首先是环境的重建。自 2023 年起,理想团队一直在探索 3DGS 在自动驾驶重建领域的工作,最近一段时间,理想探索了重建 + 生成的路线,其新一代 AI 系统既具备重建的稳定性,又有生成的泛化能力。
随着 VGGT 等优秀的三维 Feedforward 的工作发展,理想也在探索下一代更加依赖生成的世界模型渲染系统。今年,理想参与的研究《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》就被 ICCV 大会收录。
Hierarchy UGP 的核心思想是构建一个由根层、子场景层和图元层组成的层次结构,并使用在四维空间中定义的统一高斯图元(UGP)作为表示。这种设计极大地增强了模型容量,能够建模大规模场景,并重建任意动态元素。
在构建仿真系统的同时,理想自动驾驶团队也在大量应用合成数据。
理想目前已经可以做到通过提示词(Prompt)直接生成全部的视频和点云,这类应用会用于一些少见但重要的场景,比如面对一些新法规准入条件,新的地区环境等等。
有了世界模型的合成数据能力后,AI 模型在训练的数据配比上更为合理,理想的辅助驾驶系统在实际道路表现的稳定性和能力的泛化上均有了很大的改善。
正如 AI 先驱者们的观察,在新架构上,训练闭环的效率是技术迭代的关键。
在现实世界数据「耗尽」之后,随着合成数据能力的增强,数据分布的配比改进,LiAD 的辅助驾驶能力还会越来越强。新的 VLA 方案推动了 Data Scaling Laws 的持续延伸 —— 在自动驾驶的场景下,数据量越大,辅助驾驶能力就越强。
从前沿成果到未来方向
自 2021 年起,理想汽车自动驾驶团队的前沿探索成果越来越多,仅中稿学术会议的就有 32 篇,其方向正在从感知 BEV E2E 任务,扩展到 VLM/VLA/ 世界模型等前沿方向。
本届 ICCV 大会上,理想自动驾驶团队共有五篇论文入选。除了在 workshop 中介绍的 Hierarchy UGP 之外,其研究成果还覆盖了 3D 数据集、端到端自动驾驶框架、3D 重建、视频模拟等方面。
在论文《3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views》中,研究人员提出了业界首个大规模 3D 真实汽车数据集 3DRealCar。它通过对 2500 辆汽车,三种不同光照条件下的精细 3D 扫描,获得了贴近真实世界水平的汽车图像和点云,可帮助人们实现高保真的 3D 重建。
在论文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》中,研究人员提出了端到端自动驾驶框架 World4Drive,它利用视觉基础模型构建潜在世界模型,用于生成和评估多模态规划轨迹。
World4Drive 首先提取场景特征,随后基于当前场景特征和驾驶意图生成多模态规划轨迹,并在预测多个未来状态,它还引入世界模型选择器模块来评估和选择最佳轨迹,可以实现无需感知标注的端到端规划。
论文《HiNeuS: High-fidelity Neural Surface Mitigating Low-texture and Reflective Ambiguity》中,作者提出统一框架 HiNeuS,解决了复杂场景下神经表面重建的多个持续挑战:既可以透过连续遮挡建模后面的形状,也能把规则形状正确对齐好,还能在不牺牲全局内容的情况下保持细节。
论文《RoboPearls: Editable Video Simulation for Robot Manipulation》中,作者提出了用于机器人操作的可编辑视频模拟框架 RoboPearls,它基于 3DGS 构建,能够从演示视频构建照片般逼真、视图一致的模拟,并支持各种模拟算子,包括各种对象操作。
在 ICCV 上,理想除了展示一系列研究之外,也聚焦了几个新方向。
现在的辅助驾驶领域里,最具挑战的应用场景是强化学习引擎。
现有的仿真场景对泛化性要求不高,合成数据可以不要求实时性,可以通过更大规模的模型和 pipeline 来优化。但是,强化学习既要求泛化性也要求时效性,还要求大规模的并发。因此理想认为,强化学习引擎最关键的五个因素在于:世界模型、3D 资产、仿真智能体、奖励模型和性能优化。
其中,世界模型、3D 资产和仿真智能体主要解决环境是否真实的问题,奖励模型则会直接对强化学习产生最重要的影响,性能优化是决定强化学习能否大规模应用的关键。理想正在持续推进这一系列技术难题的攻关与突破。
交互式智能体是目前业界面临的另一大挑战,这可能是一个比单车 L4 还要困难的问题。理想认为,可以通过调整强化学习 reward 的方式约束多个智能体的行为,改变 Agent(智能体)的行为分布,达到样本多样性,从而实现减少主动碰撞,提高运行效率等效果。
詹琨表示,理想正在开展的交互智能体工作 MAD 很快就会发表。
或许过不了多久,LiAD 又会迎来一次技术突破。
驱动行业进化
2023 年 1 月,理想定下了「成为人工智能企业」的目标,作为全球首个展示 VLA 辅助驾驶范式的车企,理想在 AI 领域的长线投入与产出,已经证明了其布局 AI 的决心。
从投入占比来看,理想的研发资金近一半投在了人工智能领域,已经建起的四支 AI 团队分别负责辅助驾驶、理想同学、智能工业和智能商业。
从实际落地的效果看,理想的两大战略级 AI 产品 —— 辅助驾驶和理想同学自 2024 年以来快速迭代,都取得了重大技术突破。今年 8 月份,随理想 i8 正式交付的 VLA 司机大模型,让理想汽车成为了行业首个推送 VLA 司机大模型的汽车企业。在这之前,基于 MindGPT 的理想同学还走出了车机,上线了手机 App。
更进一步,理想在 AI 技术突破的同时也在推动着行业的发展。其公开的研究成果、开源的项目已经在引领未来自动驾驶技术的方向。理想开源的部分辅助驾驶代码和数据库,已经被超过 3200 名开发者收藏或调用,其提出的 VLA 范式,也在逐渐成为行业共识。
未来 AI 带来的生产力大升级,会有理想出的一份力。