目录:
一、世界模型的实质
二、MindVLA的框架解释
三、强化学习依靠世界模型而生效
四、总结
图 世界模型在mindVLA的架构中有一席之地,图片来自网络
一、世界模型的实质
世界模型的实质是一个想象空间,你可以在其中通过思考的方式来尝试在现实世界不能或者不敢尝试的事情。
世界模型必须尽可能拟合现实世界,这样你在想象空间中所做的试验及其结果,才能在现实世界有参考价值。
也就是在想象空间(世界模型)中,“如果......,就会.......”;同样的如果-就会也会在现实世界中大差不离地发生。
图 世界模型天然就是危险动作的安全试验场,图片来自网络
读者马上会问:那世界模型不就是虚拟的环境?何必需要再发明新的名词,难道就是为了高大上吗?
图 BEV鸟瞰图也可以算作一种世界模型,图片来自网络
笔者认为,世界模型这个概念之所以出现,是表示“无所不包”的意思,以前的虚拟环境只是对世界在某一个层次上的抽象,而世界模型理论上是对世界的所有层次的抽象。为了强调无所不包这种模拟的程度,才提出了世界模型这个高层次概念。
图 《我的世界》这个游戏是对世界模型无所不包特性的一个绝妙比喻,来自网络
比如,一般的行车地图是绝对不会包含交警挥手不同姿势的含义的,而世界模型应该能模拟交警不同手势的一般含义,是让你通过还是靠边停车还是让你减速暂避。世界模型都应该包括。而且如果自动驾驶系统在世界模型中理解错了,世界模型还会给出相应的惩罚。比如交警手势是让你暂停避让其它车辆,自动驾驶模拟行为却是直接开过去了,世界模型会模拟后果并给出惩罚。
二、MindVLA的框架解释
图 mindVLA的整体框图,强化学习和世界模型在最尾巴上,GTC 2025上PPT截图
以上是 MindVLA(面向自动驾驶的物理人工智能框架,A Physical AI Framework for Autonomous Driving)的技术架构图,核心是通过 “空间智能(V) - 语言智能(L) - 动作策略(A)” 三模块协同,让自动驾驶系统像人类一样 “感知环境、理解意图、决策行动”,并结合强化学习持续优化。
以下分模块拆解:
A、核心模块解析:V - L - A 闭环
1. V - Spatial Intelligence(空间智能模块)——“环境感知层”
输入:融合多传感器数据Cameras(摄像头)、Lidar(激光雷达),用于感知周围物体、车道、障碍物;
Position(定位)、Ego Pose(自车姿态)、Navigation(导航),用于确定自车位置、行驶方向与全局路线。
处理流程:3D Encoder(3D 编码器) + Encoder(通用编码器),提取多模态数据的特征;
Spatio - temporal Context(时空上下文),整合 “时间序列 + 空间位置” 信息(比如:记忆 “5 秒前前方无车,当前出现行人” 的动态变化);
3D Features(3D 特征) + 3D Projector(3D 投影器),将零散特征转化为 “三维空间结构化表征”(比如:还原行人、车辆的 3D 坐标与运动趋势)。
作用:让自动驾驶系统 “看懂” 物理世界的空间关系,像人类一样建立 “环境地图 + 动态变化认知”。
2. L - Linguistic Intelligence(语言智能模块)——“意图理解层”
核心组件:MindGPT(大语言模型,LLM)接收空间智能模块的 “环境结构化信息”,结合 Voice Control and Interaction(语音控制与交互)(比如用户说 “去最近的加油站”),理解任务目标(比如:解析 “加油站” 是目的地,“最近” 是约束条件)。
输出 “可执行的任务描述”(比如:把 “去加油站” 转化为 “规划从当前位置到最近加油站的最优路线”)。
作用:让自动驾驶系统 “听懂” 人类指令,衔接 “环境感知” 与 “动作决策”,解决传统自动驾驶 “仅执行预设规则,无法响应灵活需求” 的问题。
3. A - Action Policy(动作策略模块)——“决策执行层”
核心组件:Diffusion Decoder(扩散解码器)输入:语言智能模块的 “任务指令” + 空间智能模块的 “环境约束”;
处理:引入 Noise(噪声)(模拟真实世界的不确定性,比如:行人突然变向、其他车辆违规超车),通过 “扩散模型” 生成 Trajectories(行驶轨迹)(比如:规划 “避让行人的同时,保持车道、不影响后车” 的路径)。
创新点:用 “扩散模型” 做决策,优势是 “在不确定性中找最优解”(传统决策模型依赖 “规则 + 固定场景”,遇到突发情况易僵化;扩散模型可模拟多种可能,输出更灵活、安全的行驶策略)。
作用:让自动驾驶系统 “做出合理动作”,既满足人类意图(如 “去加油站”),又适应物理世界的动态变化(如 “避让突发障碍物”)。
B、强化学习(Reinforcement Learning)——“持续优化层”
核心逻辑:Trajectories(行驶轨迹)→ 输入 World Model(世界模型)(模拟不同轨迹的执行结果,比如:预测 “当前轨迹是否会导致拥堵或碰撞”);
Reward Model(奖励模型)→ 评估轨迹的 “优劣”(比如:安全、高效、舒适的轨迹得高奖励,危险、绕路的得低奖励);
强化学习通过 “试错 + 奖励反馈”,持续优化动作策略模块的决策逻辑(比如:让 “避让行人的轨迹” 更平滑、更符合交通规则)。
关键能力:RLHF for Behavior Preference(基于人类反馈的强化学习)→ 对齐人类驾驶习惯(比如:学习 “人类在拥堵时缓慢跟车,而非频繁加减速” 的偏好);
Closed Loop RL for Generalization(闭环强化学习泛化)→ 覆盖更多长尾场景(比如:极端天气、复杂路口),让决策更鲁棒。
C、底层创新技术(图下方的标注)
Fast Slow Thinking in one Single Model(单模型快慢思考):模仿人类 “直觉反应(快思考) + 深度推理(慢思考)”,让模型既能快速应对突发危险(如:瞬间刹车避让),又能深度规划复杂任务(如:跨城长途路线优化)。
Pretrained LLM from Scratch for Embedded Inferencing(嵌入式推理的从头预训练大模型):专为自动驾驶 “车端算力有限” 设计,让大语言模型(MindGPT)能在车载芯片上高效运行,而非依赖云端延迟。
Diffusion Policy for Collective Interactions(集体交互的扩散策略):考虑 “多车、行人、环境” 的交互影响(比如:预测 “旁边车辆加速时,自车是否需要让行”),让决策更符合真实交通的 “协作性”。
顺便说一句,mindVLA的LLM大语言模型是从头crafted的(crafted from scratch),也就是从头训练的,而且据说参数规模不大,和动不动40b,70b的大模型比较起来,十分袖珍且高效。
图 理想汽车从 0 开始设计和训练一个适合 VLA 的基座模型。在模型架构上还进行了稀疏化设计,减少模型容量,实现又小又性能强悍
图 理想的自动驾驶快慢双系统,来自网络
当然,理想还是一如既往地使用了快慢双系统,并且把快慢系统的模型合二为一。这一点另外文章在讨论。
三、强化学习依靠世界模型而生效
强化学习是智能体(比如智能车辆)与环境交互学习的过程。智能体在环境中采取动作,获得相应奖励或惩罚反馈 ,通过不断尝试,学习到能使长期累积奖励最大化的策略。比如自动驾驶汽车,根据路况决策行驶动作,若安全高效抵达获正奖励,反之得负奖励,以此优化决策能力。
核心概念就是“试验”和“反馈”,然后模型会记住“反馈”,以后“趋利避害”。
大白话就是,强化学习会“大胆试验”,“记住反馈”,“记吃又记打”,反复这个过程,越来越“强化”其“趋利避害”的能力。
问题是试验会有代价的,特别是很大的现实代价,如何让试验没有代价呢?
去一个接近现实的想象空间做试验,因为世界是想象的,所以代价也是想象的。
这就是里世界模型登场的地方。
图 强化学习的基本范式,图片来自网络
世界模型在强化学习中扮演了environment环境的角色,只不过世界模型应该是一个无所不包全知全能的虚拟环境。
图 强化学习示意图,来自mindVLA的PPT
图中at scale是表示世界模型或者学习的规模很大,足够大而具有实际意义。
读者可能会说,现在的世界模型远远不是无所不包,也就是说不是理论上对真实世界的完整模拟,还差得远。
这个理解是完全正确的。现在的世界模型当然不能完美模拟世界,现实世界的分辨率高到难以想象,细节多到难以想象。
这就像目前的辅助驾驶其实都没有达到L3级自动驾驶,但是不妨碍L2+,L2++,L2.99999等等人为概念出现。
市场不是绝对真理,其实学术也不是绝对真理,某种程度上讲,其实都是营销。都是个人或者经济体,挣扎在激烈竞争中力图出人头的努力,不排除用力过猛的情况。
所以作为读者和消费者,还是要靠自己的判断力。
四、总结
传统自动驾驶是 “传感器→规则→执行” 的机械流程,MindVLA则通过V(感知空间)-L(理解意图)-A(决策动作)+ 强化学习闭环,实现了:
更像人类的智能:融合“环境感知、语言理解、灵活决策”,响应人类需求(如语音指令),而非仅执行预设路线;
更适应真实世界:用扩散模型+强化学习,应对“不确定性场景”(如行人突然横穿、道路施工),解决传统自动驾驶“长尾场景鲁棒性差”的痛点;
持续进化能力:强化学习让模型能“自我学习、优化”,随着数据积累,决策会越来越贴近“安全、高效、舒适”的人类驾驶习惯。
简单说,MindVLA 试图让自动驾驶系统从“冰冷的规则执行者”,进化为 “能感知环境、理解人类、灵活决策且持续学习的智能体”,更接近真正的“自动驾驶大脑”。
而能持续学习,办法之一靠的就是“试验+反馈+改进”的强化学习方法。而试验不能在真实世界去试验,成本和代价太大了。世界模型就是为强化学习或者任何其它机器学习方法,提供一个无害又准确的playground。世界模型越准确,学习的反馈越准确,学习效果越好。