理想李想:自动驾驶,只是物理AI的一个起点
创始人
2026-03-19 12:20:01
0

IT之家 3 月 18 日消息,在昨日的 NVIDIA GTC 2026 上,理想汽车基座模型负责人詹锟发布了下一代自动驾驶基础模型 MindVLA-o1。

IT之家注意到,理想汽车 CEO 李想今日发布长文谈及了 MindVLA-o1。李想介绍称,理想汽车在底层实现了一个核心突破:原生 3D ViT —— 真正的三维视觉编码器。他表示,自动驾驶,只是物理 AI 的一个起点

在昨天的 NVIDIA GTC 2026 上,詹锟代表理想发布了下一代自动驾驶基座模型 MindVLA-o1。我们在底层实现了一个核心突破:原生 3D ViT —— 真正的三维视觉编码器。

我们在尝试解答一个问题:人类开车看上去没那么难,每个普通人都能把车开得又快又稳,但全世界最顶尖的企业砸了几千亿进去,自动驾驶仍然进展缓慢。问题到底出在哪?

我们一直在教 AI 做成年人的事,但从来没让它当过小孩。

人类在 0 到 6 岁的阶段学会了走路,学会了扔球、接球。看起来只是简单的动作,但实际上已经帮助孩子建立了对三维物理空间的理解。这就是为什么我们能精准测距、稳定驾驶,因为“3D 预训练”6 岁前就完成了。

但今天所有的端到端系统本质上都是“看 2D 视频学开车”,更像是一个人坐在电脑前看了十万小时行车记录仪,然后直接上路。它有了智能,但离人类的智能程度差得远。过去我们和行业使用的 BEV 把世界从俯视角拍扁,丢失了高度信息;OCC 确实是 3D 的,但缺失了语义信息。物理 AI 缺的不是更大的模型、更多的数据,而是一个能真正理解 3D 世界的视觉基础。

3D ViT 解决了这个问题。不再是从 2D“还原”3D,而是让模型一开始就工作在真实的三维世界里。以高分辨率多视角视觉为核心,在编码阶段直接完成对 3D 空间几何和语义的统一理解 —— 空间结构、位置关系、语义信息,一次完成。模型不只是看见画面,而是理解世界,既知道它在哪,也知道它是什么

在这个体系下,激光雷达的角色变了。它不再是感知的核心,而更像一把高精度的尺子,为视觉提供几何标定和近场空间约束。真正决定感知上限的,不是传感器的物理线数,而是模型的表征能力。在统一建模下,3D ViT 可以稳定感知并推理到 500 米以上的空间范围。

这件事以前不是没人想做,是做不到,因为 3D ViT 对车端推理算力提出了极高的要求。我们自研的马赫芯片,单颗有效算力是上一代的 3 倍,能把这套架构真正放进车里

有了 3D ViT 打底,MindVLA-o1 把空间理解、思考推理、驾驶行为统一在一个模型里。不光看见世界,还能在隐空间里模拟未来几秒的场景变化,想清楚再开。我们把这种能力称之为多模态思考。

我们也已经进行了验证,这套基座模型不只是为自动驾驶设计的。同一套 VLA 基座模型,能开车,也能控制机器人,它正在逐渐演化成一个通用的物理世界智能体

自动驾驶,只是物理 AI 的一个起点。

相关内容

最新资讯

拉里贾尼的继任者已确定是他?伊... 伊朗最高国家安全委员会秘书拉里贾尼日前遭以色列袭击身亡,有消息说,他的继任者已经确定,但是伊朗媒体予...
让健康教育扎根乡村校园 内蒙古通辽市科尔沁区莫力庙胜利学校校长葛利军(左一)与学生晨跑。本版图片均由学校提供 作为一所地处偏...
18家幼儿园组团“招兵买马”!... 3月19日,上海师范大学徐汇校区西部会议中心二号报告厅人头攒动。闵行区教育系统高校专场招聘会(上海师...
道路运输从业人员年龄上限放宽至... 根据交通运输部修订《道路运输从业人员管理规定》的决定,今天起,经营性道路客货运输驾驶员、道路危险货物...
通胀高企,美联储“按兵不动” 【环球时报报道 记者 倪浩】北京时间19日凌晨,美联储结束为期两天的议息会议后,宣布将联邦基金利率目...
【26新高考】省内省外院校怎么... 94所行业类院校:中国产业人才的“藏宝图” 【中考】这些科目将不计入中考总分 高考志愿填报,除了院...
耶鲁专升本:24 年本土王者,... 在河南专升本培训市场,耶鲁专升本凭借 24 年深耕积淀,早已从普通培训机构成长为学子们冲刺本科的 “...
遵守特朗普要求,内塔尼亚胡:以... 以色列总理内塔尼亚胡3月19日在一场新闻发布会上回答媒体提问时称,是以色列“单独”空袭了伊朗天然气田...
全球留学成本天花板被捅破,我们... 2026年短短3个月,留学圈的家长和学生就目睹了一场全球大学学费涨价接力赛。 先是 英国大学学费开启...
斯塔默与卡塔尔埃米尔通话:持续... 中新社伦敦3月19日电 (记者 欧阳开宇)英国首相斯塔默19日与卡塔尔埃米尔塔米姆通电话,斯塔默“强...