汽车行业内有两个厂商,很喜欢以“技术控”的形象示人,一个是比亚迪,另一个就是小鹏。比亚迪的发布会,重点往往会放在三电技术上;而小鹏的发布会,重点往往会放在智能化,尤其是AI相关的技术上。小鹏G7的发布会也延续了这样的风格。
作为一款定位偏舒适向的家用车,G7身上有很多可视化程度非常高、对于家庭用户的感知非常直接的点——座椅、化妆镜、磁吸小桌板……然而,何小鹏将发布会几乎三分之二的时间,都放在了首发搭载的自研AI芯片——折合算力超过2200TOPS的三颗“图灵”上。
为什么要将图灵AI芯片放在如此重要的位置?如此“膨胀”的算力,到底能给用车体验带来多大的改变?背后其实反映了小鹏坚定走AI科技企业路线的巨大决心。
01
智能化汽车,要这么高算力干嘛?
如果只是单纯考虑当前市场上主流车型的智能化程度,几百TOPS的算力已经足以支撑不少智驾系统实现中上水平表现的城区领航或者自动泊车功能。将现有的算力足足翻了三倍以上能带来什么呢?
虽然不是人工智能专业出身,但是我也努力尝试尽可能用比较通俗易懂的方式给大家解释一下。首先,要从发布会上被何小鹏提到的VLM、VLA说起。
VLM (Vision Language Models),即视觉语言模型,是一种能够处理图像和自然语言文本的机器学习模型。它能够将图片作为输入,并生成一系列标记来表示自然语言。
而VLA (Vision Language Action),则是在VLM模型的基础上进一步扩展,将视觉、语言和动作等多种不同的信息表达方式,都纳入大模型的输入源,也就是所谓的“多模态机器学习”模型。
通俗点说,以往的AI,只能通过单一表达方式的信息(譬如图像),来理解人类的意图。但是有了VLA之后,AI就可以把图像、声音等结合起来一起判断了。
举个例子,假设你想打开天窗,于是你用手指着天窗、对着车机说“打开这个”,在没有VLA模型支持的情况下,语音知道你要打开某个东西,车内的摄像头看到你指着天幕,但是系统因为没办法把语言、图像两种不同类型的信息结合起来理解,所以根本无法打开天窗——但是有了VLA就可以做到。
不过更先进的大模型,对于模型自身的体积,以及所需要提供训练的数据量要求,自然是更加庞大的,同样也需要更高的算力,来利用并解析更庞大的数据。这和人类大脑的体积越大、神经树突越多,就越聪明是一样的道理。
另外,车辆上的系统算力足够高的话,不需要通过网络与后台通信,直接在车辆自身的系统内就能完成“思考”的过程,也就是所谓的“全本地端运行”。如此一来,即便身处海外或者一些网络不发达的偏远地区,也照样能运行复杂的座舱或者智驾功能。
02
搭载图灵芯片的G7,能做到怎样的更高层级智能化体验?
按照发布会上的公开信息,G7身上搭载的这三颗“图灵”,拥有两个独立的NPU(专门用于神经网络处理的运算单元),从而获得了超过2200TOPS的折合算力,远超行业普遍有效算力范围(80-700TOPS))。
也就是说,一颗“图灵”的算力就相当于3颗英伟达OrinX,因此最高可运行的大模型参数达30B。由此,小鹏G7在智能驾驶、智能座舱两方面,都能实现更强大、更智能化的体验。
在智驾方面,以往的AI,只能用拍摄到的路面图像来识别障碍物、从而理解交通情况。而在足够高的算力下可以直接使用视频流,不但有路面的图像,还有听到的行人、车辆乃至施工设备的声音,来综合理解路面状况。这使得小鹏G7的驾驶辅助系统在特定场景下的表现更加“聪明”,能够实现主动避让路面塌陷,识别让行救护车,以及拥堵路段合理变道加塞等复杂动作。系统越聪明,对于当前路况的判断就越准确,值得信任的程度自然越高。
而在智能座舱方面,它能够实现更类人化的人机交互、更聪明地理解用户的意图并提供服务。譬如说,车机系统能够像人一样和用户唠嗑,甚至会接梗、吐槽、整活;无需联网就能实现记忆领航泊车功能,直接通过对话就能让车辆在智驾状态下到达常用指定地点并自动完成停车;摄像头拍到后排宝宝睡着的时候,可以自动提高后排空调温度、降低媒体音量;默默记录你的生活和用车习惯,模仿家里人的声音与你互动;在国外开车时说中文,语音助手自动转换成中文对话等等。
03
驾仕结语
如此高的算力,表面看是参数竞赛,实则指向一个本质需求——
消灭“人工智障”的尴尬瞬间,让用户“忽略”技术的存在,让用车的体验变得更加自然。
智能化的水平提升,并不像堆配置那样,在配置单上肉眼可见,却能真实地提升用户对自己爱车的信任感。这远比盲目叠加诸如“L2+”、“L2.9”这样的标签更重要。
(END)