“跳过L3”引热议,打造更强自动驾驶AI大脑,数据闭环能力如何成为新护城河?
创始人
2026-05-09 04:00:42
0

近日,为期10天的2026北京国际汽车展览会正式闭幕。本次车展集中展示了最新智能驾驶系统(如华为乾崑ADS 5.0)、自研车载芯片(如理想马赫100芯片、小鹏图灵AI芯片)及高阶智驾模型算法(如Momenta R7)等在内的前沿成果。其中,智能驾驶与AI大模型的深度融合落地成为核心议题。

而就在北京车展前夕,业内爆发了一场关于自动驾驶技术发展路径的讨论,华为、吉利力挺“必经L3”,小鹏主张直接“跳跃”直达L4。无论如何,自动驾驶从概念走向现实,已进入新的发展阶段。

全新一代问界M9,搭载华为最新一代ADS高阶智驾系统;图片来自北京国际汽车展览会公众号

自动驾驶研发训练,数据贯穿全流程

自动驾驶的研发是一个迭代链路极长、环环相扣的系统工程。其核心流程通常包括数据采集、清洗、标注、训练、调优、仿真、测试、整车ECU部署、持续数据回流与模型监控等多个环节。在不同环节,数据形态与处理负载有着本质差异。

  • 采集与传输阶段每辆车通过超50个各类传感器(各类摄像头、激光雷达、毫米波雷达等),每日约上传十几 GB 数据,随着车辆规模扩大,总数据量迅速攀升至数十PB甚至上百PB。车队产生的多路同步原始流需回传至数据中心。

  • 清洗与标注阶段ETL管道需对PB级数据集进行去重、异常值清洗、时间对齐,并依据场景库调用2D/3D标注工具进行像素/点云级的语义分割、物体跟踪等。

  • 训练与仿真阶段数千个GPU节点需要读取海量的已标注样本(如图像-标签对)进行模型训练。仿真验证则需要将真实采集的场景数据(尤其是长尾corner case)注入数字孪生平台进行高并发回放。

自动驾驶技术快速迭代背后的数据困境

当前,自动驾驶正从辅助驾驶(L2/L2+)向有条件自动驾驶(L3)跨越,随着传感器数量和精度的大幅提升,以及端到端大模型的应用,海量的多模态数据、差异化的场景与高频率的训练需求,不仅驱动了算力需求,更对数据存储的性能、可扩展性与系统级稳定性构成了严峻挑战。根据相关报告,自动驾驶要达到高级别(SAE 5级)安全水平,需要在真实世界抓取约2.4亿公里的验证数据,由此产生的存储需求将达到惊人的50-100 EB级别。

而在自动驾驶研发训练过程中, 数据是这个闭环的“血液”。任何环节的数据瓶颈,都将直接影响整个研发进程。正是在这样的系统性压力下,行业普遍面临着规模化数据带来的多重现实困境。

海量异构数据的EB级容量扩展与管理难题

自动驾驶数据的“海量”是指EB级别的总容量增长,而“异构”则表现为从高吞吐的视频流、高密度的激光雷达点云到稀疏的毫米波雷达点云的混合形态。头部车企日处理数据量已达PB级,并需支持数百并发任务同时处理。同时,在训练阶段需频繁访问大量小文件,带来严重的元数据操作压力。元数据处理能力成为小文件并发读取的关键瓶颈。

全流程多协议的兼容性与性能差异化需求

从采集车的实时数据回传(对象接口),到AI训练时千万级文件的并行高速读取(POSIX接口为主),再到云端仿真测试时的对象化访问(多种协议接口,POSIX文件/对象接口),不同研发环节对数据访问的协议和性能指标要求大相径庭,导致数据需在不同存储系统间来回导出、转换、导入,不仅技术栈复杂、运维成本剧增,更在跨系统数据迁移时形成流程断层,严重拖慢算法迭代速度。

“IO墙”突破与冷热数据失衡致使存储成本高昂

在万亿参数大模型训练中,数据供给速度必须与GPU计算能力匹配,一旦存储I/O成为瓶颈,昂贵的GPU算力将大量闲置,研发成本急剧上升。为应对此挑战,常需过度配置高性能全闪存储来保障热数据访问,但这将大量温、冷数据(如历史场景包、旧版本模型)也存储于昂贵介质中,导致TCO(总体拥有成本)过高。反之,若采用人工或简单策略将数据归档至低性能介质,又会使数据“冻结”,难以被快速检索和复用,违背数据价值最大化原则。当前割裂的存储体系使得数据生命周期管理策略难以统一实施和数据一致性难以保证。

数据运维管理复杂

自动驾驶数据的全流程涉及采集、标注、训练、仿真与归档等多个异构环境,导致运维架构极其复杂。具体表现为:数据管道跨多个集群与存储后端,版本及依赖管理混乱,故障排查需穿透多个系统层级。这不仅大幅增加了运维人力投入,更因其链路冗长、缺乏统一视图,导致线上问题定位缓慢,直接影响算法迭代周期。

杉岩AIDP:面向自动驾驶的统一AI数据平台

针对上述挑战,杉岩数据构建了新一代AI数据平台——杉岩AIDP(SandStone AI Data Platform)。该平台以对象存储为基础,深度融合多协议访问、智能分层、存算融合与全局统一命名空间技术,为智能驾驶研发提供坚实的数据底座。

结语

如今,中国自动驾驶正处于从技术验证迈向规模化商业落地的关键阶段,下半场拼的是数据和将数据点石成金的能力,即数据闭环能力。面对体量爆发、类型庞杂、存储割裂的“数据新三座大山”,唯有夯实底层的数据基础设施,才能解锁AI模型的迭代潜力。

杉岩AIDP通过构建高性能、弹性、智能的统一数据基座,解决数据存、管、用的核心难题,将数据资产系统地转化为模型燃料,为自动驾驶企业构筑了扎实而关键的竞争优势。

相关内容

最新资讯

让阅读成为习惯!建国实小金沙江... 春风漫卷书页香,书香浸润少年心。为营造浓郁的校园阅读氛围,引导学生在书香中涵养品格、丰盈心灵,建国实...
刘畈学区举行“学习新思想 做好... 为深入推进少年儿童思想政治引领,展现新时代少年儿童爱党爱国、积极向上的精神风貌,提升学生的语言表达与...
最新变局惊心动魄,美国逼伊朗“... 在美伊谈判的关键时刻,霍尔木兹海峡局势严重出轨。在周四深夜发生激烈交火后,北京时间周五晚上,美中央司...
大学倒闭潮加速,为什么这些专业... 最近,有个消息在教育界很受关注,又有一所大学,关闭了。4月14日,美国的汉普郡学院宣布,将在2026...
活动回顾 | 知识产权系列讲座 知识产权系列讲座 活动回顾 2026年4月26日是第26个世界知识产权日,本年度全国知识产权宣传周活...
原创 宝... 进入到新能源汽车时代后,越来越多的汽车品牌开始调整策略,不仅在外观颜值方面做出了很大的调整,升级了全...
推荐拥有高新技术认证的汽车轴承... 在汽车制造行业中,轴承作为关键零部件之一,其质量和性能直接影响到汽车的安全性、可靠性和舒适性。对于汽...
2026必看!全国自助洗车系统... 2026全国自助洗车系统厂家排名:谁是行业真正的引领者? 据公安部交通管理局公开数据显示,截至20...
“跳过L3”引热议,打造更强自... 近日,为期10天的2026北京国际汽车展览会正式闭幕。本次车展集中展示了最新智能驾驶系统(如华为乾崑...
重庆自动驾驶新规落地!报废车回... 5月7日,重庆市经济信息委联合市公安局、市交委共同印发《重庆市智能网联汽车高速公路测试管理细则(试行...