镜舟科技案例
该项目案例由镜舟科技投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智化转型升级创新服务企业》榜单/奖项评选。
理想汽车作为智能电动汽车领域的领军企业,面临着前所未有的海量数据分析挑战。随着车辆数量的快速增长和业务复杂度的提升,企业的OLAP平台规模已达到12+集群、1.3万CPU核心,日均处理超过1000万查询请求,管理约300T数据量,每天百亿级数据入库。
在数字化转型的关键阶段,理想汽车原有的多引擎并存架构(Impala、StarRocks、TiDB等)导致资源成本居高不下、维护工作异常复杂。为实现数智化转型升级,理想汽车决定构建统一的云原生OLAP分析平台,选择镜舟数据库作为核心引擎,通过存算分离、Multi-warehouse等云原生能力重构整个数据分析体系,从而支撑从智能座舱、智能驾驶到企业经营分析的全场景数据决策需求。
时间周期:
开始时间:2022年1月
截止时间:2024年12月(至今持续优化中)
重要实施节点:
2022年1月-12月:引擎统一阶段,将多种OLAP引擎统一为StarRocks
2023年1月-12月:稳定性与易用性提升阶段,构建监控告警体系
2024年1月-至今:云原生演进阶段,部署镜舟数据库存算分离架构
理想汽车作为智能电动汽车企业,其数字化转型需求具有显著的行业特色和技术挑战。
在数据层面,企业需要处理来自车机埋点、车辆信号、智能驾驶传感器、用户行为等多源异构数据,单表数据量已达万亿行级别,存储需求超过250TB。在技术架构方面,原有系统存在多引擎并存、资源隔离困难、扩容不灵活等问题,急需构建统一、高效、可扩展的数据分析平台。
在应用场景方面,理想汽车需要支撑智能座舱体验优化、智能驾驶数据分析、车辆数据自助分析平台、运营及经营看板等多个业务领域的实时和离线分析需求。特别是在智能驾驶数据分析场景中,需要处理超过2000亿条记录的主键模型表,要求在5秒内完成全表扫描过滤聚合,并返回千万级结果集。
理想汽车希望通过数智化转型实现:
第一,构建统一的数据查询分析引擎,消除数据孤岛;
第二,实现存算分离的云原生架构,提高资源利用率和成本效益;
第三,建立多级隔离机制,保障系统稳定性;
第四,支持弹性伸缩,应对波动性查询负载;
第五,提供毫秒级查询响应,支撑实时业务决策。
最终目标是将数据真正转化为推动业务创新和智能化发展的核心动力。
理想汽车在数智化转型过程中面临三大核心挑战,这些挑战严重制约了企业数据分析能力的发挥。
首先是单集群内隔离困难导致的稳定性问题。在存算一体架构下,多业务共用集群时经常出现相互影响的情况,曾发生单个业务异常流量暴增直接将整个集群CPU资源打满,导致其他业务查询排队无法获取资源的严重事故。尽管尝试使用Resource Group实现隔离,但对CPU资源的隔离效果远不理想。同时,内表与外表共存带来稳定性风险,外表依赖的HiveMetaStore、Alluxio等外部组件不稳定可能导致整个集群崩溃。
其次是机器扩容不灵活且成本高昂的问题。车辆数据自助分析平台随着业务发展需要接入更多数据源,单表数据量迅速增长至万亿行级别,存储需求达到250TB。在存算一体架构下,只能按照存储需求扩容计算资源,但分析显示99%的查询只关注近一个月的热数据,大量历史数据很少被访问,导致大量CPU和内存资源浪费。
第三是弹性伸缩能力弱导致资源利用率低的问题。智能驾驶数据分析场景中维护着超过2000亿条记录的主键模型表,查询具有全表扫描过滤聚合、千万级结果集、5秒内完成等特点。查询峰值波动大但出现概率低,为满足峰值需求只能按最高负载配置资源,导致整体资源利用率仅约20%,成本效益极低。
理想汽车OLAP平台承载着海量的多源异构数据处理任务。
在数据类型方面,平台需要处理车机埋点数据、车辆信号数据、摄像头视觉数据、雷达传感器数据、用户行为数据、运营数据等多种类型。其中,车机埋点数据日均生成量超过200GB,车辆信号数据约2GB,智能驾驶相关的传感器数据更是达到TB级别。
在数据处理量方面,平台日均处理查询请求超过1000万次,管理存储数据约300TB,每天新增入库数据达到百亿级别。特别是在智能驾驶业务场景中,单个主键模型表包含超过2000亿条记录,用于智能驾驶模型训练的数据标签检索。车辆数据自助分析平台的核心表单表数据量已达万亿行级别,总存储需求超过250TB。
在数据处理性能方面,通过镜舟数据库的优化,单个CN/BE节点导入能力达到142MB/s,查询响应时间从原来的几十秒优化到秒级甚至毫秒级。Ad-hoc查询性能提升了10倍,从传统Linkis+Spark组合的几十秒响应时间优化到秒级响应。通过存算分离架构和缓存机制,99%的热数据查询性能与存算一体架构持平,极大提升了数据处理效率。
本项目的核心技术方案是基于镜舟数据库构建云原生存算分离OLAP架构,通过Multi-Warehouse、Kubernetes、存算分离等关键技术解决传统架构的痛点问题。
1. 总体架构设计
团队在镜舟数据库之上构建了DQS(统一查询服务),形成大数据平台的统一出口。DQS提供鉴权、路由、熔断、限流等核心能力,实现了从智能座舱、智能驾驶到企业经营分析的全场景覆盖,支持湖仓分析、实时离线分析、Ad-hoc查询和联邦查询等多种分析模式。
整体架构采用三层设计:应用层(DQS统一查询服务)、计算层(镜舟数据库Multi-Warehouse)、存储层(本地缓存+对象存储)。
2. Multi-Warehouse隔离技术实现
针对单集群内隔离困难的问题,团队设计了基于Multi-Warehouse的三级隔离策略。
第一级是内外表集群隔离,将湖仓外表查询与内表业务完全分离,避免不稳定的外表查询影响内表业务。
第二级是业务场景隔离,在湖仓集群中将Ad-hoc灵活分析与传统BI业务分离,在内表集群中按业务优先级分离高优与低优业务。
第三级是读写负载隔离,通过将写入场景(包括compaction负载)放到独立warehouse执行,配合资源组的横向隔离能力,实现更完善的多维度隔离。
在技术实现上,每个Warehouse配置独立的计算资源池,通过镜舟数据库的资源管理器实现动态资源分配。高优业务Warehouse配置高性能SSD存储和更多CPU核心,低优业务Warehouse使用标准配置。通过这种纵向物理隔离加上Resource Group的横向隔离,实现了比传统Resource Group更加彻底的隔离效果。
3. 存算分离架构技术方案
存算分离是本项目的核心技术突破。在存储层面,团队采用了热冷数据分层存储策略,将近一个月的热数据缓存到本地高速SSD,历史冷数据存储在成本更低的对象存储中。这一决策基于对半年查询日志的深度分析,发现99%的查询仅访问最近30天的数据。
在计算层面,镜舟数据库的计算节点(CN)与存储节点(FE/BE)完全解耦,计算节点可以根据查询负载动态扩缩容,而不受存储容量限制。计算节点通过智能缓存算法预取热数据,当本地缓存命中时查询性能与存算一体架构持平;即使缓存未命中,经过参数优化后性能下降也控制在可接受范围内。
在元数据管理方面,团队实现了元数据与数据的分离存储,元数据存储在高可用的分布式存储中,支持多个计算集群共享,避免了数据孤岛问题。
4. Kubernetes云原生部署技术
团队利用镜舟数据库良好的Kubernetes适配能力,实现了云原生部署。在资源调度方面,通过分析OLAP查询和Spark生产任务的负载特性,发现两者存在天然的波峰波谷互补性:白天是OLAP查询高峰期而Spark任务较少,夜间则相反。
基于这一发现,团队设计了动态资源调度算法,通过Kubernetes的资源配额机制,在不同时段动态调整镜舟数据库和Spark的资源分配。白天为镜舟数据库分配更多CPU和内存资源用于查询分析(即席查询、报表分析),夜间则将资源倾斜给Spark用于数据生产(批量计算、ETL等)。这种策略预计可将整体资源利用率提高50%。
存储架构采用bos对象存储+Alluxio缓存的分层架构,冷数据存储在对象存储降低成本,热数据通过Alluxio缓存保障查询性能。
验证配置:3节点集群,每节点128核/512GB/4*4TB,使用cn-ubuntu:3.1.5镜像,总算力384核心。
5. 湖仓Ad-hoc查询加速技术
针对湖仓Ad-hoc查询效率低的问题,团队设计了全新的查询加速方案。首先通过Flink实时同步Metastore元数据至镜舟数据库,消除了传统架构中元数据获取的延迟。其次利用镜舟数据库的资源常驻能力,避免了每次查询都需要申请资源的开销。
在查询路径优化方面,团队用自研的DQS服务替代了传统的Linkis组件,简化了查询链路并增强了稳定性保障。DQS集成了SQL解析、查询路由、结果缓存等功能,能够智能识别查询类型并路由到最适合的Warehouse执行。
在查询优化方面,团队实现了多层次的查询加速策略。第一层是结果缓存,对于重复查询直接返回缓存结果;第二层是预计算,夜间预先计算常用的聚合结果;第三层是智能索引,根据查询模式自动创建和维护索引。
6. 稳定性保障技术体系
团队构建了覆盖事前、事中、事后的全方位稳定性保障体系。在事前预防方面,通过构建通用巡检机制,提前发现潜在风险;通过DQS服务实现SQL拦截,过滤高风险查询;配合开发资源预估工具,确保资源合理配置。
在事中控制方面,通过Multi-Warehouse的多级隔离能力,在发生故障时有效缩小影响范围。同时实现了智能熔断机制,当某个Warehouse出现异常时自动切换到备用Warehouse,确保业务连续性。
在事后治理方面,提供了完善的数据治理能力,定期排除数据或元数据风险;通过分析历史问题识别优化点。
在开源生态方面,项目充分利用了Apache Flink、Spark等开源组件,构建了完整的数据处理和监控体系。同时,理想汽车团队积极参与StarRocks开源社区建设,向社区贡献代码补丁和功能优化建议,形成了技术共享和协同发展的良好生态。
在数据生态方面,项目与Alluxio、Hudi、Hive等数据湖技术栈深度集成,确保了与现有大数据平台的兼容性。
理想汽车OLAP引擎云原生架构演进项目取得了显著的商业价值和技术成果,为企业数智化转型带来了深刻变化。
在成本效益方面,通过存算分离架构和资源优化,项目实现了30%的机器资源节省,预计整体资源利用率可提高50%。原本在智能驾驶数据分析场景中仅20%的资源利用率得到大幅改善,为企业节省了数百万元的硬件投入成本。
在系统性能方面,平台稳定性从原来的多故障状态提升到99.99%,Ad-hoc查询性能提升了10倍,从几十秒响应时间优化到秒级响应。单个CN/BE节点导入能力达到142MB/s,查询处理能力显著增强,支撑日均超过1000万查询请求的业务需求。
在业务支撑能力方面,统一的OLAP平台成功覆盖了从智能座舱、智能驾驶到企业经营分析的全场景需求,消除了原有多引擎并存导致的数据孤岛问题。实现了湖仓分析、实时离线分析、Ad-hoc查询和联邦查询的一体化支持,为业务决策提供了更加及时和准确的数据支撑。
在技术创新方面,项目成为业界领先的车企数据平台云原生架构实践案例,为理想汽车在智能汽车领域的技术领先地位提供了有力支撑。通过与镜舟科技的深度合作,理想汽车不仅获得了技术能力提升,还在大数据领域建立了技术护城河,为未来业务发展奠定了坚实基础。
·镜舟科技
镜舟科技是中国领先的企业级数据基础设施服务商,也是全球领先开源项目 StarRocks 的主要贡献者。镜舟基于“开源+商业化”模式,致力于推动StarRocks在全球范围内的应用,并基于此提供企业级产品镜舟数据库(Mirrorship)及解决方案。作为新一代数据架构的践行者,镜舟科技率先推出基于StarRocks Lakehouse 解决方案,帮助企业客户实现从传统数仓向现代化 Lakehouse 架构的平滑演进。
·理想汽车
理想是⼀家⼈⼯智能企业,我们要做的不是汽⻋的智能化,⽽是⼈⼯智能的汽⻋化,并将推动⼈⼯智能普惠到每⼀个家庭。
通过产品、技术、业务模式的创新突破,为家庭打造更安全、更舒适、更便捷的智能电动⻋;提供更便捷的能源解决⽅案,增程和纯电并⾏,通过可再⽣能源⾰命,⼤规模替代燃油⻋;通过⼈⼯智能服务家庭⽤⼾,⾃研智能空间与辅助驾驶技术,让家与AI⼀起成⻓;搭建线上线下⼀体化的直营销售和服务系统,向⽤⼾提供更透明、更便捷、更⾼效的服务;坚持⾃建智能制造基地,⾃主掌控⽣产制造,⾃建供应链体系,提升制造质量和制造效率。