过去一年,如果把全球云厂商的技术路线摊开来看,会出现一个很有意思的画面。行业内的两家老大哥AWS 和 Google,几乎在同一时间朝着两个方向用力。
一个方向是向下。
芯片、网络、系统软件、调度、基础设施,被一层一层重新打磨。云厂商已经不满足于把算力卖出去,而是越来越执着于把底层的控制权握在自己手里。目的其实很朴素,让推理负载变得稳定、可控,像一套工业设备一样,能长时间运转、不掉链子、不出幺蛾子。
另一个方向是向上。
模型服务、Agent 能力、开发平台不断被收拢、封装。曾经零零散散的 API 和工具,被重新组织成一条完整的应用生产线。云不再只是原料供应商,而是直接下场,参与 AI 应用从设计到落地的整个过程。
这两个方向看起来一上一下,实则指向同一个判断:云已经不再把 AI 当成一种普通负载,而是把它当成正在重塑云自身形态的主业务。当推理成为核心负载,云要解决的问题也随之升级。不只是够不够快,而是能不能长期跑、跑得稳、跑得清楚,出了问题还能追溯、能治理。
ChatGPT 的出现,把这件事猛地往前推了一大步。企业很快发现了一个现实,模型再强,如果做不成应用、进不了流程、管不住风险,价值就会迅速打折。
于是,关注点开始悄然转移。比起谁的模型更聪明,企业更关心的是谁能把 AI 变成一个可交付、可运营、可治理的系统。也正是在这样的背景下,越来越多人把 2025 年称为 Agent 落地元年。并不是因为 Agent 一夜之间变得多么聪明,而是承载 Agent 的平台、工具和基础设施,终于开始像一套成熟的生产系统。
当竞争从模型升级为平台,一个更现实的问题随之浮出水面:平台的强弱,究竟该由谁来定义?模型可以上榜单、比分数,但平台能力涉及的是系统工程、治理机制,以及长期运行的确定性,显然不是厂商自己喊几句口号就能说清的。
Forrester 为什么要给 Agent 开发平台排名
很多人第一次看到 Forrester Wave 时,都会下意识把它当成一张厂商排行榜。但如果把视角拉回到企业现场,会发现 Forrester 真正想解决的,其实不是谁更靠前,而是一个更现实的问题:当 AI 开始进入生产系统,企业到底该怎么选平台。
在 AI 还停留在试验阶段时,企业的采购方式是可以拼装的。模型单独买,算力单独租,向量库、工具链、集成服务各找各的供应商,只要 demo 能跑起来,流程勉强通顺,就算阶段性成功。但一旦 AI 被放进核心业务链路,问题会在极短时间内集中暴露:出了故障很难说清责任归属,数据权限在系统之间反复穿透,治理规则各自为政,稳定性和成本曲线也开始失控。
正是从这一刻起,企业的采购逻辑发生了根本变化。相比买能力,他们更想买体系。把数据、模型、推理、Agent 和治理能力统一收拢到一套平台里,不是为了省事,而是为了确定性——谁负责、怎么管、出了问题能不能追溯和回滚,这些都必须在平台层面成为默认能力,而不是依赖项目经验和人工兜底。
Forrester 的问题意识,正是从这里出发的。 它评的不是某一个技术点有多先进,而是平台在真实企业环境里的可用性。换句话说,平台能不能陪企业把 AI 从能用一路跑到长期可运营。在 Forrester 的评估框架里,数据能力是否扎实、ModelOps 是否覆盖全生命周期、Agent 能否在治理与安全边界内进入业务流程,才是决定分数的关键。
全栈能力决定Agent场景的「产品能力」
如果把 AI 平台比作一辆要上高速、还要跑长途的车,Forrester 的关注点其实很朴素:油路稳不稳(数据底座)、保养体系全不全(ModelOps 全生命周期)、自动驾驶能不能安全上路(Agent 进入业务流程)、以及刹车和行车记录仪是不是出厂自带(治理、审计、可追溯与回滚)。它评的不是某个零件有多炫,而是整车能不能长期、稳定、可运营地跑起来。
按这套标准,国内格局已经分层得很清楚。Leaders 是全栈车厂:阿里云、百度智能云在右上角,说明既能打也敢投;火山引擎、华为云同样处在领先象限,但路线更鲜明,一个更偏性能和 Agent 落地效率,一个更偏全栈基础设施与可控性。
图片来源:Forrester
分数进一步把这种差异量化了。在 Current offering 维度上,百度以 4.46 领先,阿里为 4.30,火山 3.82、华为 3.64 紧随其后。领先者的优势并不来自某个参数的单点突破,而是整车工程做得更完整、更均衡。
图片来源:Forrester
那为什么百度能在这套评估里更靠前?Forrester 给出的线索其实很具体,可以拆解为三条连续的能力链路。
第一步,把找资料变成平台原生能力。报告点名百度把 Search 用在 RAG 和 agentic AI 上,这相当于给企业的知识库配了一套自带索引的导航系统,不用每次临时外挂检索组件、靠运气拼效果。更重要的是,报告同时强调百度在数据集成、管道、质量、安全与隐私上的表现,这些看起来不性感,却决定了企业敢不敢把 RAG/Agent 放进主流程。
第二步,把模型当成长期资产来养。Forrester 对千帆 ModelBuilder 的评价集中在开发、训练、微调、评估、部署的覆盖度。意思不只是能做模型,而是能把模型上线后持续管理:版本怎么控、效果怎么评、出了问题怎么回退。平台把这些动作做成默认项,企业的落地阻力就会小一大截。
第三步,不只搭应用,更要能跑得久。报告认为千帆 AppBuilder 的应用开发特性较完整,并特别指出百度在 platform operations 上整体更强。翻译过来就是:从可观测到治理到回滚,系统更像可持续运行的生产设施,而不是上线之后靠人值守。
三步合起来,百度得分靠前的逻辑就很直观了。知识链路更稳、模型生命周期更全、应用运营更可控。这也恰好踩中 Forrester 的核心标准,比的不是某个炫技功能,而是一套能把 AI 长期跑在生产系统里的默认能力。
平台标准落地后,中国 AI 云正在走向少数解
当评估标准从能不能做出效果切换到能不能长期运营,市场就会自动进入下一阶段:谁能把 AI 从一次性项目,变成一套可以长期跑、持续交付、出问题能回滚的系统,谁才有资格留在主桌。
中国市场之所以更容易、更快走向收敛,原因并不在于竞争不充分,而在于场景天然更严苛。金融、能源、政务、制造等行业对稳定、合规、连续运行的要求接近刚性,AI 一旦进入主流程,就不再是随时可撤的创新尝试,而是会直接影响业务安全与运营效率的生产设施。
这个变化也被需求侧的数据与招采条款进一步放大。2025 年上半年,中国大模型中标项目数达到 1810 个、金额突破 64 亿元,规模不仅超过 2024 全年,也意味着真金白银正在加速流向核心产业。与此同时,客户的要价明显变硬:从租几张 GPU 卡,变成要一套可信赖、可持续交付的 AI 算力系统。类似“7×24 小时安全运营服务”“99.999% 可用性”这样的要求,本质上是在把 AI 平台当作关键基础设施来验收,而不是把它当作一项新功能来试用。
金融行业的招投标也呈现出同样的趋势:2025 年 1–9 月相关中标项目数量与披露金额显著抬升,说明主战场正在从“试点”走向“常态化部署”。
阿里云和百度智能云路径不完全相同,但在关键命题上给出了相似答案:强化对底层资源与系统的控制,把 AI 当作需要长期维护的生产系统,把数据、模型、推理、Agent 和治理统一纳入平台调度。这种全栈化不是为了赢一场短跑,而是为了在高要求场景里把长期可用变成默认值。
所以所谓AI云双雄格局,更像是平台标准被抬高之后的自然筛选。当行业开始只为确定性买单,能把 AI 变成生产系统的玩家,最后会越来越少,但分量越来越重。