4月8日,智谱(2513.HK)发布旗舰开源模型GLM-5.1,在完成长程任务(Long-Horizon Task)方面提升较为显著,能够在单次任务中持续工作超过8小时,最终交付工程级成果。
从3分钟的Vibe Coding(氛围编程)到30分钟的Agentic Engineering(智能体工程),再到8小时Long-Horizon Task,智谱试图推动大模型能力逐渐升级到生产力级别。
今年以来,中国市场大模型Token调用量大涨。智谱财报数据显示,公司2025年MaaS(模型即服务)API平台实现ARR(年化收入)17亿元,同比提升60倍,MaaS API平台毛利率同比提升近5倍至18.9%。据财报披露,GLM-5发布后获得字节、阿里、腾讯等头部大厂官方接入,中国十大互联网公司中已有九家深度集成GLM。
期间智谱大模型进行过两次提价,此次GLM-5.1再次提价10%。
在此前采访中,智谱CEO张鹏回应涨价问题时表示,一方面,公司确实存在算力供给的约束和瓶颈,但在整个市场环境中,基于算力提供API服务的厂商非常多,客户接受涨价并持续选择服务,说明平台模型能力具备领先优势。价格的本质由价值决定,能有效替代人力、提高转化效率和智能水平的资源稀缺且宝贵。
基于该逻辑,智谱在Token经济中坚持分层理论——简单对话与轻量任务的低阶Token将走向低价、免费的广告模式,高复杂度、高可靠性、具备生产力能力的高阶Token将具备持续定价权,而后者的基础是模型能力的持续提升。
根据业内最具代表性的三个代码评测基准的平均结果,包括衡量模型专业软件开发工作的SWE-Bench Pro、操作命令行解决问题的Terminal-Bench 2.0、从零构建完整代码仓库的NL2Repo,GLM-5.1取得全球模型第三、国产模型第一、开源模型第一的成绩。
智谱方面认为,下一阶段衡量大模型的标准将是“能工作多久”,即模型在长程任务中的表现——要保持稳定输出,模型面对的不只是更大代码量,还有一连串复杂的工程决策点:主动跑Benchmark、定位瓶颈、修改方案、再跑测试。这需要模型像人类工程师一样,形成“实验到分析再到优化”的完整闭环,而不是写完代码停下来等人打分。
在全球大模型竞争转入Agent的2026年,长时间保持目标一致性、自我纠错完成复杂工作的长程任务能力成为区分聊天机器人与生产力工具的重要属性。行业内,OpenAI引入“原生计算机使用”能力,推出专门针对长程执行优化的Thinking 模式;Anthropic推出基于“3-Agent”架构的开发模式。
智谱方面表示,延长模型的“有效工作时长”是提升智能体能力的一个基础维度,但这条路上仍有多项技术挑战:如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优,以及如何在没有确定数值指标的任务上建立可靠的自我评估机制等。
今日恒生指数高开,截至收盘,智谱股价涨11.49%至868港元,总市值3872亿港元。
(本文来自第一财经)