来源:Ai科技网
12月中旬,OpenAI在全球同步推出新一代大模型GPT‑5.2(代号“大蒜”),并宣称该模型在工具调用、响应速度等方面实现突破。然而,仅上线两天,社交媒体和第三方评测平台的反馈便呈现出“降智”趋势,用户对模型的语言自然度、情感表达以及多模态能力普遍不满,甚至出现“奥特曼慌了”的戏称,成为本轮AI竞争的热点话题。
一、核心评测结果显示“降智”迹象
能力指数(ECI)仅居第二:Epoch AI最新报告给出GPT‑5.2的ECI得分152,仅次于谷歌Gemini 3 Pro,未能实现“一路领跑”。
基准测试表现分化:在FrontierMath数学测评中,GPT‑5.2仅在T1‑3级别保持领先,T4级别被Gemini 3夺冠;在SimpleQA Verified上,GPT‑5.2的可信度甚至低于前代GPT‑5.1,显示迭代后可信度下降。
多项公开基准落后:OCR‑Arena、simple‑bench、Live‑Bench等评测中,GPT‑5.2的排名均在Claude Opus 4.5之后;在视觉能力指数测试中,Gemini 3 Pro的平均得分高出4.5分。
用户体验负面:大量开发者在社区平台上吐槽模型“语气冰冷、逻辑混乱”,甚至出现“GPT‑5.2距离成为一块石头也不远”的极端评价。
二、背后技术瓶颈与内部动向
OpenAI内部已将ChatGPT的优化提升至最高优先级,并在短期内暂停了AGI研发和Sora项目八周,以集中资源“破局”。但从公开信息看,模型在预训练阶段遭遇了Scaling瓶颈,后训练的改进未能弥补底层算力和数据规模的不足,导致整体性能提升有限。
三、竞争格局:谷歌Gemini 3 Pro抢占C位
谷歌在2025年末推出的Gemini 3 Pro+Nano Banana Pro组合,以更强的预训练规模和多模态融合能力,在多项长程任务、视觉推理以及代码生成基准中全面领先GPT‑5.2。谷歌创始人谢尔盖·布林在斯坦福演讲中公开承认过去对AI风险的“最大失误”,并强调公司已“重回AI浪潮之巅”,进一步加剧了OpenAI的竞争压力。
四、舆论热点:奥特曼“慌了”
在GPT‑5.2发布当天,官方宣传视频中出现的奥特曼形象因“API调用量突破万亿token”而被夸大宣传,随后在社交平台上被网友戏称为“奥特曼慌了”。该梗迅速发酵,成为讨论模型表现不佳的代名词,也反映出公众对AI产品宣传与实际体验之间落差的敏感度。
五、后续展望
OpenAI的应对策略:公司计划在未来数周内继续聚焦ChatGPT的性能优化,并准备在明年初进行更大规模的发布,以期在功能和安全性上实现突破。
行业竞争态势:除谷歌外,Claude 4.5 Opus、Grok 4等模型在部分细分任务上已具备竞争力,AI生态正进入多方并进、快速迭代的阶段。
用户期待:截至目前,ChatGPT的周活跃用户已超过8亿,市场份额约76%,但用户对模型“自然度”和“情感智能”的期待仍在提升,OpenAI若不能在这些维度实现显著改进,可能面临更大的市场份额流失风险。
结语:GPT‑5.2的“降智”争议凸显了大模型迭代的高风险特性,也让业界再次审视“技术领先”与“用户体验”之间的平衡。随着谷歌Gemini 3 Pro的强势登场,2025年的AI竞争格局已初现分化,OpenAI若想重新夺回技术高地,必须在预训练规模、后训练策略以及安全合规方面做出更具突破性的创新。
上一篇:迈凯伦疑似抄袭小米?这也太像了!