GPT‑5.2发布48小时遭遇全网差评,奥特曼“惊慌”成热点!
创始人
2025-12-15 19:55:33
0

来源:Ai科技网

12月中旬,OpenAI在全球同步推出新一代大模型GPT‑5.2(代号“大蒜”),并宣称该模型在工具调用、响应速度等方面实现突破。然而,仅上线两天,社交媒体和第三方评测平台的反馈便呈现出“降智”趋势,用户对模型的语言自然度、情感表达以及多模态能力普遍不满,甚至出现“奥特曼慌了”的戏称,成为本轮AI竞争的热点话题。

一、核心评测结果显示“降智”迹象

能力指数(ECI)仅居第二:Epoch AI最新报告给出GPT‑5.2的ECI得分152,仅次于谷歌Gemini 3 Pro,未能实现“一路领跑”。

基准测试表现分化:在FrontierMath数学测评中,GPT‑5.2仅在T1‑3级别保持领先,T4级别被Gemini 3夺冠;在SimpleQA Verified上,GPT‑5.2的可信度甚至低于前代GPT‑5.1,显示迭代后可信度下降。

多项公开基准落后:OCR‑Arena、simple‑bench、Live‑Bench等评测中,GPT‑5.2的排名均在Claude Opus 4.5之后;在视觉能力指数测试中,Gemini 3 Pro的平均得分高出4.5分。

用户体验负面:大量开发者在社区平台上吐槽模型“语气冰冷、逻辑混乱”,甚至出现“GPT‑5.2距离成为一块石头也不远”的极端评价。

二、背后技术瓶颈与内部动向

OpenAI内部已将ChatGPT的优化提升至最高优先级,并在短期内暂停了AGI研发和Sora项目八周,以集中资源“破局”。但从公开信息看,模型在预训练阶段遭遇了Scaling瓶颈,后训练的改进未能弥补底层算力和数据规模的不足,导致整体性能提升有限。

三、竞争格局:谷歌Gemini 3 Pro抢占C位

谷歌在2025年末推出的Gemini 3 Pro+Nano Banana Pro组合,以更强的预训练规模和多模态融合能力,在多项长程任务、视觉推理以及代码生成基准中全面领先GPT‑5.2。谷歌创始人谢尔盖·布林在斯坦福演讲中公开承认过去对AI风险的“最大失误”,并强调公司已“重回AI浪潮之巅”,进一步加剧了OpenAI的竞争压力。

四、舆论热点:奥特曼“慌了”

在GPT‑5.2发布当天,官方宣传视频中出现的奥特曼形象因“API调用量突破万亿token”而被夸大宣传,随后在社交平台上被网友戏称为“奥特曼慌了”。该梗迅速发酵,成为讨论模型表现不佳的代名词,也反映出公众对AI产品宣传与实际体验之间落差的敏感度。

五、后续展望

OpenAI的应对策略:公司计划在未来数周内继续聚焦ChatGPT的性能优化,并准备在明年初进行更大规模的发布,以期在功能和安全性上实现突破。

行业竞争态势:除谷歌外,Claude 4.5 Opus、Grok 4等模型在部分细分任务上已具备竞争力,AI生态正进入多方并进、快速迭代的阶段。

用户期待:截至目前,ChatGPT的周活跃用户已超过8亿,市场份额约76%,但用户对模型“自然度”和“情感智能”的期待仍在提升,OpenAI若不能在这些维度实现显著改进,可能面临更大的市场份额流失风险。

结语:GPT‑5.2的“降智”争议凸显了大模型迭代的高风险特性,也让业界再次审视“技术领先”与“用户体验”之间的平衡。随着谷歌Gemini 3 Pro的强势登场,2025年的AI竞争格局已初现分化,OpenAI若想重新夺回技术高地,必须在预训练规模、后训练策略以及安全合规方面做出更具突破性的创新。

相关内容

最新资讯

中财大诺奖课堂|百余名中学师生... 12月18日上午,诺贝尔经济学奖得主、哈佛大学经济系亚当斯大学讲席教授、中央财经大学特聘教授Eric...
私人影院涉黄经营,成都警方通报 为持续净化社会治安环境,我市始终保持对娱乐服务场所涉黄等违法犯罪活动的高压严打态势。今年以来,成都市...
2026年首都师范大学音乐考研... 26研的小伙伴可以拍课了,12月28日开班! (扫码联系老师,免费试听) 首师大历年上岸成果 202...
陕西交通大学简介,陕西交通大学... 陕西交通大学简介,陕西交通大学是985还是211 陕西交通大学?别搞混了!这所985/211强校的真...
杨立昆创办新公司 AMI,拟募... DoNews12月21日消息,人工智能科学家杨立昆(Yann LeCun)于周四证实,他已创办一家新...
陆军工程大学训练基地探索作战指... 陆军工程大学训练基地探索作战指挥教学新模式 紧贴部队学 紧盯战场研 初冬时节,陆军工程大学训练基地组...
2026年考研真题解析法律硕士... 2026年考研真题解析法律硕士(法学)专业综合
理性分析:今年考研公共课的难度 公共课结束后,意料之中,考研政治和考研英语的难度又成为了讨论的焦点—— 今日热搜,考研英语和考研政治...
是“原切牛排”还是“调理牛排”... 近日,有网友在网上发帖称,在连锁餐厅必胜客吃到的牛排,和菜单上的图片差距巨大,口感也有些奇怪,质疑“...
A股最大收购案!中国神华为何豪... 界面新闻见习记者|张雨薇 中国神华(601088.SH)收购控股股东千亿资产草案出炉,成为目前A股...