苹果研究称AI推理模型缺乏真正思考能力
创始人
2025-06-09 13:17:27
0

2025-06-09 08:40:11 作者:狼叫兽

苹果近期发布了一篇研究论文,指出当前主流的推理模型其实并不具备真正的思考能力。不论是DeepSeek、o3-mini还是Claude 3.7,这些模型所展现的“推理”行为本质上仍属于模式匹配的范畴,所谓的逻辑推导过程也只是一种表象。

为了更科学地评估模型在推理方面的实际表现,研究人员构建了四类结构化谜题任务:汉诺塔问题、跳棋交换问题、过河问题以及积木世界。这四类任务均可通过调整参数实现对难度的精确控制,从而系统性地测试模型在不同复杂度下的应对表现。

实验结果显示,当问题复杂度逐步提升时,模型一开始会表现出一定的适应能力,表现为生成回应前的等待时间变长。然而,随着任务进一步复杂化,模型的推理深度反而开始减弱,即使仍有大量可用的token预算,它们却在最关键的时刻停止了深入分析。当问题复杂度超过某个临界值时,不论是推理模型还是标准模型,都无法维持基本的解题能力,整体准确率迅速降至零,显示出明显的性能崩溃现象。

这篇论文发布后,在网络上引发了讨论。有用户发表评论称:“一家坐拥最多资金支持的科技公司,在两年内都没有推出令人信服的技术成果,现在反过来质疑其他人的进展。”

此外,虽然论文揭示了当前模型在推理能力上的局限性,但也有人认为其意图并非单纯否定现有成果,而是希望引起业界对更有效推理机制与评估方法的关注和投入。苹果在2024年全球开发者大会上首次展示了其智能系统Apple Intelligence,但在过去一年中,该系统多项功能经历了推迟上线、功能不完善甚至被撤回的情况。

相关内容

最新资讯

“为弟追凶27年”案将宣判,姐... 极目新闻记者 唐佳燕为弟追凶27年后,湖南邵阳女子李海玉将迎来对“凶手”的一审判决。12月23日上午...
外屏预览+AI编辑:三星Gal... 在前段时间的国际手机电影节上,专设了AI创意影像展区,不少创作者仅凭一部手机就完成长镜头拍摄与剧情短...
“AI+数字机关”课题组走进湖... 近日,“人工智能+数字机关”课题研究调研组深入湖南省公安厅开展实地调研。本次调研由中央党校(国家行政...
2026春西南大学版一年级数学... 2026 春西南大学版一年级数学下册新教材以 100 以内数的认识与加减法为核心,涵盖图形、人民币、...
坚持民生为大——从中央经济工作... 悠悠万事,民生为大。日前召开的中央经济工作会议指出,坚持民生为大,努力为人民群众多办实事。通读会议部...
突发公告!百亿富豪被采取刑事强... 12月22日晚,祥源文旅、交建股份、海昌海洋公园同步发布公告,公司实控人俞发祥因涉嫌犯罪,被绍兴市公...
2025年度河南省省直中小学教... 2025年度河南省省直中小学教师副高级职称评审通过人员公示名单 河南教科云 】根据全省职称工作安排,...
300块的“邪修羽绒服”,吊打... 文/馍王 编辑/闫如意众所周知,今年羽绒服价格又悄悄涨爆了。许多打算双十一进货羽绒服的朋友们,攥着优...
台北随机杀人案爆发后,游淑慧:... 海峡导报综合报道 台北市随机杀人案震撼社会,27岁嫌疑犯张文在捷运(地铁)台北车站、中山站商圈,造成...
当“冬至”遇上AI,首期大湾区... 12月19日,首期大湾区人工智能安全发展交流节气会(乙巳·冬至期)在珠海顺利举办。本次活动由粤港澳大...