AI打工人报告:完成专家级任务,速度快100倍,成本仅1%
创始人
2025-09-27 09:47:48
0

IT之家 9 月 27 日消息,科技媒体 ZDNet 昨日(9 月 26 日)发布博文,报道称 OpenAI 推出名为 GDPval 的全新 AI 评估基准,旨在衡量前沿模型在真实经济价值任务中的表现,以弥补学术测试与实际应用间的差距。

尽管当前大量 AI 工具涌入市场并承诺提升生产力,但其在企业中的实际应用效果却参差不齐。为解决 AI 模型在学术基准测试与真实世界表现之间的脱节问题,OpenAI 于周四发布了一套名为 GDPval 的全新评估体系,其核心目标是“衡量 AI 在具有经济价值的真实世界任务中的表现”,从而为行业提供一个更贴近实践的评判标准。

GDPval 的设计深度模拟了真实工作场景。它覆盖了对美国 GDP 贡献最高的九大行业中的 44 个职业,共计 1320 项具体任务。这些任务由平均拥有 14 年相关领域经验的专业人士创建,确保了其真实性和复杂性。

IT之家援引博文介绍,与传统依赖文本提示的评测不同,GDPval 要求 AI 模型处理文件、生成幻灯片和格式化文档等多模态交付物,以此更真实地检验模型在实际工作环境中的综合能力。

在首轮测试中,OpenAI 邀请行业专家对多个前沿模型的输出进行盲评,其中包括自家的 GPT-5、GPT-4o,以及 Anthropic 的 Claude Opus 4.1、谷歌的 Gemini 2.5 Pro 等。

评测结果出人意料:Claude Opus 4.1 凭借在文档格式、幻灯片布局等“美学”方面的出色表现,成为综合性能最佳的模型;而备受关注的 GPT-5 则在特定领域知识的“准确性”方面拔得头筹。

该研究还揭示了 AI 模型性能的飞速进步与巨大的成本优势。数据显示,从 2024 年春季发布的 GPT-4o 到预计 2025 年夏季发布的 GPT-5,模型性能提升超过一倍。

更引人注目的是,研究发现前沿模型完成 GDPval 任务的速度比行业专家快约 100 倍,成本也仅为后者的百分之一。

不过,OpenAI 强调,这些数据仅反映了纯粹的模型推理成本,并未包含现实工作中必要的人工监督、迭代和集成步骤。

OpenAI 也坦诚 GDPval 目前存在局限性。作为一个初期版本,该基准主要进行一次性任务评估,尚无法衡量模型处理需要多轮修改的复杂项目或应对充满模糊性的现实工作的能力。

例如,它无法评估模型根据客户反馈修改方案或处理数据异常等动态、交互式的任务。OpenAI 表示,未来的迭代将覆盖更多行业和更难自动化的任务,并会发布部分数据集供研究人员使用。

相关内容

最新资讯

鸿蒙系统手机好还是安卓系统好,... 最近手机圈可是热闹非凡呢!鸿蒙系统和安卓系统,这两个小家伙在市场上你追我赶,各有各的看家本领。今天,...
印度空军举行仪式,退役所有米格... 印度空军仅存的两个苏式米格-21战斗机中队26日进行退役前最后一次飞行,标志着印度拥有的首批超音速喷...
安卓系统服务重要地点,重要地点... 你知道吗?在安卓系统的世界里,有一个地方可是至关重要的,那就是——安卓系统服务重要地点!这个地方就像...
王忠林主持召开省委常委会会议 ... 湖北日报讯 (记者杨念明、王馨)9月26日下午,省委常委会召开会议,传达学习习近平总书记近期重要讲话...
充电10分钟 一口气从上海跑到... 湖北日报讯(记者左晨、通讯员张莹莹)“这车一眼望去,气场十足,就好像泰山屹立于天地之间。”9月26日...
27日|打响旅游市场秩序整治攻... 9月26日,国家主席习近平致电阿瑟·彼得·穆塔里卡,祝贺他当选马拉维共和国总统。 目前,全国基本养...
单月利润仅6000元,酒店行业... 没有最艰难,只有更艰难。 这是酒店行业的“至暗时刻”,甚至比新冠时期还要艰难。 根据北京市统计局...
安卓系统在pc上运行,安卓系统... 你有没有想过,那些在手机上玩得风生水起的安卓游戏,能不能在电脑上也能畅快淋漓地体验一番呢?今天,就让...
安卓好的系统优化软件,安卓系统... 手机用久了是不是感觉卡卡的,反应慢慢的?别急,今天就来给你安利几款安卓系统优化软件,让你的手机焕发新...