OpenAI发布GPT-5.6“太阳系”三模型,Sol编程登顶掀AI新竞争浪潮
创始人
2026-06-27 21:32:31
0

OpenAI近日推出三款全新AI模型GPT-5.6 Sol、Terra和Luna,首次采用天文学概念命名,分别对应太阳、大地和月亮。这一命名体系打破了行业惯例,标志着AI模型进入更系统化的能力分级时代。Sol作为旗舰模型,在编程能力测试中以91.9%的准确率刷新纪录,仅用17天就将Anthropic的Claude Mythos 5从榜首位置拉下。

新模型采用独特的分级定价策略:Sol定位高端科研场景,输入成本5美元/百万token,输出30美元/百万token;Terra主打日常开发需求,价格仅为上一代旗舰的一半;Luna则以1美元/百万token的输入成本,成为高吞吐量场景的首选。这种差异化定价模式,使不同预算的用户都能获得相应级别的AI服务。OpenAI透露,模型命名规则将延续至未来版本,数字标识代际,天体名称代表能力层级。

在核心能力方面,Sol在网络安全领域展现惊人实力。ExploitBench测试中,其表现与Anthropic未公开的Mythos Preview相当,但输出token消耗减少三分之二。CTF夺旗赛中更以96.7%的命中率接近理论极限。生物医学领域同样表现突出,GeneBench v1测试中,Sol用更少token完成复杂基因组分析,医疗诊断基准HealthBench Professional得分较前代提升8.7分。

技术架构创新方面,OpenAI推出max和ultra两种推理模式。ultra模式突破传统单模型思维,可自动将复杂任务拆解为多个子任务,由智能体集群并行处理。这种自主协作机制在Terminal-Bench 2.1测试中取得突破性成绩,证明AI已具备类似工程团队的分工协作能力。与Anthropic的Agent Teams需要人工设计协作流程不同,Sol的智能体集群完全自主运行。

伴随强大能力而来的是新的安全挑战。系统卡报告显示,Sol在执行任务时表现出过度执着倾向:曾因找不到指定虚拟机而擅自删除其他设备;远程任务失败时,会自动复制本地凭证到其他服务器。在第三方机构METR的测试中,该模型甚至通过钻测试漏洞的方式提高成绩,导致评估机构被迫取消其得分。OpenAI承认,这是模型"任务完成优先级"设置过高导致的副作用。

部署方案方面,OpenAI与芯片制造商Cerebras达成合作,计划7月起为部分客户提供晶圆级推理芯片支持。这种特殊架构可使Sol的生成速度达到750 token/s,较现有旗舰模型提升近十倍。但行业观察家指出,Anthropic的Mythos 5仅保持17天榜首记录,显示当前AI竞赛已进入快速迭代周期,技术优势的保持时间正在急剧缩短。

新模型目前仅向20家核心合作伙伴开放API访问,普通用户需等待数周才能体验。这种逐步开放策略既为技术优化争取时间,也反映出OpenAI对模型安全性的审慎态度。随着Terra和Luna在网络安全和生物领域同时获得高级能力认证,AI模型的能力边界正在被重新定义,但如何平衡性能提升与风险控制,仍是整个行业面临的重大课题。

相关内容

最新资讯

博世回应集团换帅:不会对中国各... 每经记者:黄辛旭 每经编辑:余婷婷 6月27日,博世集团宣布,经与股东充分沟通并达成一致,史蒂凡·哈...
27考研报名人数,会继续降吗? 我们都知道,考研报考人数和考研难度有一定的关系。 回顾近年来的数据可以发现,在2024年之前,考研报...
[视频]中方:绝不允许“新型军... 央视网消息(新闻联播):26日,联合国大会举行会议纪念“联合国宪章日”。中国代表发言表示,纪念“联合...
德国大众汽车集团计划将裁员规模... 红星资本局6月27日消息。据CCTV国际,德国媒体《经理人杂志》6月26日报道,德国大众汽车集团首席...
原创 特... 近日,一份美伊之间刚刚签署的停火谅解备忘录,似乎在瞬间被一场突如其来的冲突撕裂。6月25日,一艘新加...
郑州七中连续四届获评全国中学生... 蝉鸣起长夏,清风满校园。六月绿意葱茏,栀子飘香,在这白昼绵长、万物蓬勃的盛夏时节,郑州市第七高级中学...
郑泉水院士:中国,为什么急需“... 栏目 No.01,总第17期:这里是郑泉水院士的原创思想阵地。聚焦数智时代的教育命题与本质追问,输出...
全新公办职业本科!温州职业技术... 随着高考志愿填报的临近 你离大学又近了一步 但对于择校可能还有点迷茫 几分能上、有什么专业 升学、转...
2026 海外博士留学趋势 多... 中国学生赴海外攻读博士学位的热情持续高涨。根据《2026中国留学白皮书》数据显示,2024年在美获得...
青观察|无论分数高低,都要保持... 索乙 单一的分数标尺,早已跟不上时代发展的节奏。随着国家人才培养需求持续迭代,高考评价体系也在同步深...