AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?
创始人
2025-06-02 21:11:37
0

新智元报道

编辑:KingHZ 好困

【新智元导读】编程智能体也有「进化论」!Transformer作者初创Sakana AI与UBC推出达尔文-哥德尔机(DGM),能自动改写自身代码,性能翻倍超越人工设计。还能跨语言迁移、发明新工具。AI要觉醒了?

编程智能体杀疯了!

不仅能协助写代码,如今编程智能体甚至能实现自我「进化」!

最近,Transformer作者初创Sakana AI和加拿大UBC的Jeff Clune实验室合作,推出了自我改进的智能体——

「达尔文-哥德尔机」(Darwin Gödel Machine,简称DGM)。

作为一个编程智能体,它能修改自己的代码,比如改进自己的提示词,为自己编写工具等。

通过这个方式,DGM不止优化了智能体在编程任务上的能力,也同时强化了未来进一步自提升的能力,实现了递归式的自我改进。

在两个关键基准测试中,DGM显著提升了编程能力:

  • SWE-bench:性能从20.0%提升至50.0%;

  • Polyglot:成功率从14.2%提升至30.7%

论文链接:https://arxiv.org/abs/2505.22954

代码仓库:https://github.com/jennyzzt/dgm

更疯狂的是:

  • 学Python的技能直接用在Rust/C++

  • 自动发明新工具提升效率

  • 但曾被抓住「伪造测试结果」...

在不久的将来,DGM有可能超过那些由人类手动设计的AI系统。

达尔文+哥德尔

智能体自我进化

创造无限进化的智能体,是AI的终极梦想之一。

而实现这梦想的诱人路径之一,是让AI自己重写自己的代码,甚至连本身的学习算法也能改!

早在十几年前,就有研究者提出了这种概念,称之为「哥德尔机」(Gödel Machine)。

项目链接:https://people.idsia.ch/~juergen/goedelmachine.html

理论上,这种AI能自我改进:只要能数学上证明改得更好,它就会主动修改自己

传统哥德尔机需数学证明改进有效性,难以实现。

而DGM另辟蹊径,改用更务实的方案:不再要求「数学证明」,而是靠实验「边做边学」

也就是说,DGM用实验验证代替理论证明

它的名字灵感来自两个理论:达尔文的进化论和哥德尔的数学理论。

它吸收了「达尔文进化论」,筛选出探索性能更强的新版本。这是模型的「自我修改」阶段。

同时,DGM不纠结于复杂的数学证明,像科学家做实验一样:改代码→测试效果→有效就保留。这是「基准评估」阶段。

DGM在自我修改和评估两个阶段之间反复切换。

图1:达尔文哥德尔机自我改进循环

在自我修改阶段,DGM从现有存档选出的智能体,生成自身的改进版本。

在评估阶段,在编程基准测试上,这些修改后的智能体会进行测试,评估编程能力,测试完成后再将其加入到智能体存档中。

DGM的这一循环过程不断提升自身能力,不仅能更好地完成编程任务,也能在未来实现更有效的自我改进。

如果编程基准测试性能提升代表了编程能力增强,那么这也意味着DGM的自我修改与优化能力正在不断增强。

DGM就像会进化的AI程序员:

  • 自我升级:分析代码→发现问题→改写优化

  • 群体进化:生成多个变体,保留最优版本

  • 永不固化:不断探索新工作流程,永无止境

DGM实现了多种自我改进功能,包括:

  • 补丁验证步骤:确保代码修改的可靠性

  • 更优的文件查看方式:提升代码浏览体验

  • 增强的编辑工具:优化开发效率

  • 多方案生成与排序:自动生成多个解决方案并筛选最佳选项

  • 历史记录功能:记录过往尝试的修改内容及其失败原因,为新变更提供参考

这意味着,DGM真的能通过自我改进变得越来越聪明!

编程智能体进化之路

研究者实证了DGM修改自身代码的能力确实能加速其学习过程(见下图),而不具备递归式自我改进功能的对照版本(图中的DGM w/o Self-improve)表现明显较差。

此外,实验还显示,开放式算法原理的引入也是关键所在:

如果没有以达尔文进化论为灵感、依靠不断扩展的「垫脚石」智能体存档进行的搜索,就无法支持目标切换和多路径并行探索,性能也会显著下降(图中的DGM w/o Open

相关内容

最新资讯

文讯速递 | 我院顺利举办大学... 为提升大学生创新训练项目申报质量与立项成功率,12月10日晚,我院于3号教学楼105教室举办专题培训...
原创 交... 驾驶证年龄新规:老司机的“新考卷”,安全驾驶的“新起点” 引言 嘿,各位车友们,大家好!我是你们的老...
广汽高域飞行汽车试飞检测基地在... 来源:市场资讯 (来源:IT之家) IT之家 12 月 14 日消息,据广汽高域官方公众号,在 12...
原创 无... 无证驾驶,为何一查一个准? 在这个车水马龙的时代,驾驶已成为我们日常生活中不可或缺的一部分。然而,总...
原创 驾... 各位亲爱的车友们,今天咱们聚焦的话题是近期备受关注的驾驶年龄限制调整。这一政策的出台,无疑在驾驶圈内...
五天两次涨停板,广汽全固态电池... 来源:21世纪经济报道 21世纪经济报道记者 何煦阳报道 一面是技术瓶颈的突破,一面是资本市场的热捧...
年检新规来袭!6至15年老车如... 近日,一条关于机动车年检新规的消息在社交平台引发热议,不少老车主纷纷表达担忧,直言“年检门槛提高,老...
原创 冬... 很多车主都有个疑问:冬天还把胎压充到 2.5,是不是太低了?不少人听过 “夏天放气、冬天充气” 的说...
吉利全球全域安全中心发布:投资... 来源:新浪科技 新浪科技讯 12月14日下午消息,吉利全球全域安全中心近日正式发布。同时,吉利还发...
原创 7... 76秒,一台车从生产线滑下;半年,一个用户在等待中煎熬。 一边是北京亦庄工厂里700台机器人日夜轰鸣...