Jeff Dean盛赞姚班校友AI新研究,目前人已到Meta
创始人
2025-11-15 13:45:43
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

一种令人兴奋的全新的范式。

谷歌AI掌舵人Jeff Dean点赞了一项新研究,还是出自清华姚班校友钟沛林团队之手。

Nested Learning嵌套学习,给出了大语言模型灾难性遗忘这一问题的最新答案!

简单来说,Nested Learning(下称NL)就是让模型从扁平的计算网,变成像人脑一样有层次、能自我调整的学习系统。

论文里还提到,甚至人们常用的Transformer,其实本质是NL的简化版,它只是把NL的多层级拆成了单一层级的线性层,并没发挥出多层级的优势。

基于NL范式的Hope模型,在语言建模任务和长上下文记忆任务中的表现均优于Transformer,且论文已经被NeurIPS 2025接收。

下面就来看看这个新范式,究竟突破在何处?

不再靠堆层、堆参数硬提升

Nested Learning的核心逻辑很明确,即复杂AI模型不是“固定架构+独立算法”的组合,而是由多个嵌套/并行的「优化问题」构成的系统

在大语言模型领域,一个核心痛点始终制约着技术突破,那就是模型仿佛患上了顺行性遗忘症。

预训练完成后便难以持续吸收新知识,只能依赖有限的上下文窗口或固化的历史参数,无法像人类一样实现知识的动态积累与迭代。

与此同时,传统深度学习依赖的堆层扩参模式也逐渐触及瓶颈,增加网络层数或放大模型规模往往无法带来预期中的能力提升,甚至可能导致训练低效、泛化能力不足等问题。

而嵌套学习NL则开辟了一条模仿人脑认知机制的新路径,灵感就源自于大脑的记忆工作原理。

人类大脑通过在线巩固离线巩固两个互补的过程实现持续学习,短期内记忆快速更新,长期记忆则缓慢沉淀,不同层级的记忆系统按照各自的节奏协同运作。

NL就是把这一套逻辑数字化,把机器学习模型重构为一套嵌套式的、多层级的优化体系,每个层级都拥有独立的上下文流和更新频率。

不同于传统深度学习扁平式的参数更新模式,NL中的每个组件都像是一个专属的联想记忆模块,有的快速响应实时输入数据,有的缓慢沉淀长期知识规律,通过层级化协作实现信息的高效处理与存储。

研究团队甚至发现,我们熟知的Transformer架构,本质上只是NL的简化版本,它的线性层结构相当于忽略了NL多层级协同的核心优势,并没有充分释放模型的潜力。

基于NL范式,研究团队推出了三大核心创新成果。

首先是深度优化器

像Adam、SGD这样的传统优化器,只会按固定的公式处理梯度,并不懂记忆和预判复杂的规律,调参容易陷入僵化。

而NL的深度优化器靠预处理机制提前分辨梯度性质、用MLP神经网络替代线性记忆来存储过往梯度规律,能够预判梯度变化、灵活调参。

其次是自我修改模型

让模型摆脱固定更新规则的束缚,在训练过程中自主学习“如何调整自身参数”,面对新领域数据时能灵活适配,无需人工干预修改架构。

最后是连续记忆系统

将传统模型的短期/长期记忆二元结构升级为多尺度记忆链,不同MLP模块按不同频率更新,分别负责存储短期细节与长期规律,实现类似人类的分层记忆管理。

而这些创新最终凝聚为Hope模型

经过测试,在语言建模与常识推理任务中,从760M到1.3B参数规模的Hope,表现均大幅超越Transformer、RetNet、DeltaNet等主流基线模型。

在Wiki文本困惑度、PIQA物理常识推理、Winograd指代消解等多项指标上,Hope要么以更低的困惑度展现出更优的语言建模能力,要么以更高的准确率证明了更强的推理水平。

嵌套学习NL的提出,本质上是对深度学习核心架构的一次范式重构。

它跳出了堆层扩参的惯性思维,转而从认知科学中汲取灵感,让模型从扁平的计算网络进化为分层协作的智能系统。

这种全新的范式或许能让AI真正摆脱静态模型的桎梏,像人类一样在持续学习中积累经验、优化能力,也可能为大语言模型的终身学习、长上下文推理等关键难题提供全新的解决方案。

而在这样一项研究的团队名单里,令人欣喜的是出现了清华姚班校友钟沛林的名字。

天才少年的成长之路

钟沛林,2016年毕业于清华姚班,2021年拿到哥伦比亚大学的计算机博士学位。并且从2021年起,他就加入了谷歌纽约研究院,担任算法与优化团队的科学家。

实际上,在进入清华姚班之前,他就已经是一位竞赛达人。

据网友透露,钟沛林的外公曾说,当时还在上中学的小钟每到深夜某一时间闹钟响起,题库开放时,就会和全球的小伙伴一起编程做题。

2012年,小钟代表雅礼中学出征国际信息学奥林匹克竞赛,并获得当年的IOI金牌。和钟沛林同年获得金奖的,还有顾昱洲、李超以及同为雅礼中学学子的艾雨青。

有意思的是,钟沛林和艾雨青两人是发小,艾雨青还曾透露自己是在钟沛林的影响下,走上IOI之路,两人并肩成为了那一年雅礼中学的双子星,保送至清华姚班。

虽然在写NL这篇论文时,钟沛林尚在谷歌纽约研究院就职。

左:钟沛林 右:艾雨青

但目前,这对双子星已前后脚入职了Meta,分别担任AI科学家和软件工程师。

参考链接:

[2]https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

相关内容

最新资讯

“AI主理人”上班,中山首个机... 近日,国内文旅装备龙头企业金马游乐与前沿AI机器人公司星尘智能宣布达成战略合作,联手开发打造新一代文...
中央美术学院学生被指抄袭还获一... 11月15日,中央美术学院城市设计学院官方账号发布情况通报: 近日,城市设计学院关注到网上关于我院学...
结婚人数反弹背后:各地为“催婚... 2025年前三季度全国结婚人数同比增长;各地频出举措鼓励适龄年轻人结婚;结婚人数反弹是短期波动还是长...
日本32岁女孩,嫁给了AI 新智元报道 编辑:倾倾 【新智元导读】在日本,一个女孩穿上婚纱嫁给了AI。有人讽刺她「恋爱脑」,有...
杨瀚森G联赛首秀8分13板4助... 发展联盟的首秀,杨瀚森拿到8分13篮板4助攻1抢断1盖帽填满数据单,并且还助推了一场22分大逆转,如...
Tim如何溃败相亲角? 作者 | 速棠编辑 | 苏米影视飓风创始人Tim,B站内容领域的头部博主,因为一段1分钟长的“相亲”...
图书档案馆知识服务中心为新任教... 图书档案馆知识服务中心为新任教师开展资源与服务培训 为助力新任教师深入了解并充分利用我馆各类资源,提...
Jeff Dean盛赞姚班校友... 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 一种令人兴奋的全新的范式。 谷歌AI掌舵...
舟落东风霞色里 画展神州明日春... 新华社酒泉11月14日电 题:舟落东风霞色里 画展神州明日春——写在神舟二十号航天员乘组天外凯旋之际...
2025年留学生求职机构推荐,... 在2025年留学生求职市场中,多家机构为求职者提供了强有力的支持。首屈一指的海马职加以其卓越的综合实...