Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」

机器之心 2025-10-05 14:39
机器之心报道

编辑:冷猫


早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛化。


类似于「顿悟时刻」,模型在某一刻突然理解了数据的内在规律。


这种现象被称为「grokking(延迟泛化)」。该现象挑战了传统关于过拟合与泛化关系的理解,因此成为揭示神经网络学习机制的重要研究方向。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图1


数年时间过去,相信大家对大模型的「顿悟时刻」早已不陌生,在探究大模型 grokking 的成因和基本原理的领域已经有了许多重量级研究。


我们也曾经报道过等相关内容。


而在最近, Meta 超级智能实验室(FAIR)的新论文再一次针对顿悟现象进行了更深层次的探讨,这篇论文通过给出 grokking 现象的数学可解释模型,让人们更清楚地理解深度网络如何从「死记硬背」过渡到「真正学习」。


值得关注的是,这篇文章仅有唯一作者Meta FAIR 研究科学家总监田渊栋,是一篇一个人的论文。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图2



Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图3


本研究提出了一个名为 Li₂ 的数学框架,用以解释 Grokking(延迟泛化) 现象在两层非线性神经网络中的学习动态。具体来说,该框架:



Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图4

Li₂ 框架概览。


如图所示,Li₂ 将学习过程划分为三个阶段 ——(I) 惰性学习(Lazy learning)、(II) 独立特征学习(Independent feature learning)以及 (III) 交互特征学习(Interactive feature learning),以此解释 grokking 的动力学过程,即网络先经历「记忆」阶段后再实现「泛化」。



如图右侧所示,论文分析覆盖了不同的网络宽度 K 和权重衰减系数 η,展示了它们对学习动态的影响,涵盖 NTK 区域与特征学习区域。在特征学习阶段,借助能量函数 E(定理 1),我们将学习到的特征描述为 E 的局部极大值(定理 2),并推导出维持这些特征所需的样本规模,从而建立了泛化与记忆的尺度律。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图5

Li₂ 框架的三个阶段 (a) 随机权重初始化。(b) 阶段 I:惰性学习。(c) 阶段 II:独立特征学习。 (d) 阶段 III:交互特征学习。 


阶段 I:惰性学习


在这一初始阶段,输出层权重 V 会迅速调整,以随机初始化的隐藏特征来拟合训练数据。反向传播到隐藏层的梯度 G_F 基本上仍是随机噪声,无法驱动隐藏层权重 W 学到有意义的特征。这导致模型表现为「记忆」行为,泛化能力较差。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图6


实验验证结果展示了 grokking 的三个阶段:在 输出层发生过拟合(阶段 I) 之后,隐藏层权重才开始更新。


阶段 II:独立特征学习


当权重衰减项 (η> 0) 生效时,梯度 G_F 开始携带关于目标标签的结构化信息,模型进入第二阶段。论文证明,在一定条件下,每个隐藏单元的动态是相互独立的,并遵循以下能量函数的梯度上升过程(定理 1):


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图7

该能量函数可视为输入与目标之间的一种非线性典型相关分析(nonlinear CCA)。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图8

能量函数 E 的景观变化


左图:当采用线性激活时,E 可简化为普通的特征分解,仅存在一个全局最大值。


中图:引入非线性后,能量景观出现多个严格的局部最大值,每个最大值对应一个特征。更重要的是,这些特征在目标预测中比记忆化更高效。


右图:当训练数据充足时,能量景观保持稳定,可以恢复这些具有泛化能力的特征;而当数据不足时,能量景观会发生显著变化,局部最大值退化为记忆化特征。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图9

模加任务中的泛化 / 记忆相变


实验表明:随着群结构复杂度增加(特别是非阿贝尔群),泛化阈值的变化依然符合理论的对数尺度规律,验证了 Li₂ 框架推导的特征涌现与泛化的尺度定律(scaling law)。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图10

在模加运算的小数据场景下,设 M = 127 且 n = 3225(在 1272 个样本中使用 20% 进行训练),使用较小学习率的 Adam 优化器(0.001,对应左图;0.002,对应中图)能够得到可泛化的解(傅里叶基),并且误差 E 较低;而当使用较大学习率(0.005,对应右图)时,Adam 则会找到不可泛化的解(例如记忆化),此时误差 E 明显更高。


群算术任务相关内容,请参阅原论文。


阶段 III:交互特征学习


随着隐藏层权重不断更新、特征逐渐涌现,隐藏单元之间的交互开始变得显著。该框架表明,相似特征之间会产生「排斥效应」,而梯度结构则会自适应地优先学习尚未捕获的特征,从而保证特征表示的多样性与完整性。


我们首先研究 B 的作用,它会引起隐藏节点之间的相互作用。在训练过程中,两个节点的激活可能高度相关,定理 6 表明,相似的特征会导致排斥效应。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图11


在训练过程中,某些局部最优解可能先被学习,而其他则在后期才被学习。当表示仅被部分学习时,反向传播提供了一种机制,可以聚焦于尚未学习的部分,通过改变能量函数 E 的形态来实现(定理 7,自上而下的调制)。


对于具有 Σ(x) = x^2 的群算术任务,如果隐藏层仅学习了一部分不可约表示集合 S,那么反向传播梯度


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图12


会产生一个修改后的能量函数 E_S,其局部最大值仅出现在尚未学习的不可约表示 k∉S 上。


对更深网络的扩展


虽然严格分析集中在两层网络上,论文也给出了对更深架构的定性扩展。核心观点是,特征学习会从低层向高层传播,而残差连接(residual connections)可能提供更干净的梯度,从而促进多层特征的生成。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图13


Adam 与 Muon 优化器的比较结果表明,Muon 在实现泛化方面表现更优,尤其是在隐藏单元数量受限的情况下。


总结与讨论


两种不同的记忆(memorization)类型


从分析来看,grokking 中的记忆来源于对随机特征的过拟合,这与由于有限或噪声数据而遵循特征学习动力学得到的记忆解不同。从这个角度看,grokking 并不是从记忆切换到泛化,而是从过拟合切换到泛化。


平坦(flat)与尖锐(sharp)极值


常识通常认为平坦极值对应可泛化解,而尖锐极值对应记忆或过拟合。从 Li₂ 的观点来看,当模型对随机特征过拟合时会出现尖锐极值,此时权重的微小变化会导致损失大幅变化。另一方面,我们可以证明能量函数 E 的局部极值是平坦的,因此在某些方向上权重的小幅变化不会改变 E。如果模型是过参数化的,则多个节点可能学习相同或相似的特征集合,从而为损失函数提供平坦性。如果由于有限 / 噪声数据学习了记忆特征,则需要更多节点参与「解释」目标,整体权重会显得不那么平坦。


小学习率与大学习率


根据分析,在阶段 I,需要较大学习率以快速学习脊状解 V,使反向传播梯度 G_F 变得有意义,从而触发阶段 II。在阶段 II,最佳学习率取决于可用数据量:



更多研究细节,请参阅原论文。


Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」图14


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
【报告】AI专题二:2025年生成式AI应用案例集报告(附PDF下载)
Sora登顶苹果App Store;阿里云升级全栈AI体系;英伟达拟投1000亿助OpenAI建数据中心|一周AI要闻回顾
AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
【报告】AI专题四:2025中国AICloud行业趋势报告:Cloud+AI:模型日益强大,智能应用开启新篇章(附PDF下载)
Sora,首个真正的 AI ToC 应用,给我们带来了哪些发展机会?
AI内存新秀,SOCAMM2登场
曝顶级AI大牛加入阿里通义;LeCun 承认可能从 Meta 辞职;马斯克成全球首位身价破5000亿富豪|AI周报
AI+消费,国家写进顶层规划,当AI开始“卷”消费:一场从厨房到养老的万亿级革命
【AI加油站】机器人设计系列二十四:《手上的机器人》科技赋能生活:从医疗模拟到深海探测的创新图鉴(附下载)
AI产品能不能火,全看创始人会不会当“网红”?这届AI大佬不拼代码了,个个都是隐藏的社交媒体达人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号