
机器学习顶会 ICML 2025 杰出论文(Outstanding Paper)榜单火热出炉!今年,评审委员会从数万篇投稿中评选出了代表前沿思考与重大突破的8篇佳作。这些论文不仅在技术上精益求精,更在AI的社会影响、创造力边界和科研生态等宏大命题上给出了深刻洞见。它们是风向标,更是思想的催化剂。本文将为你逐一解读这8篇论文的精华,带你第一时间领略AI研究的巅峰之作!
🏆 官方获奖链接:
https://icml.cc/virtual/2025/awards_detail
(1) 告别频率派的枷锁:用贝叶斯正交重新定义机器学习的『不确定性』
论文类别: Outstanding Paper
论文英文标题:
Conformal Prediction as Bayesian Quadrature
论文链接:
https://icml.cc/virtual/2025/poster/45390
介绍:
由普林斯顿大学等机构的研究者提出了一种全新的、基于贝叶斯概率的视角来审视和扩展保形预测(Conformal Prediction)方法。保形预测作为一种强大的“免分布”不确定性量化技术,被广泛用于为黑盒模型提供性能保证,但其根植于频率派统计,限制了其在结合先验知识等场景下的灵活性。
这篇论文的核心贡献在于,它将保形预测这一看似纯粹的数值方法与贝叶斯推断巧妙地联系起来。研究者们展示了如何将保形预测中的关键问题——估计损失分位数——重新表述为一个贝叶斯正交(Bayesian Quadrature)问题。通过这种方式,模型不再仅仅给出一个关于未来损失的点估计或简单的置信区间,而是能够为可能遇到的损失范围提供一个完整的后验分布。这不仅使得性能保证的解释性更强,也为我们提供了一个更丰富、更全面的视角来理解模型在实际部署时可能遇到的风险。
该框架的一大优势是其灵活性。当有关于数据分布的先验知识(如单调性)时,可以轻松地将其融入模型,从而获得更紧致的性能保证;而在没有这些信息时,该方法能够自然地退化为现有的、经典的保形预测方法,如分裂保形预测(Split Conformal Prediction)和保形风险控制(Conformal Risk Control)。论文证明,这两种主流方法都可以被视为其提出的贝叶斯框架下的特例。这项工作不仅揭示了传统方法的内在局限,更为我们开辟了一条在“免分布”设定下进行更灵活、更强大不确定性量化的新道路。
核心图片:
(2) 训练时『负重前行』,推理时『另辟蹊径』:揭秘掩码扩散模型中的token排序魔法
论文类别: Outstanding Paper
论文英文标题:
Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
论文链接:
https://icml.cc/virtual/2025/poster/45990
介绍:
由华盛顿大学、谷歌研究院、麻省理工学院等顶尖机构的研究者们对掩码扩散模型(Masked Diffusion Models, MDMs)的训练与推理机制进行了深入剖析。MDMs作为离散数据生成领域的新星,与自回归模型(ARMs)相比,展现出一种独特的权衡:训练更复杂,但推理更灵活。
论文首先从理论和实证上揭示了MDMs的“负重前行”困境。在训练阶段,MDMs需要学习解决指数级数量的、各种位置组合的“填空”问题,这远比ARMs从左到右的顺序预测要困难。研究表明,在这些海量的子问题中,有相当一部分在计算上是极其困难的,这导致了MDM在不同任务上的性能不均衡。
然而,这篇工作的真正亮点在于揭示了如何将这一劣势转化为优势,即“另辟蹊径”。作者指出,MDMs在推理时的灵活性是其真正的王牌。传统的MDM推理是随机顺序解码,但这并未完全利用其潜力。该研究提出,通过在推理时采用自适应策略(adaptive strategies),即智能地选择下一个要解码(unmask)的token,模型可以巧妙地避开那些在训练时遇到的“硬骨头”子问题。
最惊人的发现在于逻辑解谜任务(如数独)上的应用。一个预训练好的MDM,在采用传统随机解码时,解题准确率不足7%;但切换到简单的自适应解码策略后,准确率飙升至接近90%!这一性能不仅远超ARMs,甚至优于那些通过“老师强制”(teacher forcing)方式、专门训练来学习正确解码顺序的定制版ARMs。这项工作有力地证明了,对于MDMs而言,推理时的“规划”能力足以弥补甚至超越其训练时的“复杂性”代价,为离散数据生成开辟了新的思路。
核心图片:
(3) 掷骰子,三思而后行:突破『下一个词』预测的创造力天花板 🚀
论文类别: Outstanding Paper
论文英文标题:
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
论文链接:
https://icml.cc/virtual/2025/poster/45769
介绍:
由卡内基梅隆大学、谷歌研究院、伊利诺伊大学香槟分校等机构的研究者们,对当前大语言模型(LLM)在创造力方面的局限性发起了深刻的挑战。他们认为,基于“下一个词预测”(next-token prediction)的训练范式,本质上是短视和过度依赖记忆的,难以胜任需要“创造性思维飞跃”(creative leap-of-thought)的开放式任务。
为了精准地量化这一限制,论文设计了一套极简但富有洞见的算法任务,作为对现实世界中创造性活动的抽象。这些任务分为两类:一类是“组合式创造力”,要求模型在抽象的知识图谱中发现新颖的连接,类似于创作文字游戏或科学类比;另一类是“探索式创造力”,要求模型在规则约束下构建全新的模式,类似于设计数学题或新蛋白质。在这些任务中,模型的“算法创造力”可以通过生成内容的合规性、独特性和原创性(即未在训练集中出现)被严格量化。
研究发现,传统的下一个词预测模型在这些任务上表现平平,且有很强的记忆倾向。相比之下,多词元预测方法,如无教师训练(teacherless training)和扩散模型(diffusion models),在生成多样化和原创性内容方面表现出色。这是因为创造性飞跃需要洞察全局的高阶模式,而非局部的下一个词。
此外,论文还提出了一个引人注目的新观点来激发模型的随机性。传统方法是在输出端通过温度采样(temperature sampling)注入随机性,而该研究发现,在输入端注入噪声——即“种子条件化”(seed-conditioning),效果出奇地好,甚至在某些情况下优于温度采样。其直观解释是,让模型先随机采样一个潜在的“灵感”(leap of thought),再基于这个单一灵感生成连贯的文本,比同时处理多个灵感来计算一个边缘化的token分布要容易得多。这项工作为我们突破LLM的创造力瓶颈提供了全新的理论武器和实践方向。
核心图片:
(4) 数据不全怎么办?Score Matching新范式,轻松应对缺失数据挑战
论文类别: Outstanding Paper
论文英文标题:
Score Matching with Missing Data
论文链接:
https://icml.cc/virtual/2025/poster/44169
介绍:
由布里斯托大学等机构的研究人员针对一个长期存在于现实世界数据中的棘手问题——数据缺失,为Score Matching(分数匹配)这一强大的分布学习工具提供了开创性的解决方案。Score matching通过学习数据分布的对数概率密度梯度(即分数函数),在扩散模型、能量模型等领域发挥着至关重要的作用。然而,此前很少有工作系统地研究当训练数据不完整时如何应用该方法。
这篇论文的核心贡献在于,它首次将Score Matching框架灵活地扩展到处理缺失数据(Missing Data)的场景。作者们提出了一个名为“缺失分数匹配”(missing score matching)的范式,能够在任意维度的特征都可能部分缺失的情况下,学习到完整数据的分数函数。
为了应对不同场景的需求,论文提出了两种互补的方法:
- 重要性加权(Importance Weighting, IW)方法
:这是一种相对简单直接的方法,通过对缺失部分进行加权采样来估计完整数据的分数。研究者为该方法在有限域设定下提供了有限样本理论保证,并证明其在小样本、低维度问题上表现尤为出色。 - 变分(Variational)方法
:这是一种计算上更复杂但功能更强大的方法。它借鉴了变分推断的思想,通过构建一个代理分布来近似缺失数据的条件分布。实验表明,该方法在复杂的高维场景下表现更强,尤其适用于如图模型估计等任务。
作者在真实和模拟数据上对高斯图模型的估计任务进行了验证,充分展示了两种方法的有效性。这项工作填补了Score Matching在缺失数据领域的理论空白,为处理不完美的真实世界数据提供了强大而灵活的工具,极大地拓宽了Score Matching及其相关技术(如扩散模型)的应用边界。
(5) CollabLLM:让AI从『被动问答机』变身『主动协作伙伴』
论文类别: Outstanding Paper
论文英文标题:
CollabLLM: From Passive Responders to Active Collaborators
论文链接:
https://icml.cc/virtual/2025/poster/45988
介绍:
由斯坦福大学、微软研究院等机构的研究者们共同开发了一种名为COLLABLLM的创新训练框架,旨在将大型语言模型(LLM)从被动的指令执行者,转变为能够与人类进行高效、主动协作的伙伴。现有LLM通常基于单轮对话的奖励进行训练(如RLHF),这使得它们在面对模糊或开放式用户请求时,倾向于直接给出答案,而不是主动探寻用户的深层意图,导致对话效率低下。
COLLABLLM的核心创新在于引入了“多轮感知奖励”(Multiturn-aware Rewards, MR)。该框架不再仅仅评估当前回复的质量,而是通过一个“协作模拟”(collaborative simulation)模块,前瞻性地预测当前回复对未来整个对话走向的长期影响。在这个模拟中,模型会与一个模拟用户进行多轮对话,最终根据任务完成度、交互效率等综合指标,计算出当前回复的长期协作价值,即MR。
通过在强化学习(如PPO、DPO)中优化MR,COLLABLLM学会了采取更具前瞻性的对话策略。它不再满足于被动回答,而是会主动提出澄清性问题、提供富有洞察力的建议,从而更好地引导用户明确并实现其最终目标。例如,在撰写文档时,它会主动询问写作风格、建议加入奇闻轶事来增加趣味性。
为了验证其效果,研究者们构建了包括文档创建、代码生成在内的三个具有挑战性的多轮交互基准。实验结果显示,与基线模型相比,COLLABLLM在任务性能上平均提升了18.5%,交互性得分高出46.3%。在一项涉及2011名真实用户的大规模研究中,COLLABLLM更是将用户满意度提升了17.6%,并节省了10.4%的用户时间。这项工作标志着AI正从一个“工具”向一个真正的“合作者”迈出关键一步。
核心图片:
(6) AI向善:预测模型的真正价值在于精准识别并帮助『最弱势群体』
论文类别: Outstanding Paper
论文英文标题:
The Value of Prediction in Identifying the Worst-Off
论文链接:
https://icml.cc/virtual/2025/poster/46605
介绍:
由德国曼海姆大学、普林斯顿大学等机构的研究人员,针对机器学习在公共政策领域中一个至关重要但常被忽视的问题——如何最有效地识别和帮助社会中的最弱势群体——提出了一个深刻的分析框架。在许多政府项目中,如失业援助、贫困人口定位,目标并非优化总体平均结果,而是优先服务那些处境最差的个体。
这篇论文的核心贡献在于,它不再孤立地看待预测模型的准确性,而是将其置于一个更广阔的政策设计空间中,与其他政策杠杆(如扩大官僚机构的服务能力,即筛选更多的人)进行直接比较。作者们引入了一个关键概念——“预测-触达比率”(Prediction-Access Ratio, PAR),用于量化“提升预测精度”与“扩大筛选范围”在识别弱势群体方面的相对价值。
通过数学模型和一项基于德国长期失业人群的真实案例研究,论文得出了一个颇具颠覆性的结论:提升预测能力的边际效益并非总是最高的。 相反,它呈现出一种“首尾一英里”(first and last-mile)的努力模式。具体来说,只有在预测能力极差(R²趋近于0)或极好(R²趋近于1)的两个极端情况下,投资于改善预测模型才比扩大筛选范围更具价值。而在大多数现实系统所处的中间地带(例如,模型能解释20%的方差),扩大筛选范围带来的福利影响要远大于提升预测精度。
这一发现对于当前公共政策领域中,许多机构致力于在已有良好基线的预测系统上进行渐进式改进的趋势,提出了重要的反思。它为政策制定者提供了一套理论严谨且数据驱动的工具,帮助他们在新技术投资和传统结构性投资之间做出更明智、更符合社会公平原则的权衡与决策。
核心图片:
(7) 立场观点:AI安全不应只盯着『天网』,更要关心打工人的『饭碗』
论文类别: Outstanding Position Paper
论文英文标题:
Position: AI Safety should prioritize the Future of Work
论文链接:
https://icml.cc/virtual/2025/poster/40166
介绍:
由摩根大通AI研究院、加州大学圣地亚哥分校、哥伦比亚大学等机构的研究者联合发表了一篇立场鲜明的观点论文,尖锐地指出当前AI安全(AI Safety)领域的研究焦点存在严重偏颇。他们认为,目前AI安全研究过多地集中于过滤有害内容、防止行为操纵以及应对网络或生物安全等“生存风险”,却在很大程度上忽视了AI对社会结构,特别是对“未来工作”(Future of Work)的深远影响。
论文作者认为,AI安全不应与劳动力市场动态和经济正义脱节。通过经济学理论的视角,他们剖析了生成式AI对人类生计和劳动力市场造成的结构性冲击。这包括:
- 加剧不平等
:AI自动化可能导致大规模的技能替代和工作岗位流失,进一步加剧收入不平等。 - 寻租行为
:大型AI公司利用其资源优势,通过游说、专利垄断和数据独占等方式进行“寻租”(rent-seeking),阻碍了创新和公平竞争。 - 侵蚀创造性劳动
:AI模型在训练过程中大量使用受版权保护的数据,对创意产业构成威胁,可能导致创造性劳动的平庸化。 - 增加技术债务
:仓促部署未经充分测试的AI系统,会带来偏见、错误信息和责任缺失等长期社会成本。
基于以上风险,论文强烈呼吁AI安全领域进行系统性改革,将重心转向保护“有意义的劳动”(meaningful labor)和人类的能动性(human agency)。他们提出了一系列具体建议,包括:为被AI取代的工人提供全面的过渡支持;建立一个强有力的国际版权体系,通过集体许可等机制确保数据创作者获得公平补偿;推动开源训练数据和模型,减少技术垄断;以及建立一个“亲劳动者”(pro-worker)的全球AI治理框架,以促进共同繁荣和经济正义。这篇论文是对AI社区的一声警钟,提醒我们技术的发展最终应服务于人的福祉。
(8) 审稿危机:AI顶会同行评审已不堪重负,是时候引入『双向反馈』和『审稿人激励』了!
论文类别: Outstanding Position Paper
论文英文标题:
Position: The AI Conference Peer Review Crisis Demands Author Feedback and Reviewer Rewards
论文链接:
https://icml.cc/virtual/2025/poster/40108
介绍:
由NAVER AI Lab的研究者们针对当前AI顶会面临的严峻“同行评审危机”发表了一篇极具现实意义的立场论文。随着各大AI会议的投稿量爆炸式增长(单个会议投稿量轻松过万),同行评审的质量下滑、审稿人责任心缺失等问题日益凸显,整个学术生态系统的可持续性受到严重威胁。
论文一针见血地指出,当前的评审系统存在根本性的“权力失衡”:作者处于弱势,而审稿人几乎无需为低质量或不负责任的评审承担任何后果。这种单向的评价体系导致了审稿疏忽、甚至滥用LLM生成粗浅评审等乱象。
为了打破这一僵局,作者提出了两大核心改革建议,旨在将传统的单向评审转变为一个“双向反馈闭环”:
- 引入作者反馈机制
:建立一个两阶段的双向盲审系统。在第一阶段,审稿人先提交不含负面评价和最终评分的评审内容(如论文总结、优点、澄清性问题);作者在看到这些内容后,需要对评审的质量(如审稿人对论文的理解程度)进行评价。这个评价完成后,审稿人才提交包含“缺点”和“最终评分”的第二部分内容。这种设计既能让作者的声音被听见,又能最大限度地减少作者出于报复心理的负面评价。 - 建立系统的审稿人奖励机制
:将审稿贡献与正式的学术声誉挂钩。论文建议,应为高质量的审稿人提供系统性的奖励,例如在个人学术主页(如OpenReview、Google Scholar)上展示由会议官方颁发的“数字徽章”(Digital Badges),并建立审稿人影响力分数(Reviewer Impact Score)。这些奖励不仅是对审稿人付出的认可,也为他们提供了可验证的、有长期专业价值的学术资历。
这篇论文的呼吁非常及时且具有建设性,它敦促整个AI社区正视同行评审这一学术基石所面临的挑战,并通过制度创新来重建一个更加公平、负责和可持续的学术交流环境。
核心图片:
好的,这是一个有洞见的结尾,希望能为这篇推文画上一个完美的句号。
当我们将这8篇杰出论文并置,一幅宏大的图景便徐徐展开。我们看到的,不仅仅是AI技术在算法、模型和应用上的又一次飞跃,更是一场深刻的范式转移——AI研究的重心,正从对“能力”的无限探索,转向对“责任”的深刻审视;从冰冷的性能指标,走向温热的人文关怀。
值得注意的是,两篇《立场观点》论文的入选,本身就是一个强烈的信号。这表明,ICML——乃至整个AI社区——正在将目光从单纯追求模型性能的“内卷”,转向对科研生态、社会责任和人类福祉的“内省”。我们不再仅仅问“AI能做什么?”,而是开始严肃地追问“AI应该做什么?”以及“我们应该如何引导AI?”。
这种转变也悄然贯穿在技术论文之中。无论是将AI用于精准识别“最弱势群体”,还是训练AI成为更主动的“协作伙伴”,抑或是突破“下一个词预测”的局限去探寻真正的“创造力”,其内核都是在推动AI更好地理解和服务于复杂、真实且充满不确定性的人类世界。
这8篇论文,如同8个不同维度的探针,深入到AI时代的核心议题。它们既是当前研究的巅峰,也预示着未来的方向。这不仅仅是一份论文清单,更是一份邀请函,邀请每一位从业者、研究者和关注者,共同思考和参与到这场塑造未来的伟大对话中。因为AI的未来,终究是由我们今天的选择和思考所决定的。
本推文由 AI 生成,可能有误!
书生大模型体验链接:https://chat.intern-ai.org.cn
-- 完 --
机智流推荐阅读:
1. AI时代,你的速度决定了你的高度:吴恩达YC创业学校万字干货
2. ICCV25 | AI终于分清照片中的前景和背景了!探索南开DenseVLM在密集预测中的区域-语言对齐策略
3. 发个福利,可以免费领WAIC2025(世界人工智能大会·上海)单日门票
4. ICML 2025最佳论文花落谁家?120篇Oral前沿一网打尽!
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群