DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事

APPSO 2025-09-18 15:51
就在今天,DeepSeek 的大型语言模型 DeepSeek-R1 的研究成果,作为封面文章登上了国际顶尖科学期刊《Nature》。
资讯配图
图片链接:https://www.nature.com/nature/volumes/645/issues/8081
和 OpenAI 那些动辄上千万美元,这个只花了 30 万美元训练出来的国产 AI 模型,曾经不仅一度引发美股震荡,现在还登上了 Nature 的最新封面。
资讯配图
Nature 封面评语
此次登上 Nature 封面的文章,是 DeepSeek 年初在 arXiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即 R1 的技术论文。
资讯配图
论文作者名单,梁文锋是通讯作者
虽然大体上和年初那篇类似,但是补充了相当多细节。
正文只有双栏 11 页,补充材料却来到了 83 页;而同行评审,就是审稿人与 DeepSeek 团队就论文某些问题进行讨论的记录(一般叫 rebuttal,反驳),也有 64 页之多。
这些新公开的资料,让我们看到了 DeepSeek R1 详细的训练流程,以及团队首次披露了,训练 R1 推理能力的关键成本,仅 29.4 万美元。
在同行评审的文件中,DeepSeek 更是回答了,像是之前质疑 R1 的成功,是否依赖于「蒸馏」,或者说「抄袭」了像 OpenAI 等更强模型的输出等问题
我们没有故意加入 OpenAI 生成的内容,所有训练数据都是通过网页抓取。
为什么是 DeepSeek 登上 Nature 封面?
可能你也会想问,DeepSeek R1 不算是全球范围里面最强的大语言模型,为什么是 DeepSeek 登上了 Nature。
资讯配图
Nature(自然)杂志是全球影响力最高的期刊,理工类学科常说的 CNS 即上图中的 Cell、Nature、以及 Science。而封面的含金量,更是 Top 中的 Top。
在 AI 行业,和计算机视觉和模式识别类顶级会议 CVPR(上图中排名第二)不同,Nature 封面有着特殊的象征意义,它不仅是科研成果的认可,更像是一种科学殿堂的最高认可。
过去几年,OpenAI、Anthropic、Google 都发布过各种技术报告(technical report),但都没有把自家大模型送上同行评审。原因很简单:

一方面,同行评审意味着要公开更多细节,可能涉及商业机密。

另一方面,大模型的很多宣传容易被质疑,同行评审则要求你必须提供证据、接受外部质询。
而这一次,DeepSeek 把 R1 模型送进了学术体系,让 8 位独立专家逐条审查,并公开了审稿意见与作者回复。
这不仅让 R1 的科学价值获得了认可,也为整个行业立下了一个新标杆。大模型不只是公司的黑箱,它们也可以经受专业科学的检验
这是 AI 走向科学化的历史性时刻,也是 DeepSeek 为什么能登上 Nature 封面的重要原因。
开源 AI 平台 HuggingFace 的机器学习工程师 Lewis Tunstall 在审稿时表示,
这是一个非常受欢迎的先例,如果我们没有公开分享,这一过程大部分内容的规范,就很难评估这些系统是否带来风险。
资讯配图
Nature 官方也专门发文,呼吁其他公司,也把他们的大语言模型交给同行评审。
在这篇推荐文章里面,Nature 编辑专门提到了同行评审的好处。
依赖独立研究人员的同行评审,是平息人工智能行业炒作的一种方式。
和我们常看的技术报告、技术博客(行业内叫做模型卡/系统卡)不同,同行评审不会单向接受信息,而是要确保作者证明他们的主张。就像我们平时看一些大语言模型的发布会,他们都声称自己的模型,在某些基准测试上拿到了第一名。
但同行评审,就能制衡 AI 开发者,避免让他们选择能最好展示其模型性能的基准测试,来为自己「批改作业」;因为基准测试是可以被操纵,以高估模型的性能
同行评审文件内一些关键的问答,我们节选了一些放在这里。
Q:基础模型(DeepSeek-V3-Base)可能在预训练阶段就接触了大量由其他模型(如 OpenAI 的模型)生成的推理数据,导致 RL 的效果被夸大。
A:我们选择了一个在任何高级推理模型公开发布之前,就已经发布的模型 Qwen2-7B 作为基础模型,实验结果显示,经过我们的纯强化学习方法训练后,Qwen2-7B-Zero 的推理能力,远超其原始版本和同期的 GPT-4o 模型。
资讯配图
这个实验有力地证明了,我们的 RL 框架能够自主地在未受污染的基础模型上,激发出高级推理能力,而不是简单地复现预训练数据中的模式
Q:与评估污染相关,但性质不同,我们想知道是否存在某些示例,是使用其他公司模型生成的可能性,正如媒体所暗示的那样。
像是直接或间接从基准测试数据,或互联网获取的数据,有可能用于训练或强化学习的数据集,包含由 OpenAI 的模型,或其他提供商生成的内容。
这将使 DeepSeek 的模型成为 OpenAI 模型的一部分「蒸馏」。
A:我们了解到,模型蒸馏是 DeepSeek 模型开发中,被广泛讨论的话题。
在预训练阶段,我们承认所收集的网络数据,可能包含由高级模型(如 GPT-4)生成的内容。然而,鉴于互联网上合成内容的广泛存在,这在当前的大规模语言模型训练中难以避免。
但是,这篇论文的核心贡献 R1-Zero,并未涉及任何来自高级模型的蒸馏。强化学习组件是独立训练的,并且不依赖于诸如 GPT-4 等模型的输出或指导。
同行评审文件全文链接 🔗:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf
能经得起评审,是因为技术也足够强
除了是首个经过独立同行评审的大语言模型,DeepSeek R1 自身的技术突破也毫不逊色。
DeepSeek-R1 最核心的贡献是证明了纯强化学习(pure reinforcement learning, RL) 可以有效激发 LLM 的推理能力,无需依赖人类标注的思维路径,自己学会推理。
资讯配图
强化学习框架
传统的大模型提升推理能力,往往需要人类手动提供,大量思考链条(chain-of-thought),让模型模仿。但这样的问题是,需要人工标注,成本高,不可持续;其次是,受限于人类思维,模型只能学人类的套路,难以探索新的推理路径。
R1 的方法完全不同,它只给模型一个奖励信号,「答案对了就加分,错了就减分」;不规定中间推理步骤,让模型自己去探索。
结果是,R1 在训练过程中出现了类似「自我反思、验证、动态调整」的行为。比如,它会在回答过程中说「等等,我需要重新检查这一步」,这种反思片段就是所谓的涌现式推理能力
资讯配图
DeepSeek-R1 和 DeepSeekR1-Zero 的基准性能,与不同数据集上的人类得分进行了比较。
在公开测试中,R1 在数学竞赛 AIME 2024 的准确率达到 77.9%,远高于人类平均水平,甚至在部分代码和理科推理任务上,超过了 GPT-4。
在更详细的补充材料里面,DeepSeek 公开了 R1 的训练细节、如何从 R1-Zero 进化到 R1 的具体路径、以及关于 R1 全面的评估测试,包括多语言、安全和风险控制、稳定性等等。
资讯配图
补充材料链接🔗(通讯作者也是梁文锋):  
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf
由于 R1 是今年一月份的工作,所以里面的内容,可能也不是 DeepSeek 或者行业内,目前最新的方法。
但我们可以从这份详细的报告中,看到 R1 究竟是怎么被创造出来,又是怎么做到了大家都喜欢的「嗯,让我先想一想」推理。
R1-Zero:极致的推理模型
DeepSeek R1 的前身,是一个追求极致推理、通过 AI 模型自主「野蛮生长」诞生的 DeepSeek R1-Zero。
R1-Zero 训练的起点是 DeepSeek-V3 Base 模型,这是一个包含 6710 亿总参数(每次激活 370 亿)的混合专家(MoE)架构模型,已经在海量的中英文网页,和电子书数据上完成了预训练。
资讯配图
传统的监督微调,会需要手工给出具体的推理轨迹。图中为与代码相关的推理数据中的示例 SFT 轨迹。
和传统的大模型微调第一步,监督微调(SFT)不同,DeepSeek 直接跳过了这一步。他们假设,如果一开始就用人类撰写的标准解题步骤,来训练模型,反而会限制模型的探索空间,模型的性能上限会被我们人类的认知所束缚。
纯粹的强化学习(Pure RL)
研究团队为模型设计了一个极其简洁的强化学习框架,只告诉它最关键的规则。
任务格式:模型被要求以固定格式输出,即必须先生成被 think 标签包裹的「思考过程」,然后再输出被 answer 标签包裹的「最终答案」。
奖励信号:这是整个方法论的精髓。奖励信号完全基于规则,且只关心结果。

准确率奖励:answer 标签里的最终答案是否正确?对于数学题,就看答案是否与标准答案完全一致;对于代码题,就看生成的代码能否通过所有预设的测试用例。

格式奖励:思考过程是否被正确地封装在 think 标签内?

关键点:整个过程中,对于 think 标签里的思考过程本身,没有任何对错评判。模型可以天马行空,用任何它认为有效的方式去思考,只要最终答案正确即可。
能力的涌现与自我进化
在这种「只问结果、不问过程」的训练下,R1-Zero 展现了惊人的进化:
资讯配图
训练过程中 DeepSeek-R1-Zero 的 AIME 准确率和输出长度性能的提升:在AIME 2024数学竞赛基准上,模型的解题准确率,从最初的 15.6% 一路飙升至 77.9%,远超人类参赛者的平均水平。
思考的深化:模型自发地学会了用更长的思维链(Chain-of-Thought, CoT)来解决问题。其平均响应长度随着训练稳步增加,从几千个 token 增长到上万个 token,意味着它在思考上花费了更多时间。
高级策略的涌现:最令人感到惊喜的是,模型自主发展出了高级推理策略,如自我反思(self-reflection)和系统性地探索替代方案。
资讯配图
训练过程中推理行为的演变。训练过程中的代表性反思词频率(左);单词「等待」在整个训练过程中的具体出现模式(右)
论文中一个经典的顿悟时刻(Aha Moment)显示,模型在解题中突然输出「等一下……」,然后重新评估并修正了自己的解题路径。
补充材料中的图表也用数据证明,在训练过程中,模型使用「等一下」、「这里出现了错误」、「我需要验证一下」等反思性词语的频率显著增加。
资讯配图
模型学会以拟人化的语气重新思考,DeepSeek 说,这对我们团队来说也是一个顿悟时刻,见证了强化学习的力量与美感。
R1:将推理能力融入产品
R1-Zero 证明了纯强化学习的巨大潜力,但它还不是一个能直接面向用户的成熟产品。
它存在明显的问题,思考过程的可读性很差,有时会在一个思维链中混用中英文,并且由于训练完全聚焦于推理,R1-Zero 在写作、开放域问答等通用能力上表现平平。
于是,研究团队设计了一套精密的多阶段训练流程,目标是将 R1-Zero 的强大推理能力与优秀的用户体验结合起来,最终诞生 DeepSeek-R1。
这个过程可以清晰地分为四步,每一步都对应着一个中间模型(Dev1, Dev2, Dev3)。
资讯配图
DeepSeek-R1 通过强化学习,激励 LLMs 进行推理,展示从 R1-Zero 到 Dev1,Dev2,Dev3,再到最后的 R1。
第一步:冷启动 SFT(诞生 R1-Dev1)
解决语言混用和可读性差的问题,教模型好好说话。
首先,从 R1-Zero 生成的大量推理轨迹中,筛选出那些答案正确,且格式工整的样本。然后,动用人类标注员和 DeepSeek-V3 模型,将这些原始的、机器化的思考过程,改写成更符合人类对话习惯、采用第一人称的流畅文本。
这个过程产生了数千条高质量的「冷启动」数据;最后,用这些「冷启动」数据对基础模型进行监督微调(SFT)。
R1-Dev1 在指令遵循等通用能力上大幅提升,但因为冷启动数据集规模有限,它在 AIME 等高难度推理任务上的性能反而有所下降。
第二步:第一轮强化学习(诞生 R1-Dev2)
在保持人话风格的基础上,重新强化其推理能力。
对 R1-Dev1 进行强化学习。这次的奖励信号除了基于规则的准确率奖励外,创造性地加入了一个语言一致性奖励如果模型在处理中文问题时,思维链中中文词汇比例越高,奖励就越多,以此来纠正语言混用问题。
结果 R1-Dev2 的推理能力(尤其在数学和代码上)得到显著增强,恢复甚至超过了 R1-Zero 的水平。
第三步:大规模监督微调(诞生 R1-Dev3)
全面扩展模型的知识面和通用能力,让它成为「通才」。
将约60万条由 R1-Dev2 生成的推理数据,与约 20 万条非推理数据(如写作、通用问答、代码工程等)混合在一起,进行一次大规模的SFT。
结果是 R1-Dev3 在AlpacaEval 2.0 等通用和代码工程基准上获得了显著的性能提升。
资讯配图
在 LiveCodeBench 数据集中,不同难度问题上 DeepSeek-R1 各阶段的实验结果。
第四步:第二轮强化学习(最终形态 DeepSeek-R1)
进行最终的精装修,使模型行为与人类偏好(有用性、无害性)对齐。
方法:对 R1-Dev3 进行最后一轮全面的强化学习。这次的奖励系统最为复杂,是一个组合。
对于推理任务,继续使用基于规则的奖励。对于通用任务,则启用基于模型的奖励
DeepSeek 团队为此专门训练了两个奖励模型,一个「有用性」奖励模型,和一个「安全性」奖励模型,它们基于人类偏好数据来为模型的回答打分。
最终的 DeepSeek-R1 诞生。虽然它的推理能力只有边际提升(因为此前已足够强大),但在通用指令遵循和用户偏好基准上提升巨大,AlpacaEval 2.0 提升 25%,Arena-Hard 提升 17%。
此外,论文中还提到了关键的技术 GRPO算法,整个强化学习过程由 DeepSeek 自研的 GRPO 算法驱动。相比传统的 PPO 算法,GRPO 通过「组内竞争」来估算优势,它不需要训练一个额外的价值模型,从而简化了流程并降低了资源消耗。
最终 R1 的训练成本,也是空前的节省,只花了 29.4 万美元。
资讯配图
几周前,a16z 的合伙人 Martin Casado 说,估计 80% 的湾区初创公司,都在基于中国开源模型进行开发。下方的图表显示,在 HuggingFace 上,国产模型的下载量已超过美国模型的下载量。
资讯配图
图片来源:
https://www.interconnects.ai/p/on-chinas-open-source-ai-trajectory
登上 Nature 封面,对 DeepSeek 来说可能是一个极大的认可;但也许,这只是一个开始。
相关链接汇总:
🔗 DeepSeek Nature 论文:
https://www.nature.com/articles/s41586-025-09422-z
🔗 补充材料:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf
🔗 同行评审:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf
🔗 Nature 编辑文章:
https://www.nature.com/articles/d41586-025-02979-9
🔗 Nature 新闻:
https://www.nature.com/articles/d41586-025-03015-6
🔗 DeepSeek 原 arXiv 论文:
https://arxiv.org/pdf/2501.12948
资讯配图
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
资讯配图
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
AI是不是一场世纪大泡沫,顶级分析师发布「AI泡沫检测器」,5个读数一看就懂
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
AI芯片独角兽一年估值翻番!放话“三年超英伟达”,最新融资53亿超预期
中美AI投资人72小时激辩:未来独角兽不在基础模型,中国狂奔应用,美国执着AGI
全球首个AI基因组诞生,35亿年生命代码重编程!生物学迎「ChatGPT时刻」
百度智能云,实现AI云六连冠
《WAIC UP!》嘉宾|微软前首席战略官Craig Mundie:AI会成为全球合作的桥梁,还是孤立动荡的导火索?
【报告】Agent专题三:AI行业专题报告:国产Agent不断演进,通用协议推进系统性应用(附PDF下载)
突发!第一所被AI干崩的顶尖大学,刚刚倒闭了
埃森哲-AI规模化应用指南::8%寡头已靠AI再造一条产业链,92%老板却还在PPT里“自动驾驶”
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号