颠覆行业!仅29.4万美元,DeepSeek R1超低训练成本登上《自然》封面

EETOP 2025-09-20 10:47
关注我们 设为星标

中国 AI 新创公司 DeepSeek 低成本模型登《自然》 29 万美元训练成本引全球热议

中国人工智能新创企业深度求索(DeepSeek)近日在顶尖学术期刊《自然》(Nature)发表的论文中披露,其专注于推理能力的 R1 模型训练成本仅为 29.4 万美元。这一数字不仅远低于美国竞争对手 OpenAI 所公布的数亿美元级别成本,更标志着全球首个通过权威期刊同行评审的大型语言模型正式诞生,引发科技界对 AI 研发范式的重新思考。

里程碑式突破:登上自然》封面

月 17 日,DeepSeek 的研究论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》登上《自然》封面,通讯作者为公司创始人梁文锋。这距离该公司今年 月在 arXiv 平台发布预印版论文引发热议已过去 个月,经过全球顶尖科学家的严苛同行评审后,这份研究成果的含金量获得学术界公认。

论文首次公开了 R1 模型的详细训练成本与技术细节:该模型使用 512 颗英伟达 H800 芯片组成的计算集群,经过 80 小时训练完成,总成本控制在 29.4 万美元。《自然》在封面推荐中特别指出,该研究揭示了 "在极少人工输入下训练模型进行推理的突破性方法,即通过强化学习让模型在正确解答数学问题时获得奖励,从而自主发展出逐步推理能力。

这一成果颠覆了行业对大模型研发的认知。相比之下,OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman2023 年曾透露,其基础模型训练成本 "远超过 亿美元",而 Anthropic 首席执行官达里奥・阿莫迪(Dario Amodei)更预测未来三年 AI 模型训练成本可能飙升至 1000 亿美元。美国消费者新闻与商业频道(CNBC)评价称,DeepSeek 的成本控制 "令人震惊""已经推翻了只有拥有最先进芯片的国家才能在 AI 竞赛中占据主导地位的假设"

资讯配图

当期《自然》杂志封面

技术革新:无监督强化学习的成本革命

DeepSeek 的低成本突破源于其开创性的技术路径。论文详细阐述了一种无需依赖大量人工标注数据的训练方法 —— 通过纯粹的强化学习(RL)激发模型的复杂推理能力,而非传统方法中必须先用人类解题步骤进行监督微调(SFT)。

该团队开发的群组相对策略优化(GRPO)算法无需使用与策略模型同等规模的评估模型,直接从群组分数中估算基线,大幅降低了计算资源需求。研究显示,模型在训练过程中自发发展出动态调整思考时间、自我反思修正甚至探索多种解题路径等高级行为,其中 "顿悟时刻"Aha Moment)的出现尤为引人注目 —— 模型在训练中期学会了通过重新评估初始方法来合理分配思考时间。

在工程实现上,DeepSeek 采用了 "基座模型 强化学习的渐进式方案:首先利用 A100 芯片完成小规模模型的实验准备(即 "冷启动阶段),随后在 512 颗 H800 芯片集群上进行正式训练。这种分阶段优化策略既保证了模型性能,又显著控制了成本。Hugging Face 机器学习工程师路易斯・汤斯顿(Lewis Tunstall)作为论文审稿人证实,其他实验室已成功复现 R1 模型的效果,证明该方法的普适性。

值得注意的是,该团队在训练中引入 "语言一致性奖励机制,通过计算思维链(CoT)中目标语言单词的比例来优化模型输出,虽然这导致性能略有下降,但显著提升了可读性,体现了技术取舍中的实用主义考量。

芯片争议:特供版硬件与地缘政治博弈

DeepSeek 的低成本宣称也引发了关于技术合规性的争议。论文披露的 H800 芯片是英伟达公司在美国 2022 年 10 月禁止向中国出口 H100A100 等高端 AI 芯片后,专为中国市场设计的特供版产品,其计算能力经过调整以符合美国出口管制要求。

在《自然》论文的补充材料中,DeepSeek 首次承认曾在研发准备阶段使用过 A100 芯片,"用于较小规模模型的实验准备",但强调 R1 模型的最终训练是在 H800 芯片集群上完成。这一细节披露正值中美芯片贸易摩擦升级之际 —— 美国政府今年多次收紧对华 AI 芯片出口限制,而中国商务部已于 月 13 日启动针对美国集成电路领域歧视性措施的反歧视调查。

美国企业和官员此前曾质疑,DeepSeek 能否使用性能受限的特供版芯片训练出高性能模型。对此,英伟达方面曾回应称 DeepSeek 使用的是合法采购的 H800 芯片。行业分析指出,H800 作为 A100 的替代产品,虽在计算能力上有所降低,但通过集群优化和算法创新,仍能支撑先进 AI 模型的研发,DeepSeek 的实践正是这一思路的成功验证。

行业影响:AI 研发范式的民主化探索

DeepSeek 的研究成果不仅具有科学价值,更树立了 AI 研发透明化的新标杆。论文毫无保留地公开了包括学习率、采样温度、"每道题尝试 16 个答案等具体参数设置,甚至坦诚为解决 "中英夹杂问题引入的语言一致性奖励会略微牺牲模型跑分,这种开放态度获得学术界高度评价。

俄亥俄州立大学 AI 研究员 Huan Sun 评论道:"经历严格的同行评审,无疑能有效验证模型的可靠性与实用价值。其他公司也应效仿此举,摆脱发布会上的惊艳演示和不断刷新的排行榜分数这种行业乱象。"

从行业视角看,R1 模型的成功证明了 "低成本高效研发路径的可行性。DeepSeek 采用的 "最大量免费数据预训练 模型自生成数据微调策略,与 Meta 的 Llama 系列开源模式形成呼应,但更进一步实现了顶级性能突破。科技咨询网站 "Tech Space 2.0" 分析指出:"DeepSeek 已经改变了游戏规则,这种节俭的策略是其他公司目前正在深入研究的模板。"

不过,研究也承认模型存在局限性,包括对非中英文查询可能出现语言混合、对提示词较敏感以及在长周期验证任务上提升有限等问题。这些不足恰恰为后续研究指明了方向,也凸显了 AI 技术仍需在开放与规范中不断演进。

随着 DeepSeek 的研究登上《自然》封面,全球 AI 竞争正从 "资本密集型向 "智力密集型转变。29.4 万美元与数亿美元的成本差距背后,不仅是技术路线的差异,更预示着 AI 民主化时代的加速到来 —— 当先进模型的研发门槛大幅降低,人工智能技术的创新活力或将得到前所未有的释放。


欢迎加入 EETOP 信群

资讯配图

报名

资讯配图
注:本次研讨会席位有限,因此暂停对院校学生开放报名,望理解。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
红旗全固态电池首台样车下线,车企竞速千亿新赛道
5分钟满电!全球首款全固态电池量产问世
宁德时代推天行II轻商电池系列 首款量产钠电池破解极寒运营难题
曝荣耀Magic V6提档,电池最大折叠屏手机?
汽车早餐 | 四部门联合召开动力和储能电池行业座谈会;吉利获L3级自动驾驶道路测试牌照;广汽国际与Grab达成战略合作
电池出口取消退税,新能源“切除腐肉”
小米一日两起火情事件官方通报:电池状态正常,正配合调查
欣旺达董事长否认向沃尔沃供应动力电池
固态电池量产了?谨防上当
福特拟采购比亚迪混动电池,战略转向凸显中美技术融合新趋势
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号