3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

机器之心 2026-06-17 19:32
3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图1
编辑|张倩


最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图2


这个模型名叫 VibeThinker-3B,是一个拥有 30 亿参数的密集推理模型,旨在探索在严格的小模型规模下,可验证推理能力能被推进到何种程度。


模型发布后,很多人都被它的成绩惊艳到了,表示要上手一试。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图3


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图4


值得注意的是,它还是一个国产模型,来自新浪微博团队。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图5


技术报告显示,该模型专为具有可靠验证信号的任务而设计,包括数学推理、竞技编程、STEM 推理以及带有明确约束的指令执行。


因此,它在各项基准测试中均表现出色 。其在 AIME26 测试中获得 94.3 分 ,在 HMMT25 测试中获得 89.3 分 ,在 LiveCodeBench v6 测试中获得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期间 LeetCode 最新未公开的周赛和双周赛中取得了 96.1% 的通过率。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图6


这个模型是怎么训练的?技术报告揭示了一些细节。


首先,它基于 Qwen2.5-Coder-3B 构建,并采用升级版 Spectrum-to-Signal 流程进行后训练。该流程在监督微调(SFT)中加强了数据合成、质量过滤和课程学习,将 MGPO 风格的强化学习扩展到多个可验证领域,保留了完整的长上下文推理轨迹,并通过离线自蒸馏和指令强化学习(Instruct RL)来巩固各项能力。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图7

VibeThinker-3B 整体训练流程


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图8

Spectrum-to-Signal 流程。


此外,VibeThinker-3B 还引入了 Claim-Level 可靠性评估(CLR),这是一种面向答案可验证推理的测试时 scaling 策略。CLR 进一步提升了数学基准测试的性能,将 AIME26 从 94.3 提高到 97.1,HMMT25 从 89.3 提高到 95.4,并将 BruMO25 提升至 99.2。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图9


其具体训练流程如下:



在最近的一个帖子中,知名 AI 研究者和博主 Sebastian Raschka 系统总结了 VibeThinker-3B 技术报告中披露的要点,包括以下几条:


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图10


如果你对这些内容感兴趣,可以去详细翻阅他们的技术报告。目前,模型也是可以公开下载的。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图11



不过,该模型的适用范围是有明确限制的,因为它在需要通用知识的领域表现并不出色。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图12


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图13


官方也明确指出了这一点,并提出「参数压缩覆盖假设」:不同的能力对模型参数的依赖方式截然不同。可验证推理更接近于一种高度可压缩、参数密集的能力,其核心在于多步骤推理、约束满足、自我纠错和答案验证。当任务空间结构足够清晰且反馈信号足够可靠时,紧凑型模型也可能具备接近前沿的推理能力。相比之下,开放领域知识、通用对话和长尾场景理解则更依赖于大规模参数来广泛覆盖事实、概念和世界知识。这一假设非常具有启发性。VentureBeat 在报道中写道:「它揭示了推理能力和事实知识之间存在部分解耦,并且前者可以比之前设想的更有效地压缩 —— 这一洞见对业界如何看待模型设计、部署成本以及高级人工智能功能的普及性都具有深远的影响。」


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图14
3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图15


作者表示,他们的目标并非打造一个替代大规模模型的小模型,而是沿着特定能力维度,审视小模型的真实边界。借助 VibeThinker-3B,他们希望表明,小模型不应仅仅被视为降低部署成本的妥协方案。在具有清晰反馈与验证机制的能力领域中,小型语言模型正展现出一条颇具前景的研究路径,有望实现前沿水平的性能,并与传统的参数规模扩展范式形成根本性的互补关系。


目前,该模型在社区中还面临一些质疑。如果大家对这个模型感兴趣,不妨自己去亲自试一下。


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图16


参考链接:https://x.com/orcus108/status/2066876960073281582


3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产图17


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
沐曦股份与优必选成立合资公司,布局具身智能芯片研发与量产
不再只卖芯片!安森美“系统级赋能”打通人形机器人动力与感知闭环
零跑朱江明:第一个举起芯片的是我!
韩国存储芯片的风险
三星为 Neuralink 代工 4nm 第四代脑机接口芯片
AI芯片的最大赢家
芯片巨头在华禁售!
LNS架构AI芯片,能效碾压主流GPU
将工业级 EDA 任务带进工作站:硅程科技借助 NVIDIA 实现芯片光学邻近效应修正
从芯片能力到系统能力 | 德州仪器(TI)眼中的下一代边缘智能
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号