腾讯混元3 Preview发布：姚顺雨的“重建”与AI下半场的赌注

【科技纵览】
“We are just getting started.” 4月23日，混元3（Hy3）Preview版上线当天，腾讯首席AI科学家姚顺雨在社交平台X上留下了这句意味深长的话。这位上任仅三个月的AI主将，并未将此次发布视为终点，而是定义为“重建的开始”。他的目标很明确：打造超越公开榜单、具备全面实用能力的模型，而实现这一目标的唯一路径，是与产品共同设计（co-design），并稳健地扩展规模。

外界对Hy3的高期待，源于双重背景。年初，马化腾与刘炽平曾坦承腾讯在AI领域的滞后，刘炽平更直言过往模型如同“高中生背题”，应试成绩亮眼，实战却不堪一击。与此同时，顶着“姚班”及硅谷光环的姚顺雨，自去年9月离开OpenAI加入腾讯，并于12月正式掌舵AI业务后，其个人影响力也推高了市场预期。毕竟，在近年来的AI战局中，人才密度往往决定了胜负走向。

从1月底启动训练到4月开源上线，不到三个月的时间，即便在内卷加剧的大模型领域，这一速度也称得上迅猛。Hy3 Preview采用MoE架构，总参数295B，激活参数21B，支持最大256K上下文长度，并实现了快慢思考的融合。目前，该模型已在元宝、ima、CodeBuddy、WorkBuddy、QQ及腾讯文档等核心产品中首发。值得注意的是，Hy3并未在传统跑分上全面刷榜，其强调的真多轮对话、长记忆、工具调用及Agent能力，也不属于那种引发舆论“炸裂”的话语体系。

这背后是腾讯AI战略的深刻转向。2023年启动的混元项目，初期定位模糊，甚至在内部业务中也未能坐上“主桌”，部分核心业务线选择绕开混元自行寻找方案。直到2025年2月，元宝接入DeepSeek R1后用户量爆发，一度冲至App Store免费榜第二，这一现象既证明了市场需求，也为腾讯敲响了警钟：依赖外部API无法解决微信、企业服务、游戏AI等核心场景的深度定制需求。混元必须独立站立，而姚顺雨面临的不仅是算法难题，更是组织重构的挑战。

纠正错误的肌肉记忆远比学习新动作艰难。姚顺雨上任后，迅速推动了一系列激进调整：重组团队、引入业界人才、重建数据与基建。2026年3月20日，成立十年的腾讯AI Lab正式撤销，核心研发人员全部并入大语言模型部，统一向姚顺雨汇报。至此，所有AI研究力量收拢，聚焦混元单一主线。对于这支新组建的团队而言，首个公开版本的目标并非追求SOTA（State of the Art），而是跑通链路，验证关键能力。

Hy3 Preview的技术取舍，折射出姚顺雨的战略判断。在规模上，腾讯选择了平衡。295B的总参数在头部MoE模型中属中等偏下，但相比前代Hy2已实现底座近乎重构的跨越。这种选择基于两层考量：一是新团队首次完整跑通流程，不宜直接冲击极端参数；二是大模型时代的Scaling效应正在拉平，十倍成本换取5%的性能提升，用户感知并不明显。更重要的是，腾讯拥有微信、元宝等天文数字级的分发入口，若采用密集参数模型，推理成本将是MoE的十几倍，这在商业账本上难以算平。这也与行业共识相符，如刚发布的DeepSeek V4同样采用了更为激进的稀疏MoE路线。

在架构层面，腾讯选择了融合。Hy3 Preview将快慢思考整合为单一端点，由模型根据输入复杂度自主判断路径。这与DeepSeek将V3和R1分为两个独立端点的做法形成对比。DeepSeek假设开发者清楚自身需求，而腾讯则假设普通用户无需区分——例如在元宝中询问“周末带孩子去哪玩”的用户，不会预先思考需要快速还是深度回答。这种融合架构，正是姚顺雨2022年提出的ReAct框架的延伸，即让模型在“推理”与“行动”间自主切换，这也是Agent产品形态成立的前提。

评估体系的转变同样值得关注。Hy3 Preview在清华大学求真书院数学博士资格考试（26春）中取得国内最高分，并在FrontierScience-Olympiad等高难度理工科任务中表现突出。然而，腾讯并未沉迷于传统学术榜单，而是通过自建CL-bench等内部评测集，重点评估上下文学习能力与真实任务表现。姚顺雨曾在《The Second Half》中指出，学术评测假设每道题独立打分，但这不符合真实工作场景——工程师解决第十个bug的速度往往得益于前九个问题的积累。Hy3强调的真多轮与长记忆，正是为了打破这种孤立假设，将评估尺度从“考试题”转向“真实工作”。

所谓Co-design，即模型与产品从设计阶段同步推进，以产品反馈倒逼模型迭代。腾讯押注的核心假设在于：分发入口的优势必须转化为嵌入业务后的独特价值。尽管百度拥有搜索入口却未能在AI时代确立绝对优势，但腾讯认为，随着参数边际收益递减，技术差异化越来越难，下半场的竞争关键在于场景嵌入。Hy3 Preview作为练兵版本，成功验证了方法论与新组织的可行性，为后续版本奠定了基石。

然而，真正的考验仍在前方。主力版本混元3需在更大参数量级上证明该方法论的有效性，特别是稀疏MoE的Co-design能否扩展、快慢融合能否保持效率，以及场景化评估能否应对更复杂的业务需求。此外，从产品级闭环迈向模型级闭环——即模型能否消化反馈并自我改进，仍是开放的研究课题。组织文化的磨合也是潜在风险，业务线的独立性是否与模型团队的长期协同相冲突，需时间验证。刘炽平承诺AI投入翻倍展现了决心，但这份决心能否持续，取决于混元3及后续版本能否拿出令业务线信服的成绩。当Hy3正式版与其他顶尖大模型正面较量时，才是检验这套模型、产品及组织方法论有效性的关键时刻。