腾讯混元3 Preview发布:姚顺雨的“重建”与AI下半场的赌注

科技区角 2026-04-25 10:31

【科技纵览】
“We are just getting started.” 4月23日,混元3(Hy3)Preview版上线当天,腾讯首席AI科学家姚顺雨在社交平台X上留下了这句意味深长的话。这位上任仅三个月的AI主将,并未将此次发布视为终点,而是定义为“重建的开始”。他的目标很明确:打造超越公开榜单、具备全面实用能力的模型,而实现这一目标的唯一路径,是与产品共同设计(co-design),并稳健地扩展规模。

外界对Hy3的高期待,源于双重背景。年初,马化腾与刘炽平曾坦承腾讯在AI领域的滞后,刘炽平更直言过往模型如同“高中生背题”,应试成绩亮眼,实战却不堪一击。与此同时,顶着“姚班”及硅谷光环的姚顺雨,自去年9月离开OpenAI加入腾讯,并于12月正式掌舵AI业务后,其个人影响力也推高了市场预期。毕竟,在近年来的AI战局中,人才密度往往决定了胜负走向。

从1月底启动训练到4月开源上线,不到三个月的时间,即便在内卷加剧的大模型领域,这一速度也称得上迅猛。Hy3 Preview采用MoE架构,总参数295B,激活参数21B,支持最大256K上下文长度,并实现了快慢思考的融合。目前,该模型已在元宝、ima、CodeBuddy、WorkBuddy、QQ及腾讯文档等核心产品中首发。值得注意的是,Hy3并未在传统跑分上全面刷榜,其强调的真多轮对话、长记忆、工具调用及Agent能力,也不属于那种引发舆论“炸裂”的话语体系。

这背后是腾讯AI战略的深刻转向。2023年启动的混元项目,初期定位模糊,甚至在内部业务中也未能坐上“主桌”,部分核心业务线选择绕开混元自行寻找方案。直到2025年2月,元宝接入DeepSeek R1后用户量爆发,一度冲至App Store免费榜第二,这一现象既证明了市场需求,也为腾讯敲响了警钟:依赖外部API无法解决微信、企业服务、游戏AI等核心场景的深度定制需求。混元必须独立站立,而姚顺雨面临的不仅是算法难题,更是组织重构的挑战。

纠正错误的肌肉记忆远比学习新动作艰难。姚顺雨上任后,迅速推动了一系列激进调整:重组团队、引入业界人才、重建数据与基建。2026年3月20日,成立十年的腾讯AI Lab正式撤销,核心研发人员全部并入大语言模型部,统一向姚顺雨汇报。至此,所有AI研究力量收拢,聚焦混元单一主线。对于这支新组建的团队而言,首个公开版本的目标并非追求SOTA(State of the Art),而是跑通链路,验证关键能力。

Hy3 Preview的技术取舍,折射出姚顺雨的战略判断。在规模上,腾讯选择了平衡。295B的总参数在头部MoE模型中属中等偏下,但相比前代Hy2已实现底座近乎重构的跨越。这种选择基于两层考量:一是新团队首次完整跑通流程,不宜直接冲击极端参数;二是大模型时代的Scaling效应正在拉平,十倍成本换取5%的性能提升,用户感知并不明显。更重要的是,腾讯拥有微信、元宝等天文数字级的分发入口,若采用密集参数模型,推理成本将是MoE的十几倍,这在商业账本上难以算平。这也与行业共识相符,如刚发布的DeepSeek V4同样采用了更为激进的稀疏MoE路线。

在架构层面,腾讯选择了融合。Hy3 Preview将快慢思考整合为单一端点,由模型根据输入复杂度自主判断路径。这与DeepSeek将V3和R1分为两个独立端点的做法形成对比。DeepSeek假设开发者清楚自身需求,而腾讯则假设普通用户无需区分——例如在元宝中询问“周末带孩子去哪玩”的用户,不会预先思考需要快速还是深度回答。这种融合架构,正是姚顺雨2022年提出的ReAct框架的延伸,即让模型在“推理”与“行动”间自主切换,这也是Agent产品形态成立的前提。

评估体系的转变同样值得关注。Hy3 Preview在清华大学求真书院数学博士资格考试(26春)中取得国内最高分,并在FrontierScience-Olympiad等高难度理工科任务中表现突出。然而,腾讯并未沉迷于传统学术榜单,而是通过自建CL-bench等内部评测集,重点评估上下文学习能力与真实任务表现。姚顺雨曾在《The Second Half》中指出,学术评测假设每道题独立打分,但这不符合真实工作场景——工程师解决第十个bug的速度往往得益于前九个问题的积累。Hy3强调的真多轮与长记忆,正是为了打破这种孤立假设,将评估尺度从“考试题”转向“真实工作”。

所谓Co-design,即模型与产品从设计阶段同步推进,以产品反馈倒逼模型迭代。腾讯押注的核心假设在于:分发入口的优势必须转化为嵌入业务后的独特价值。尽管百度拥有搜索入口却未能在AI时代确立绝对优势,但腾讯认为,随着参数边际收益递减,技术差异化越来越难,下半场的竞争关键在于场景嵌入。Hy3 Preview作为练兵版本,成功验证了方法论与新组织的可行性,为后续版本奠定了基石。

然而,真正的考验仍在前方。主力版本混元3需在更大参数量级上证明该方法论的有效性,特别是稀疏MoE的Co-design能否扩展、快慢融合能否保持效率,以及场景化评估能否应对更复杂的业务需求。此外,从产品级闭环迈向模型级闭环——即模型能否消化反馈并自我改进,仍是开放的研究课题。组织文化的磨合也是潜在风险,业务线的独立性是否与模型团队的长期协同相冲突,需时间验证。刘炽平承诺AI投入翻倍展现了决心,但这份决心能否持续,取决于混元3及后续版本能否拿出令业务线信服的成绩。当Hy3正式版与其他顶尖大模型正面较量时,才是检验这套模型、产品及组织方法论有效性的关键时刻。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
刚刚!GPT-5.5发布、Kimi K2.6上线300Agent并行、Altman谈OpenAI推理转型
库克终于放下重担,Siri一句「我听不懂」,苹果的AI时代就过去了
劈柴哥把谷歌AI 芯片「劈」成两半,要硬刚英伟达了
15 亿 B 轮融资落地!奕行智能加速发力国产 RISC-V AI 芯片赛道
历史性时刻!Anthropic估值暴涨破万亿美元,首次超越OpenAI
让AI设计芯片,Cognichip获 6000 万美元投资!
腾讯混元Hy3 preview开源:295B参数重塑AI实战性价比
长鑫存储投资AI芯片公司
20亿美元!特斯拉偷偷买了个AI公司
Intel战略复兴深度分析:从制程突破和先进封装产能到AI推理需求的估值重塑(2026-2029年展望)
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号