【区角快讯】当大模型竞赛从单纯的参数堆砌转向落地实效,腾讯混元团队在4月23日交出了一份颇具分量的答卷。备受关注的Hy3 preview语言模型正式对外发布并开源,这不仅是混元体系重建后的首个成果,更标志着其技术路线向“实用主义”的深度转型。该模型采用快慢思考融合的混合专家架构,总参数量达295B,激活参数为21B,支持长达256K的上下文窗口。官方数据显示,其在复杂推理、代码生成及智能体(Agent)协同等维度的能力实现了跨越式提升。

回溯至今年2月,腾讯混元完成了预训练与强化学习基础设施的重构,并确立了三大核心原则:能力体系化、评测真实性以及极致的性价比。团队摒弃了单一能力的“偏科”倾向,强调推理、长文理解、指令遵循等多维能力的深度协同;同时,主动跳出易被刷分的公开榜单,转而通过自建题目、最新考试及人工众测等方式,评估模型的“真实战斗力”。这种对商业合理性的追求,旨在通过软硬协同设计降低任务成本,让智能真正变得“用得起、用得好”。
腾讯首席AI科学家姚顺雨指出,Hy3 preview仅是混元重建的第一步。团队希望通过开源获取社区的真实反馈,以优化后续正式版。与此同时,腾讯正持续扩大预训练规模,并与元宝、QQ、腾讯文档等全线产品进行深度Co-Design,以提升真实场景下的综合表现。目前,该模型已接入OpenClaw、KiloCode等主流开源Agent框架,并上架腾讯云TokenHub平台。
在硬核指标上,Hy3 preview的表现令人瞩目。其上下文学习与指令遵循能力在CL-bench等创新评测中显著增强,能够从容应对杂乱冗长的生产环境数据。在复杂推理方面,该模型在清华数学博士资格考试(26春)及全国中学生生物学联赛中取得优异成绩,展现了强大的泛化推理潜力。而在代码与智能体领域,得益于强化学习规模的提升,Hy3 preview在SWE-Bench Verified等基准测试中竞争力十足,并在内部后端工程任务集Hy-Backend中表现出极高的稳定性。
实际业务验证进一步佐证了其价值。在元宝端,经过精细化调优,模型在意图理解与文本创作上更具“活人感”;在ima知识库问答中,长文检索的准确性与覆盖度大幅提升。针对办公场景,CodeBuddy和WorkBuddy的首token延迟降低54%,端到端时长缩短47%,成功率突破99.99%,甚至能稳定驱动长达495步的复杂工作流。此外,在和平精英AI NPC场景中,模型展现出优秀的拟人化扮演能力;在腾讯文档AIPPT生成中,成功率提升20%且无幻觉现象。
效率与成本的平衡是此次发布的另一大亮点。通过全链路优化,Hy3 preview的整体推理效率较前代提升约40%。在腾讯云TokenHub平台上,其输入价格低至1.2元/百万tokens,输出价格为4元/百万tokens。腾讯云还推出了最低28元/月的个人版套餐,为开发者打造高性价比的Agent应用提供了有力支撑。这一系列举措表明,腾讯正试图通过技术重构,打破大模型落地的成本壁垒,推动AI从“炫技”走向“实干”。