野生DeepSeek火了,速度碾压官方版,权重开源

大模型之心Tech 2025-07-05 08:05

作者 | 机器之心

原文链接:野生DeepSeek火了,速度碾压官方版,权重开源

点击下方卡片,关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

>>点击进入→大模型没那么大Tech技术交流群

本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询


没等来 DeepSeek 官方的 R2,却迎来了一个速度更快、性能不弱于 R1 的「野生」变体!


这两天,一个名为「DeepSeek R1T2」的模型火了!



这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。


在技术层面,采用了专家组合(Assembly of Experts,AoE)技术开发,并融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型。


当然,这个模型也是开源的,遵循 MIT 协议,并在 Hugging Face 上开放了权重。




Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera


经过进一步了解,我们发现:DeepSeek R1T2 是德国一家 AI 咨询公司「TNG」推出的,模型全称为「DeepSeek-TNG R1T2 Chimera」(以下简称 R1T2)。


该模型除了前文提到的在智力水平和输出效率之间实现完美平衡之外,相较于这家公司的初代模型「R1T Chimera」,智力大幅跃升,并实现了突破性的 think-token 一致性。


不仅如此,即使在没有任何系统提示的情况下,该模型也能表现稳定,提供自然的对话交互体验。



在评论区,有人误以为这个模型出自 DeepSeek 官方,并且认为他们是不是也在走相同的路线:给模型起各种名称,就是不用主系列下一代版本号?



更多的人认可该模型「找到了智能与输出 token 长度之间的最佳平衡点,并且提升了速度」,并对该模型在现实世界的表现充满了期待。




模型细节概览


从 Hugging Face 主页来看,R1T2 是一个基于 DeepSeek R1-0528、R1 以及 V3-0324 模型构建的 AoE Chimera 模型。


该模型是一个采用 DeepSeek-MoE Transformer 架构的大语言模型,参数规模为 671B。


R1T2 是该公司 4 月 26 日发布的初代模型「R1T Chimera」的首个迭代版本。相较于利用双基模型(V3-0324 + R1)的初代架构,本次升级到了三心智(Tri-Mind)融合架构,新增基模型 R1-0528。


该模型采用 AoE 技术构建,过程中利用较高精度的直接脑区编辑(direct brain edits)实现。这种精密融合不仅带来全方位提升,更彻底解决了初代 R1T 的 <think>token 一致性缺陷。



团队表示,R1T2 对比其他模型具备如下优劣:



此外,R1T2 的几点局限性表现在:



最后,关于 R1T2 中重要的 AoE 技术,可以参考以下论文。




参考链接:https://x.com/tngtech/status/1940531045432283412

© THE END 


大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,欢迎扫码加入一起学习一起卷!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
快讯|天链机器人完成A股IPO辅导备案;智元机器人发布“灵渠OS”开源计划;四川发布首批机器人产业机会清单
拆箱开源版Coze:Agent核心三件套大公开,48小时揽下9K Star
腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统
豆包最强AI修图模型来了!动嘴就能精准P图,扣子开源版上线,还搞定同声传译
华为自研!中国人自己的编程语言正式开源
AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
智谱发布新一代基座模型 GLM-4.5:开源、高效、低价,专为智能体而生
资讯 | 京东推出 100% 开源企业级智能体;问界 M9 实现行业首例卫星救援
挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号