官方测试报告出炉!DeepSeek做出三大技术改进,针对下一代国产芯片设计

头部科技 2025-08-21 20:45
资讯配图
资讯配图
文丨丁灵波
DeepSeek-V3.1悄然开源上线后,引起全球开发者广泛关注,大家纷纷对其展开测试并对模型架构和技术路径进行了不同角度的猜测。
今天,DeepSeek官方技术参数解读出来了,只能说,网友们的推测很准!
资讯配图
DeepSeek团队表示,V3.1模型是迈向代理时代的重要一步,主要有三个层面的改进:

1、混合推理架构:思考与非思考——一个模型,两种模式;

2、思考速度更快:与R1-0528 相比,V3.1-Think能以更短的时间得出答案;

3、更强的代理技能:Post-training(训练后处理)提升了工具使用和多步骤代理任务能力。

相比各大封闭旗舰模型,DeepSeek依旧便宜又大碗。

资讯配图
超越自己,兼容Anthropic生态
DeepSeek开发者平台显示,目前API将遵循当前定价不变,不过自2025年9月5日16:00 UTC时间起,会变成以下价目表并取消夜间折扣优惠:

资讯配图

API端口也同步进行了升级,deepseek-chat对应非思考模式deepseek-reasoner对应思考模式,API Beta接口支持了strict模式的Function Calling,以确保输出的Function满足相关定义,Beta API中支持严格函数调用。

另外一点值得关注的是,为了满足大家对Anthropic生态的使用需求,DeepSeek的API新增了对Anthropic API格式的兼容支持,通过简单的配置,即可将DeepSeek的能力,接入到Anthropic API生态中。

V3.1基础版在V3模型基础上对840B个token进行预训练,以进行长上下文扩展,并且进行了新的标记器配置。

官方给到的测试参数令人惊喜。在编程智能体测评方面,如代码修复测评SWE与命令行终端环境下的复杂任务(Terminal-Bench),DeepSeek-V3.1相比之前的DeepSeek模型实现了全面提升。

资讯配图

此外,针对复杂搜索任务采用了更强的多步骤推理设计,例如在复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,DeepSeek-V3.1性能大幅领先此前的R1-0528。

资讯配图

思考效率方面,经过思维链压缩训练后,V3.1-Think在输出token数减少20%-50%的情况下,各项任务的平均表现仍能与R1-0528持平或超越。

资讯配图

资讯配图
针对国产芯片的布局
随着官方对精确性能参数的公布,网友们有了更好的对比参照。

从官方指标结果上看,DeepSeek-V3.1比V3-0324、R1-0528确实有比较大的提升,对比一下最近开源的国产编码Sota模型:一个是千问的Qwen-Coder,一个是Kimi的Kimi K2,DeepSeek-V3.1和万亿参数的Kimi K2性能相当并且略胜一筹,但部分性能略弱于Qwen3-Coder。

资讯配图

此外,DeepSeek官方也“实锤”了一波,这个新模型使用的UE8M0 FP8参数精度,是对即将发布的下一代国产芯片进行了设计,官方把这句话在评论区置了顶。

资讯配图

第三方模型评测平台Artificial Analysis给到的最新评估显示,V3.1模型目前在主流模型中的排名又刷新了排位。

资讯配图
资讯配图

智能增量方面,DeepSeek V3.1初步跑分结果显示,推理模式下人工智能分析指数达到60,非推理模式下,V3.1得分为49,这使得V3.1(推理)落后于阿里巴巴最新的Qwen3 235B 2507(推理),未能夺回绝对领先优势。

DeepSeek正式转向统一混合推理模型的做法,效仿了OpenAI、Anthropic和谷歌最近的做法。值得注意的是,新的“开源霸主”阿里巴巴最近放弃了Qwen3混合方法,分别发布了Qwen3 2507推理和指令模型,未来开源技术路径和生态可能会产生些许不同。

业内分析认为,虽然DeepSeek声称改进了模型的函数调用,但V3.1在推理模式下尚不支持函数调用,这可能会大大限制其支持具有智能需求的代理工作流的能力。

资讯配图

V3.1模型参数发布后,马斯克旗下的Grok也来蹭热点,其官方发帖表示,V3.1在Aider基准测试中表现出色,编码准确率高达71.6%,优于部分开源模型,但落后于GPT-5(Aider Polyglot为88%,AIME为94.6%)和 Grok4(AIME为93%,数学方面领先)。在GPQA测试中,DeepSeek得分约为59%,而GPT-5和Grok4得分均为88%。

整体来看,无论是对比阿里Qwen还是GPT-5、Grok4,算力资源强弱仍是拉开模型性能差距的关键因素。不过也有开发者认为,V3.1的推出证明了精妙工程设计优势依然存在,他们的FP8优化技术不仅仅是技术上的奇才,更是在这个巨头环伺、硬件资源决定胜负的世界里的生存策略。

资讯配图
新模型的背后
DeepSeek V3.1的推出,短期看仅是一次有针对性的“小幅改造”而非“革命性突破”,但被淡化的看点是与下一代国产芯片的融合,尤其是在当前国际技术竞争背景下,这可能才是未来的重中之重。

早在今年5月份,梁文锋作为作者之一在arxiv平台计算机科学板块提交过一篇论文,其中就提到AI架构的扩展挑战与硬件思考。

资讯配图

这篇论文采用硬件架构与模型设计的双重视角,探讨二者在实现低成本高效大规模训练和推理中的复杂相互作用,通过研究这种协同效应,旨在为高效扩展LLM提供可行的见解,并基于团队的实践经验为下一代人工智能硬件优化提供路线图。

当下,国产旗舰AI模型的发展不能再孤立于国产算力硬件之外,必须进行深度“软硬协同设计”和自主技术标准定义”才有望实现新一轮突破。

DeepSeek所采用的“UE8M0”是其一种特定的配置:

U(无符号):针对激活值非负的特性进行优化,减少了符号位的冗余;E8(8位指数):提供了足够的动态范围;M0(动态尾数策略):通过隐式归一化等技术动态调整尾数精度,在保证基本计算精度的前提下更加灵活,更加适配国产芯片的计算单元设计。这种量身定做的精度格式,使得DeepSeek V3.1能够更好地发挥国产芯片的算力潜力


相比较日新月异的性能参数追逐,网友们直呼,从DeepSeek-V3.1看到了国产自主可控的决心与希望。


-END-

资讯配图
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
扫描下方二维码,添加头部科技晶总微信!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试 芯片
more
【干货解析】DO-160深度解析:Section1-3适航测试的起点,你读懂了吗?
倒计时2天!芯片测试、射频测试研讨会[8.19 杭州]
抖音测试“快递”服务?官方回应了
苹果内部测试 iOS 26.4,功能升级重点提前看!
美国飞行汽车开发公司阿勒夫Alef Aeronautics最快下个月开始测试飞行汽车Model A
AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道
共赴龙华!“AI驱动下的先进封装与测试发展供需对接会”即将召开
超过小米YU7!全新小鹏P7创24小时耐力测试纪录,雷军送上贺电
仿真驱动的AI自动驾驶汽车安全设计与测试
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号