

来源:新智元
来源:新智元
【导读】DeepSeek V3.1新版正式上线,上下文128k,编程实力碾压Claude 4 Opus,成本低至1美元。
就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。

本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。
综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:
编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。
性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。
原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。
架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。
成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。
值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。

对于这波更新,大家的热情可谓是相当高涨。
即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。


DeepSeek粉丝数已破8万
看到这里,网友们更期待R2的发布了!


这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。

同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:
<|search▁begin|> (id: 128796)
<|search▁end|> (id: 128797)
<think> (id: 128798)
</think> (id: 128799)

对此,有推测认为,这可能暗示推理模型与非推理模型的融合。

在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。

而且,它的成本仅1美元,成为非推理模型中的SOTA。

最鲜明的对比,V3.1编程性能比Claude 4高1%,成本要低68倍。

在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeek R1的实力。

在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。

一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。


第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。
假设对于中文而言,1个token ≈ 1–1.3个汉字,那么这128K tokens ≈ 100,000–160,000汉字。
相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著。
实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。

由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?

在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。

此次更新,DeepSeek重点强调了对上下文的支持。
整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。

不过最后,差不多只输出了3000字左右,模型就停止了输出。

再来看下推理能力。
经典的9.11和9.9比大小问题,两种询问方式都能正确做答。
这次更新的一大体感还是速度变快了很多。

最后再来看看编程能力。
DeepSeek的上一个模型是R1-0528,主打的是编程能力。
看看这次V3.1是否有更大的提升。

最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。

并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。
以下是开启思考模式后的结果,你觉得哪个更好?

接下来,看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。
我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。

上下滑动查看
☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)
人工智能产业链联盟高端社区

一次性说清楚DeepSeek,史上最全(建议收藏)
DeepSeek一分钟做一份PPT
用DeepSeek写爆款文章?自媒体人必看指南
【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!
【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero


