电子发烧友网报道(文/李弯弯)2025年8月21日,DeepSeek正式官宣发布DeepSeek-V3.1大模型。新版本不仅在技术架构上实现重大升级,更通过参数精度优化与国产芯片深度适配。从混合推理架构到Agent能力突破,从API价格调整到国产芯片生态共建,DeepSeek V3.1的发布标志着中国AI产业进入技术突破与产业落地协同发展的新阶段。图:DeepSeek正式发布DeepSeek-V3.1(来自DeepSeek官微)DeepSeek V3.1的技术突破与生态升级DeepSeek V3.1的核心创新在于混合推理架构的规模化应用。该架构首次实现单一模型同时支持思考模式与非思考模式:在思考模式下,模型通过深度推理提升复杂任务处理能力;在非思考模式下,则通过精简计算路径实现高效响应。测试数据显示,V3.1-Think在输出token数减少20%-50%的情况下,各项任务平均表现与前代R1-0528持平,而非思考模式的输出长度控制能力则帮助用户降低使用成本。图:在各项评测指标得分基本持平的情况下(来自DeepSeek官微)参数精度优化是另一重大突破。V3.1采用UE8M0 FP8 Scale技术,将参数精度提升至8位浮点数规模。这一设计不仅减少30%的内存占用,更通过量化感知训练保持模型精度。DeepSeek官方透露,UE8M0 FP8标准是专为下一代国产芯片设计的计算范式,可显著提升芯片在AI推理场景下的能效比。FP8是Float8的简称,即用8位二进制数表示浮点数,主要用于深度学习的训练和推理。相比传统的FP32(32位浮点数)或FP16(16位浮点数),FP8显著降低了显存占用和计算资源需求,同时通过优化设计(如动态范围调整)维持了较高的精度。FP8对国产芯片的使用效率提升显著,将进一步缩小与NVIDIA芯片的效率/成本差距,大大增加国产芯片的可用性。在Agent能力方面,V3.1通过Post-Training优化实现质的飞跃。在代码修复测评 SWE 与命令行终端环境下的复杂任务(Terminal-Bench)测试中,DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明显提高。DeepSeek-V3.1 在多项搜索评测指标上取得了较大提升。在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,DeepSeek-V3.1 性能已大幅领先 R1-0528。官方将其定义为“迈向Agent时代的第一步”。生态建设同步加速。官方App与网页端同步升级V3.1,用户可通过“深度思考”按钮自由切换模式。API接口价格自9月6日起调整为输入每百万tokens 0.5元(缓存命中)/4元(未命中),输出每百万tokens 12元,同时取消夜间优惠。尽管价格有所上调,但输入缓存命中成本保持不变,输出成本增幅控制在50%以内,体现技术优化带来的成本分摊效应。国产芯片适配进程:从技术追赶到生态共建DeepSeek与国产芯片的协同发展。2025年1月,华为昇腾910B率先完成V3模型适配,通过自研推理加速引擎使模型性能达到高端GPU水平,在智能安防、工业物联网等端侧场景实现本地化决策。2月,海光DCU完成V3与R1模型适配,其GPGPU架构支持全精度通用AI加速,通信延迟降低40%,训练效率提升35%。同月,龙芯中科发文称,搭载龙芯3号 CPU 的设备成功运行DeepSeek R1 7B模型,实现本地化部署。多芯片厂商形成差异化竞争格局。沐曦曦云C500 GPU在V3推理中性能达国际主流产品的110%-130%,单位token成本仅为H100的70%;天数智芯支持R1千问蒸馏模型,提供稳定推理服务;壁仞科技壁砺系列覆盖1.5B至70B参数规模的全系列蒸馏模型。摩尔线程成为首个支持原生FP8的国产GPU厂商,其MUSA架构为V3.1提供原生计算支持;芯原股份NPU芯原VIP9000实现FP8技术从云端训练到硬件部署的快速迁移。政策与市场形成双轮驱动。国家超算互联网平台将DeepSeek模型纳入标准算力库,三大运营商在5G基站部署中优先采用适配国产芯片的AI推理模块。在能源行业私有化部署实践中,中国石油、中国海油、国家管网等央企已完成DeepSeek私有化部署,中国海油采用全国产化算力,在“海能”人工智能模型平台接入DeepSeek系列模型,通过私有化部署面向全集团提供开放服务。电网故障预测响应时间从分钟级压缩至秒级,需结合实时数据采集、高速算力支撑和智能算法优化,海光DCU的低延迟计算能力与DeepSeek模型的实时推理能力相结合,可满足这一需求。重构中国AI产业竞争力技术突破显著降低硬件门槛。DeepSeek通过MoE架构将激活参数量控制在合理范围,V3.1的UE8M0 FP8精度标准使国产芯片在推理场景下的能效比提升40%。实测显示,在671B参数规模下,沐曦曦云C500运行V3的单位算力成本较H100降低35%,推理延迟缩短至8ms以内。龙芯芯片在适配DeepSeek后,也凭借其架构优势,在特定场景下实现了较低的功耗和较高的性价比,为国产AI应用的普及提供了更多选择。生态共建加速产业落地进程。华为云昇腾算力服务已承载超过7万颗910B芯片,订单价值超20亿美元;海光DCU在金融行业市占率突破28%,其适配的DeepSeek模型日均调用量达4.7亿次。龙芯在完成适配后,积极与众多软件厂商和系统集成商展开合作,推动基于龙芯芯片和DeepSeek模型的解决方案在更多行业落地。例如,在一些教育领域的智能教学系统中,龙芯芯片与DeepSeek模型结合,实现了智能答疑、个性化学习推荐等功能,提升了教学质量和效率。芯原股份与摩尔线程的合作,使FP8技术生态覆盖从训练到推理的全链条,开发周期缩短60%。技术差距缩短在具体领域表现突出。华为昇腾910C在推理性能上达到H100的60%,能效比优于后者;沐曦曦云C500成为首个支持70B参数大模型单卡推理的国产GPU。龙芯芯片在不断研发和优化过程中,性能也在逐步提升,在一些特定的AI应用场景中,已经能够满足基本的需求,为中国在AI算力芯片等关键领域的自主化率提升贡献了力量。写在最后站在2025年的节点回望,DeepSeek V3.1的发布不仅是单一产品的迭代,更是中国AI产业生态重构的缩影。从技术参数的优化到产业生态的共建,从芯片算力的突破到应用场景的落地,中国AI正在走出一条不同于国际巨头的自主化道路。随着UE8M0 FP8标准成为行业新范式,随着“模型+芯片+应用”生态的持续完善,中国AI产业有望在2030年前实现全球竞争力的实质性跃升。声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。更多热点文章阅读软银豪掷20亿美元救场!英特尔迎生死时刻,特朗普政府拟成最大股东AI能源破局者!SOFC将成数据中心“新电王”腾讯:无需继续采购英伟达H20芯片日本三氟化氮厂爆炸:存储或趁机涨价,国产厂商紧急补位太燃了!人形机器人1500米比赛,这家夺冠!更有机器人全程自主奔跑点击关注 星标我们将我们设为星标,不错过每一次更新!喜欢就奖励一个“在看”吧!