第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合

机器之心 2026-04-24 12:48
第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合图1
机器之心发布

今天上午,AI 圈心心念念的国产大模型之光 —— DeepSeek-V4 终于上线了!

第一时间,寒武纪基于 vLLM 推理框架完成了对此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 两个版本的 Day 0 适配,适配代码已开源到 GitHub 社区


第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合图2


连同去年  的发布,寒武纪连续两次都是第一时间发布适配的国产芯片。双方的紧密合作,得益于寒武纪长期积累的自研 NeuWare 软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。DeepSeek-V4 原生运行在寒武纪芯片上,这对中国人工智能产业具有里程碑意义。此前寒武纪对 DeepSeek 系列模型开展深入的软硬件协同性能优化,并达到了业界领先的算力利用率水平。


第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合图3


GitHub 项目地址:https://github.com/Cambricon/vllm-mlu?sessionid=


本次适配从 “快速模型迁移” 与 “极致性能优化”两个维度,充分展现了寒武纪的核心技术实力。


快速完成 DeepSeek-V4 新模型适配,实现 Day 0 首发


在软件生态层面,寒武纪 NeuWare 软件栈全面拥抱开源社区,原生支持 PyTorch、vLLM、Diffusers 等主流 AI 框架,新模型可快速迁移至寒武纪平台;


在国产软件生态层面,寒武纪与众智 FlagOS 生态持续深度合作,解耦模型与不同架构芯片之间的生态壁垒,进一步降低模型适配迁移成本;


在算子开发层面,寒武纪充分利用 Triton 良好的社区兼容性和易用性进行快速算子开发适配,进一步缩短功能适配周期;


在 AI 协同层面,寒武纪研发了代码生成智能体 CNAgent,实现算子生成、模型迁移的全流程加速;


在硬件层面,寒武纪芯片原生支持主流低精度数据格式,无需额外转换即可快速完成功能适配与精度验证。通过软硬件协同,寒武纪在模型发布当日即可实现稳定运行,真正做到 Day 0 适配


极致性能优化,释放 DeepSeek-V4 推理潜能


针对 DeepSeek-V4 的新结构,寒武纪通过自研高性能融合算子库 Torch-MLU-Ops,对 Compressor、mHC 等模块进行专项加速;利用 BangC 高性能编程语言,编写稀疏 / 压缩 Attention、GroupGemm 等热点算子的极致优化 Kernel,充分释放硬件底层性能。


在推理框架优化层面,寒武纪在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。


硬件特性同样被深度挖掘:利用 MLU 访存与排序加速能力,有效加速稀疏 Attention、Indexer 等结构;高互联带宽与低通信延时,将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。


正是这种软硬件一体化的设计思路,使得寒武纪能够在大模型部署中持续降低算力成本,提升性能上限。寒武纪将继续深耕大模型软硬件协同生态,为开发者与客户提供更快、更省、更高效的大模型部署方案。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
寒武纪
more
寒武纪40亿定增获批
DeepSeek给出了对寒武纪、摩尔线程、沐曦的投资建议
39.85亿元!寒武纪公告:证监会批准定增!
一周全球公司十大要闻 | A股新王寒武纪“登基”;英伟达收入出现两年多来最慢增长
21亿,寒武纪“平替”买下一家上市公司
寒武纪,比茅台还贵!
寒武纪、沐曦、摩尔齐发业绩,国产AI芯片的盈亏与分化
阿里增速最猛的业务,一封回应让寒武纪股价跳水
寒武纪陈天石:不实
刚刚,DeepSeek新模型自砍一刀!大降价50%,华为寒武纪已适配
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号