第一时间，寒武纪原生适配DeepSeek-V4！两大国产之光再次强强联合

机器之心发布

今天上午，AI 圈心心念念的国产大模型之光 —— DeepSeek-V4 终于上线了！

第一时间，寒武纪基于 vLLM 推理框架完成了对此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 两个版本的 Day 0 适配，适配代码已开源到 GitHub 社区。

第一时间，寒武纪原生适配DeepSeek-V4！两大国产之光再次强强联合图2

连同去年的发布，寒武纪连续两次都是第一时间发布适配的国产芯片。双方的紧密合作，得益于寒武纪长期积累的自研 NeuWare 软件生态与芯片设计技术，也是寒武纪对芯片与算法联合创新持续投入的延续。DeepSeek-V4 原生运行在寒武纪芯片上，这对中国人工智能产业具有里程碑意义。此前寒武纪对 DeepSeek 系列模型开展深入的软硬件协同性能优化，并达到了业界领先的算力利用率水平。

GitHub 项目地址：https://github.com/Cambricon/vllm-mlu?sessionid=

本次适配从 “快速模型迁移” 与 “极致性能优化”两个维度，充分展现了寒武纪的核心技术实力。

快速完成 DeepSeek-V4 新模型适配，实现 Day 0 首发

在软件生态层面，寒武纪 NeuWare 软件栈全面拥抱开源社区，原生支持 PyTorch、vLLM、Diffusers 等主流 AI 框架，新模型可快速迁移至寒武纪平台；

在国产软件生态层面，寒武纪与众智 FlagOS 生态持续深度合作，解耦模型与不同架构芯片之间的生态壁垒，进一步降低模型适配迁移成本；

在算子开发层面，寒武纪充分利用 Triton 良好的社区兼容性和易用性进行快速算子开发适配，进一步缩短功能适配周期；

在 AI 协同层面，寒武纪研发了代码生成智能体 CNAgent，实现算子生成、模型迁移的全流程加速；

在硬件层面，寒武纪芯片原生支持主流低精度数据格式，无需额外转换即可快速完成功能适配与精度验证。通过软硬件协同，寒武纪在模型发布当日即可实现稳定运行，真正做到 Day 0 适配。

极致性能优化，释放 DeepSeek-V4 推理潜能

针对 DeepSeek-V4 的新结构，寒武纪通过自研高性能融合算子库 Torch-MLU-Ops，对 Compressor、mHC 等模块进行专项加速；利用 BangC 高性能编程语言，编写稀疏 / 压缩 Attention、GroupGemm 等热点算子的极致优化 Kernel，充分释放硬件底层性能。

在推理框架优化层面，寒武纪在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术，通过策略优化，在满足延时约束下达到最佳的词元吞吐能力，显著提升端到端推理效率。

硬件特性同样被深度挖掘：利用 MLU 访存与排序加速能力，有效加速稀疏 Attention、Indexer 等结构；高互联带宽与低通信延时，将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低，最大化分布式推理的利用率。

正是这种软硬件一体化的设计思路，使得寒武纪能够在大模型部署中持续降低算力成本，提升性能上限。寒武纪将继续深耕大模型软硬件协同生态，为开发者与客户提供更快、更省、更高效的大模型部署方案。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com