2月3日,面壁智能正式发布并开源了集语言、视觉、语音于一体的全模态大模型 MiniCPM-o 4.5。作为首个全双工全模态大模型,MiniCPM-o 4.5 首次实现“类人”感知交互,从“一问一答”变为“即时自由对话”。
众智 FlagOS 社区跟面壁智能深度技术协同,通过统一开源的 AI 系统软件栈 FlagOS 的跨芯片能力,快速实现了 MiniCPM-o 4.5 模型在 6 家主流硬件平台(天数智芯、华为昇腾、平头哥、海光、沐曦等)适配、对齐评测和开源上线。澎峰科技作为社区成员积极参与了vLLM-plugin-FL等关键组件的构建与优化工作。在保证模型精度完全一致的前提下,基于 FlagOS 版本的 MiniCPM-o 4.5 在 6 种芯片上均获得端到端推理性能提升(硬件一致下,FlagOS 版本相比 CUDA 版本提升端到端推理效率 6.10%),不同场景下平均加速比为7.76%—22.4%。这是业界首次实现 “跨芯适配规模化、推理效率高效化”双重目标的典范,为多元 AI 芯片生态下的模型部署树立全新标杆。

FlagOS:面向多种 AI 芯片的系统软件栈
FlagOS Inside:
实现 MiniCPM-o 4.5 在多家芯片的快速适配
MiniCPM-o 4.5 能在较短时间被适配到 6 种不同 AI 芯片,得益于众智 FlagOS 的多芯片统一 AI 系统软件栈能力。
-
统一多芯片接入插件 vLLM-plugin-FL:在不改变 vLLM 原有接口和使用习惯的情况下,丝滑实现 MiniCPM-o 4.5 的多芯片推理部署。
-
高性能算子库FlagGems:全覆盖 MiniCPM-o 4.5 的主流 PyTorch Aten 算子,并支持多种 AI 芯片。
-
统一 AI 编译器FlagTree:将 MiniCPM-o 4.5 主流算子编译成 6 种 AI 芯片后端理解的硬件指令。
vllm-plugin-FL 是一个为 vLLM 推理/服务框架构建的插件,它基于 FlagOS 的统一多芯片后端开发,旨在扩展 vLLM 在多种硬件环境下的功能和性能表现。此次,面壁智能一共发布了2个推理引擎版本的 MiniCPM-o 4.5 模型,分别是 Transformer 和 vLLM。使用 vLLM 推理引擎的 MiniCPM-o 4.5 模型中,vLLM-plugin-FL 基于 Python 的 EntryPoint 机制把 MiniCPM-o 4.5 模型结构注册到 vLLM 支持的模型中,利用统一多芯片高性能算子库 FlagGems 和统一多后端通信库 FlagCX,实现同一套代码流程多芯片执行 MiniCPM-o 4.5。
在代码实现层面,众智 FlagOS 将 FlagGems 算子库及其运行依赖的编译器 FlagTree 前置性内置,并集成到MiniCPM-o 4.5 的模型代码框架。开发者在使用 MiniCPM-o 4.5 时,无需手动添加任何启用 FlagOS 的初始化代码,就能实现对核心计算模块(如 RMSNorm等)的无缝替换。这意味着,使用者在加载官方模型时,FlagOS 系统软件栈代码已在底层自动生效,真正做到 “开箱即用” 。
开发者无需关心底层硬件适配与算子优化的复杂细节,只需正常调用模型,即可在保持精度完全一致的同时,获得端到端推理的性能提升。为开发者提供了更流畅、更高效的模型部署体验。
FlagOS 软件代码内置于 MiniCPM-o 4.5 模型框架:
Pythonimport torchimport flag_gemsimport torch.nn as nnfrom flag_gems.experimental_ops import rmsnorm as gems_rmsnormclass GemsRMSNorm(nn.Module):def __init__(self, hidden_size, eps=1e-6):super().__init__()self.weight = nn.Parameter(torch.ones(hidden_size))self.variance_epsilon = epsdef forward(self, hidden_states):return gems_rmsnorm(hidden_states, self.weight, self.variance_epsilon)def extra_repr(self):return f"{tuple(self.weight.shape)}, eps={self.variance_epsilon}"from transformers.models.qwen3 import modeling_qwen3from transformers.models.llama import modeling_llamamodeling_qwen3.Qwen3RMSNorm = GemsRMSNormmodeling_llama.LlamaRMSNorm = GemsRMSNormflag_gems.only_enable(record=True, once=True, path="/root/gems.txt", include=["cumsum", "gather", "scatter", "clamp"])
基于 FlagOS 跨平台能力,MiniCPM-o 4.5 实现在 6 家硬件平台的兼容适配,涵盖 NPU、GPGPU、DSA等多种芯片架构。FlagOS 作为开源、统一的 AI 系统技术栈,能够高效解决大模型因硬件生态碎片化导致的“跨平台兼容难”行业难题,展示出加速模型“一次开发,多芯使用”的巨大潜力。
针对不同硬件平台优化后的 MiniCPM-o 4.5 模型,众智 FlagOS 社区已通过FlagRelease项目在 HuggingFace、魔搭社区、魔乐社区等主流开源社区平台发布(后续将陆续上线阿里云、腾讯云、焕新平台等平台)。
随着芯片硬件的持续适配,FlagOS 将加速大模型获得更广泛的硬件支持,帮助用户实现更低的成本、更灵活的硬件选型方案。
通过 vLLM-plugin-FL 直接使用多芯版 MiniCPM-o 4.5 模型(vLLM 推理引擎)
利用 vLLM-plugin-FL 启动 MiniCPM-o 4.5 模型的部署步骤可以参考以下一站式文档。当前 vLLM-plugin-FL已经在英伟达、华为昇腾和平头哥真武810E进行验证。
-
gitcode:https://gitcode.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md
-
github:https://github.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md
为解决芯片硬件生态割裂、模型迁移效率不足和大模型应用落地难等行业痛点,面向多种 AI 芯片的统一、开源系统软件栈 “众智 FlagOS” 形成了具备高性能通用 AI 算子库FlagGems/FlagAttention、统一 AI 编译器 FlagTree、大模型训推一体框架 FlagScale 和统一通信库 FlagCX 的完整核心技术库,并基于 4 个核心技术库搭建面向开发者用户的一站式工具平台 KernelGen、FlagRelease 和 FlagPerf。为推动 AI 系统软件迈入“一次开发、跨芯片运行、多框架支持”的新阶段,众智 FlagOS 进一步加强技术创新,加快生态使能 vllm-plugin-FL、Megatron-LM-FL 和 TransformerEngine-FL 的建设,逐步整合算力与开源生态,加速 AI 从实验室走向规模化应用。

关于众智 FlagOS 社区
为解决不同 AI 芯片大规模落地应用,北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。
FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈,支持 AI 模型一次开发即可无缝移植至各类硬件平台,大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目,致力于构建「模型-系统-芯片」三层贯通的开放技术生态,通过“一次开发跨芯迁移”释放硬件计算潜力,打破不同芯片软件栈之间生态隔离。
未来,澎峰科技将持续投入,积极参与并推动更多开源及商业模型基于FlagOS的适配与性能优化工作。我们坚信,开源协作是构建繁荣、高效算力生态的核心。澎峰科技期待与所有社区伙伴及产业同仁继续并肩,将FlagOS打造为支撑AI创新的坚实底座,共同推动多元算力生态走向深度融合与开放共赢。
官网:https://flagos.io
GitHub 项目地址:https://github.com/flagos-ai
GitCode 项目地址:https://gitcode.com/flagos-ai