英伟达Dynamo VS 华为UCM！AI大模型推理优化，专家如何解读

电子发烧友网报道（文/章鹰）近日，在2025金融AI推理应用落地与发展论坛上，中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示，大家在看AI大模型落地的过程中，一方面在观察大模型落地的效果，另外一方面在行业应用中，AI大模型推理优化的价值越来越受到关注。

大模型落地重心从训练转向推理，AI推理需求暴涨，推理算力需求爆发

“ChatGPT的访问量呈现线性增长，最新访问量达到4亿，受益于中国AI大模型DeepSeek爆发，日均调用量也在快速上升，2025年1月开始，中国AI推理的需求增长20倍，未来三年算力需求爆发。IDC表示，2024年算力需求60%是训练，40%是推理，到2027年中国用于推理的算力需求——工作负载将达到72.6%。” 中国信通院人工智能研究平台与工程化部主任曹峰分析说。

从消费端看，从AI手机、AI PC领域，我们都看到AI模型调用量在迅速上升，包括ChatGPT、豆包的APP软件，还有地图类、聊天类都接入了一些相关的大模型能力，还有以Agent（智能体）为代表的消费类应用，同时还有一些基于大模型应用的AI硬件诞生，这些都会带来对大模型Token的海量需求和推理需求上升。

另外一方面，我们看到AI大模型在中国企业的使用率也在持续上升，包括智慧医疗、金融等行业使用率上升。

推理的复杂度也在上升，从简单的文本生成现在变成一个复杂的推理问题，或者7-8个PDF让AI去分析核心观点，推理的复杂度越来越高。视频生成的质量度越来越高，还有短视频推荐由简单的算法推荐，变成生成式AI推荐，这些都令推理算力迎来爆发式增长。AI大模型推理落地在行业越来越广泛，包括销售客服、办公助手和供应链管理等场景。

推理目标：从单点优化和功能完备，转向对于成本、性能和效果的协同优化

2025年开始，多模态AI大模型发布日渐增多，国内主流厂商支持智谱、通义千问等原生多模态开发，RGA、Agent，多模态也引发了长序列推理需求。

“我们不仅需要推理，还需要高质量的推理。大模型产业化落地需要平衡成本与性能，针对不同场景进行推理优化是核心问题。大模型进入推理时代，多模态、长序列、MoE等模型趋势以及复杂落地场景要求推理优化。”曹峰分析说。

今年3月，英伟达在GTC上推出了NVIDIA Dynamo 。NVIDIA Dynamo 是一个高吞吐量、低延迟的开源推理服务框架，用于在大规模分布式环境中部署生成式 AI 和推理模型。通过分布式的管理器，可以提升长文本上下文推理效率。英伟达表示，在 NVIDIA Blackwell 上运行开源 DeepSeek-R1 模型时，该框架最多可将请求数量提升 30 倍。

华为推出AI推理创新技术UCM（推理记忆数据管理其器）和管理系统的算法。UCM以KKV Cache为中心的推理加速套件，集成了多类型缓存加速算法工具，形成底层从南向北的开放式生态架构，有效提升了Token的吞吐率。银联的实际案例和大量测试显示，UCM显著降低首Token的时延，最高降低90%，系统吞吐率最大提升22倍，上下文的推理窗口可以扩展10倍以上，我们需要在系统层面统筹考虑如何提高系统的推理效率。

现在，企业不再聚焦AI大模型的训练，而是将重心转到应用部署，如何高效率、低成本的部署和进行推理，为核心业务场景适配。华为刚推出KV Cache已经成为架构优化的焦点，以KV Cache为核心的推理方案迭出，背后依赖的高性能存储、先进调度策略的重要性愈发显现。

资讯配图