英伟达Dynamo VS 华为UCM!AI大模型推理优化,专家如何解读

电子发烧友网 2025-08-16 00:00
电子发烧友网报道(文/章鹰)近日,在2025金融AI推理应用落地与发展论坛上,中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示,大家在看AI大模型落地的过程中,一方面在观察大模型落地的效果,另外一方面在行业应用中,AI大模型推理优化的价值越来越受到关注。
资讯配图

大模型落地重心从训练转向推理,AI推理需求暴涨,推理算力需求爆发

“ChatGPT的访问量呈现线性增长,最新访问量达到4亿,受益于中国AI大模型DeepSeek爆发,日均调用量也在快速上升,2025年1月开始,中国AI推理的需求增长20倍,未来三年算力需求爆发。IDC表示,2024年算力需求60%是训练,40%是推理,到2027年中国用于推理的算力需求——工作负载将达到72.6%。” 中国信通院人工智能研究平台与工程化部主任曹峰分析说。
资讯配图
从消费端看,从AI手机、AI PC领域,我们都看到AI模型调用量在迅速上升,包括ChatGPT、豆包的APP软件,还有地图类、聊天类都接入了一些相关的大模型能力,还有以Agent(智能体)为代表的消费类应用,同时还有一些基于大模型应用的AI硬件诞生,这些都会带来对大模型Token的海量需求和推理需求上升。
另外一方面,我们看到AI大模型在中国企业的使用率也在持续上升,包括智慧医疗、金融等行业使用率上升。
推理的复杂度也在上升,从简单的文本生成现在变成一个复杂的推理问题,或者7-8个PDF让AI去分析核心观点,推理的复杂度越来越高。视频生成的质量度越来越高,还有短视频推荐由简单的算法推荐,变成生成式AI推荐,这些都令推理算力迎来爆发式增长。AI大模型推理落地在行业越来越广泛,包括销售客服、办公助手和供应链管理等场景。

推理目标:从单点优化和功能完备,转向对于成本、性能和效果的协同优化

2025年开始,多模态AI大模型发布日渐增多,国内主流厂商支持智谱、通义千问等原生多模态开发,RGA、Agent,多模态也引发了长序列推理需求。
“我们不仅需要推理,还需要高质量的推理。大模型产业化落地需要平衡成本与性能,针对不同场景进行推理优化是核心问题。大模型进入推理时代,多模态、长序列、MoE等模型趋势以及复杂落地场景要求推理优化。”曹峰分析说。
今年3月,英伟达在GTC上推出了NVIDIA Dynamo 。NVIDIA Dynamo 是一个高吞吐量、低延迟的开源推理服务框架,用于在大规模分布式环境中部署生成式 AI 和推理模型。通过分布式的管理器,可以提升长文本上下文推理效率。英伟达表示,在 NVIDIA Blackwell 上运行开源 DeepSeek-R1 模型时,该框架最多可将请求数量提升 30 倍。
资讯配图
华为推出AI推理创新技术UCM(推理记忆数据管理其器)和管理系统的算法。UCM以KKV Cache为中心的推理加速套件,集成了多类型缓存加速算法工具,形成底层从南向北的开放式生态架构,有效提升了Token的吞吐率。银联的实际案例和大量测试显示,UCM显著降低首Token的时延,最高降低90%,系统吞吐率最大提升22倍,上下文的推理窗口可以扩展10倍以上,我们需要在系统层面统筹考虑如何提高系统的推理效率。
现在,企业不再聚焦AI大模型的训练,而是将重心转到应用部署,如何高效率、低成本的部署和进行推理,为核心业务场景适配。华为刚推出KV Cache已经成为架构优化的焦点,以KV Cache为核心的推理方案迭出,背后依赖的高性能存储、先进调度策略的重要性愈发显现。

资讯配图

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。


更多热点文章阅读


点击关注 星标我们



将我们设为星标,不错过每一次更新!
资讯配图

资讯配图喜欢就奖励一个“在看”吧!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 华为
more
【央视AI盛典】姚期智、Gillian Hadfield 、Stuart Russell、周伯文:解码时刻-AI人才培养
来AICA,和麦当劳、奔驰、茅台做同学!
Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
AI驱动制造业绩效革新:从“割裂式量化管理”到“一体化智能绩效体系”
追觅「AI双刮洗机械臂」来了!是营销噱头还是实用科技?
深度解读:中国2025年6534亿AI资本支出构成与分配趋势
OpenAI掌门人曝GPT-6瓶颈!回答黄仁勋提问,几乎为算力“抵押未来”
当AI走向物理世界:从语言到陪伴的下半场 |AI瞭望塔(S2E20)
AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃
【报告】AI专题三:2024年度AI4SE行业现状调查报告:AI驱动软件工程智能化转型(附PDF下载)
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号