电子发烧友网报道(文/章鹰)近日,在2025金融AI推理应用落地与发展论坛上,中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示,大家在看AI大模型落地的过程中,一方面在观察大模型落地的效果,另外一方面在行业应用中,AI大模型推理优化的价值越来越受到关注。大模型落地重心从训练转向推理,AI推理需求暴涨,推理算力需求爆发“ChatGPT的访问量呈现线性增长,最新访问量达到4亿,受益于中国AI大模型DeepSeek爆发,日均调用量也在快速上升,2025年1月开始,中国AI推理的需求增长20倍,未来三年算力需求爆发。IDC表示,2024年算力需求60%是训练,40%是推理,到2027年中国用于推理的算力需求——工作负载将达到72.6%。” 中国信通院人工智能研究平台与工程化部主任曹峰分析说。从消费端看,从AI手机、AI PC领域,我们都看到AI模型调用量在迅速上升,包括ChatGPT、豆包的APP软件,还有地图类、聊天类都接入了一些相关的大模型能力,还有以Agent(智能体)为代表的消费类应用,同时还有一些基于大模型应用的AI硬件诞生,这些都会带来对大模型Token的海量需求和推理需求上升。另外一方面,我们看到AI大模型在中国企业的使用率也在持续上升,包括智慧医疗、金融等行业使用率上升。推理的复杂度也在上升,从简单的文本生成现在变成一个复杂的推理问题,或者7-8个PDF让AI去分析核心观点,推理的复杂度越来越高。视频生成的质量度越来越高,还有短视频推荐由简单的算法推荐,变成生成式AI推荐,这些都令推理算力迎来爆发式增长。AI大模型推理落地在行业越来越广泛,包括销售客服、办公助手和供应链管理等场景。推理目标:从单点优化和功能完备,转向对于成本、性能和效果的协同优化2025年开始,多模态AI大模型发布日渐增多,国内主流厂商支持智谱、通义千问等原生多模态开发,RGA、Agent,多模态也引发了长序列推理需求。“我们不仅需要推理,还需要高质量的推理。大模型产业化落地需要平衡成本与性能,针对不同场景进行推理优化是核心问题。大模型进入推理时代,多模态、长序列、MoE等模型趋势以及复杂落地场景要求推理优化。”曹峰分析说。今年3月,英伟达在GTC上推出了NVIDIA Dynamo 。NVIDIA Dynamo 是一个高吞吐量、低延迟的开源推理服务框架,用于在大规模分布式环境中部署生成式 AI 和推理模型。通过分布式的管理器,可以提升长文本上下文推理效率。英伟达表示,在 NVIDIA Blackwell 上运行开源 DeepSeek-R1 模型时,该框架最多可将请求数量提升 30 倍。华为推出AI推理创新技术UCM(推理记忆数据管理其器)和管理系统的算法。UCM以KKV Cache为中心的推理加速套件,集成了多类型缓存加速算法工具,形成底层从南向北的开放式生态架构,有效提升了Token的吞吐率。银联的实际案例和大量测试显示,UCM显著降低首Token的时延,最高降低90%,系统吞吐率最大提升22倍,上下文的推理窗口可以扩展10倍以上,我们需要在系统层面统筹考虑如何提高系统的推理效率。现在,企业不再聚焦AI大模型的训练,而是将重心转到应用部署,如何高效率、低成本的部署和进行推理,为核心业务场景适配。华为刚推出KV Cache已经成为架构优化的焦点,以KV Cache为核心的推理方案迭出,背后依赖的高性能存储、先进调度策略的重要性愈发显现。声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。更多热点文章阅读华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源堪称机器人界“比亚迪”,智元拿下千万元大单!宇树冲刺IPO!历史首次!AMD服务器CPU市占率达50%通用汽车:硬扛高关税买中国电池也有赚头GPT-5震撼发布:AI领域的重大飞跃点击关注 星标我们将我们设为星标,不错过每一次更新!喜欢就奖励一个“在看”吧!