堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答

机器之心 2026-06-17 18:00
堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图1
编辑|Panda

截至今年 3 月,中国日均 Token 调用量已突破 140 万亿,两年间增长超过千倍。这个数字比任何分析报告都更直白地说明了一件事:AI 已经从实验室走进了生产线


然而,数字背后藏着一个越来越刺眼的矛盾。


当企业争先把大模型接入业务系统,他们发现:通用模型在聊天窗口里对答如流,放到真实工单系统里却频频失手,比如它能把政策解释得头头是道,却无法按照企业的合规流程走完一张审批表;它能洋洋洒洒生成质检报告,却在判断某颗螺丝是否超差时不断犯错……通用大模型「会回答」,但往往「不会执行」。


这不是模型不够聪明,而是它们生来就是为了「生成 Token」而非「完成任务」。从回答到执行,中间有一道鲜少被正面讨论的工程鸿沟;而填平这道鸿沟,正是九章云极 DataCanvas 在今天的「2026 全球智算科技峰会暨九章云极战略发布会」上发布的「AI 」战略所要回答的核心命题。


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图2


智能的「执行鸿沟」

Token 时代的生产力悖论


要理解九章云极的战略逻辑,需先理解一个反常识的现象:Token 消耗越多,企业反而越焦虑。


表面上看,Token 调用量井喷是 AI 落地的标志。但在大量企业客户那里,「AI 接入」与「AI 带来价值」之间仍然存在明显落差。一个显著的例子就是近期亚马逊 Token 用量政策的变化:此前该科技巨头通过排行榜等措施来鼓励员工大量使用 Token(被称为 Tokenmaxxing),但这并未带来工作效率的有效增长,之后亚马逊又取消了相关政策。


问题是什么?或许不在带宽,不在成本,而在于模型的能力边界。


通用大模型的训练目标是在海量语料上预测下一个 Token;这能让它们成为出色的语言生成器,但不能让它们进化成可靠的任务执行者。让一个通用模型帮你写营销文案,效果往往令人惊喜;让它帮你走完一个包含条件判断、数据核查、多步审批的业务流程,则常常需要人工兜底。


九章云极创始人兼董事长方磊将这一矛盾描述为 AI 竞争焦点的根本性迁移:「过去,我们比拼的是谁能做出更强的模型;今天,智能竞争核心矛盾已经彻底迁移——从追求技术的卓越性,到追求生产力的工业化。」


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图3


这个判断隐含着一个更深刻的洞察:从技术突破到生产力突破,不只是算力或模型参数量的问题,而是一个工业化问题。就像第一次工业革命,真正改变世界的不是蒸汽机本身,而是围绕蒸汽机建立起来的流水线和标准化生产体系。AI 时代同样如此,决定下一个十年竞争格局的,将是谁能建造起像「电网」和「流水线」那样坚实、可量化、可扩展的智能生产与交付体系


值得注意的是,九章云极选择切入这一矛盾的方式,并不是去直接开发智能体应用——那是 ISV(独立软件供应商)、集成商和企业开发团队的战场。


九章云极的定位是在应用层的上游解决一个更底层的问题:如何让「能执行」的专业模型得以被工业化地制造出来,并以低成本被所有人使用?


填平执行鸿沟的关键,在于强化学习。


强化学习:让模型从「会说」到「会做」


强化学习并不是一个新概念,但它在大模型时代被赋予了全新的产业意义。


传统机器学习的逻辑是从数据中找规律:模型见过足够多的示例,就能在类似场景中给出相近的答案。这套逻辑对语言生成任务效果极好,但对于需要一步步做到位的执行型任务,存在根本性的局限:数据里记录的是结果,而非「在失败后调整策略的方式」。


强化学习(RL)的核心逻辑是试错—反馈—改进闭环。模型要在真实或模拟任务环境中反复尝试、接受来自环境的奖励或惩罚信号,并据此调整自己的决策策略。


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图4


这能让模型学会一种关键能力:在不确定性中,把一个复杂目标拆解成可执行的步骤,并在某步失败后懂得回头修正路径。


举一个贴近工业场景的例子:让大模型判断一条生产线上的产品是否合格,这不仅需要「看图说话」,更需要调用质量标准数据库、与历史工单比对、识别特定缺陷类型并触发相应的处理流程。通用模型能描述这个流程,但无法可靠执行它;经过强化学习训练的专业模型,则能在数千次模拟判断与反馈中,真正「学会」这个任务的内在逻辑。


这正是九章云极训练工厂的核心使命:通过以强化学习为核心的「工业级冶炼」,把通用智能打造成真正能上生产线的专业智能。


然而,将强化学习从研究推向产业化,面临三道真实存在的工程天堑。


第一道是万卡算力的供给与稳定性天堑。RL 训练的计算消耗远超普通精调:模型必须在成千上万个任务上持续采样、评估、更新,对集群的规模和连续稳定性要求极高。任何节点故障、网络抖动都会打断整个训练过程,而万卡级集群的稳定运行,此前基本只有顶级实验室能做到。


第二道是海量智能体仿真的超复杂调度天堑。RL 训练的独特之处在于,它需要同时运行大规模的「仿真环境」来产生训练数据(Rollout)以及并行进行的模型参数更新(Update)。这两种任务对算力的需求特征截然不同且会动态变化。传统的静态调度方式根本无法应对:跨节点通信、故障自愈、断点续训,每一项都是独立的工程难题。


第三道是从研究代码到生产系统的落地鸿沟。RL 算法繁多(PPO、DPO、GRPO、RLHF、RLAIF……),如何为成千上万种专业任务自动化地设计、管理和迭代奖励函数,如何构建持续优化的评测闭环,都需要大量工程经验沉淀。


九章云极训练工厂的价值,正是系统性地打通这三道天堑。它可不是简单的算力集群,而是一个为 RL 大规模工业化生产而专门设计的全栈系统,其核心在于规模化的奖励建模与评测闭环:能够自动化地生成、管理和迭代针对海量专业任务的奖励函数,将不稳定的研究过程变为可控、可重复的工业流程,形成持续优化的数据飞轮。


训练工厂:把通用智能「冶炼」为专业智能


在九章云极的 AI 工厂体系中,训练工厂是「重型发电厂」,承担「从 0 到 1」的专业智能制造。其核心由两个模块构成:支撑大规模训练运行的五项工程能力,以及将通用智能真正「冶炼」为专业智能的强化学习训练栈。


五项工程能力:让万卡训练稳定运行


训练工厂的底座,由五项相互咬合的工程能力共同搭建:


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图5



五项能力共同构成工业级训练的稳定底盘。九章云极已率先通过中国信通院「大模型计算资源调度平台」标准评测,81 项能力评估全覆盖,训练效率较业界基线提升 100%,GPU 利用率提升 50 %


强化学习训练栈:工业级「冶炼炉」的四项核心


在稳定底座之上,强化学习训练栈是训练工厂真正区别于普通算力集群的核心所在,也是将「会回答」的通用模型锻造为「会执行」的专业模型的关键工序。总结起来,其具备四项核心能力:


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图6


首先,平台支持 PPO、DPO、GRPO、RLHF、RLAIF 等多种主流算法并行运行,不同行业场景可以灵活选择最适合的算法组合,而不是被锁死在单一训练路径上。


其次,奖励建模能够融合任务完成情况、人工偏好、工具调用结果等多维度反馈信号,自动化地为成千上万种专业任务生成和优化奖励函数——这是强化学习从实验室走向产业最难的一步,也是训练工厂的核心壁垒。


第三,工具调用与多步执行让模型不再只会输出文本,而是能在真实任务环境中主动调用工具、拆解复杂目标、在失败后自我修正,这正是赋予模型“执行力”的关键机制。


最后,评测闭环覆盖行业基准、数学推理、安全合规等多维度评估,并持续接收上线后的真实反馈驱动模型迭代,确保专业模型可验证、可审计地进入企业生产系统。


这两大模块的协同,使训练工厂具备了真正意义上的专业模型量产能力。方磊将其使命概括为:「训练工厂不是堆卡,而是把通用智能冶炼为专业智能。」


不过,需要在这里特别说明训练工厂产出物的本质属性,因为这直接关系到九章云极在整个产业链中扮演的角色。


训练工厂的产出,并非直接可用的 AI 应用或智能体,而是具备强大领域执行能力的「专业模型资产」。打个比方:如果说通用大模型是原矿,那么经过训练工厂精炼的专业模型,就是高度提纯的「特种合金」——性能卓越、特性明确,但它本身不是最终产品,而是用来建造最终产品的核心材料。


基于这些「特种合金」,下游的 ISV、系统集成商,或企业自身的开发团队,才能以远超以往的性能上限,构建出真正贴合业务场景的智能体应用。九章云极专注「冶炼材料」,行业伙伴基于这些优质材料去「建造大厦」。


在工程层面,这一分工由标准化的「模型包」格式来保障:训练工厂与下游 Token 工厂通过统一接口对接,经过 RL 精炼的专业模型可以一键部署、秒级上线,进入流通环节。这将原本漫长且充满不确定性的研究过程,变为一套可控、可重复、边际成本持续递减的工业流程。


然而,专业模型资产被「炼」出来之后,新的挑战才真正开始。


Token 工厂:让专业智能「规模化流通」


一个训练完毕的专业模型文件,对企业来说其实是不可直接消费的;就像一座发电厂生产了大量电力,但这些电力如果没有电网、变压器、计量表和安全开关,就无法真正进入千家万户的插座。


将专业模型转化为企业可以「像用电一样」稳定调用、按量付费的智能服务,是 Token 工厂(Inference Factory)的核心使命。我们可以将其比作是智能时代的「价值传递车间」。


推理的「执行间隙」:一道被忽视的性能鸿沟


理解 Token 工厂的技术价值,需要先看清一个令人意外的事实:当前主流推理框架的实际性能,与硬件理论上限之间,存在超过 10 倍的鸿沟。


以一台顶级 8 卡 GPU 服务器为例,其聚合内存带宽约 38 TB/s,理论推理 Token 上限约 1000 Token/s;而主流推理框架的实际 decode 速度,往往只有几十 Token/s。GPU 利用率不低,理论 FLOPS 也不差,性能却只有天花板的十分之一。那么,问题出在哪里?


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图7


九章云极副总裁胡宗星将根因归结为「Execution Gap(执行间隙)」:kernel 间等待、通信与计算的串行停顿、host-device 同步开销,以及 KV 状态在 HBM/DRAM/NVMe 之间的反复搬运……在反复重算、GPU 等数据和能源空耗上产生大量浪费。


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图8


在 Agent 时代,这一问题会被成倍放大,因为一次 Agent 任务可能涉及 N 轮对话、M 次工具调用、K 个上下文长度、R 次重试。推理的状态空间会因此爆炸式增长,旧范式完全撑不住。


Inference OS:下一代推理系统的产品形态


九章云极给出的答案不是对现有推理框架打补丁,而是围绕「状态编排」重新定义推理系统的产品形态:Inference OS


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图9


其核心洞察是:推理正在从「计算系统」演化为「以内存为中心的状态系统」。类比数据库,推理系统的核心原语不应该是「query plan」(查询计划),而应该是「reuse plan」(复用计划),即什么状态能复用、什么要重建、在哪做 prefill、在哪做 decode、如何在硬件路径间搬运……这一系列决策决定了整个系统的效率与成本。


围绕这一判断,九章云极实施了三大范式重构:


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图10


重构一:系统架构・从异构堆叠到算-存-传一体化协同


核心技术是 DingoFS Connector(KV Fabric 加速引擎):通过前缀哈希分片、全链路零拷贝(RDMA + io_uring)和分布式 KV 池,将 KV Cache 的命中率提升至 60-90%(在 Prompt 模板、RAG 等典型场景下实测),TPS(吞吐量)较仅使用 HBM 的基线提升 10 倍,较业界主流跨节点 L2 缓存方案提升 5.3 倍,并稳定支持 120K 上下文长度。该方案已在 GitHub 开源,是国内首批同时支持 vLLM 和 lmcache 双 connector 的 KV 加速产品。


同时,通过 PD 分离调度(Prefill 和 Decode 使用专用硬件池,分别优化低 TTFT 和高 TPS),TPS 可额外提升 2-4 倍;拓扑感知的跨池动态路由,进一步消除了计算资源的空转浪费。


重构二:计算范式・从静态调度到持久化执行流


传统推理框架的执行路径是「launch→load→compute→store→sync」的串行流;九章云极通过 AOT(Ahead-of-Time)编译和 Persistent Engine Kernel,将整个 decode 过程编译为一个在芯片内持续运行的引擎,彻底消除 kernel 间同步开销。配合 Warp/Block Specialization(不同 warp 负责搬运/计算/通信的分工重叠)和异构 Worker 技术,将 GPU 利用率逼近硬件物理极限。经中国信通院公开认证,推理速度较业界引擎提升 4 倍


重构三:能效本质・从被动配电到能源定义架构


传统数据中心是「算力被动适应电力」:电厂建好,数据中心配电,AI 任务跑什么卡就用多少电。


九章云极的算电协同体系则反向定义:调度系统感知实时电价和绿电波动,训练任务自动避峰填谷,多智算中心可按电价动态跨区迁移;同时建立 Tokens/W 这一能效新度量,让单 Token 能耗从黑盒变为可追溯的生产指标。研究表明,这一体系可帮助参考类似方案的云厂商将推理碳排减少约 47%


三重构相乘:千倍降本的工程本质


三项范式重构并非独立叠加,而是相乘放大:效率(KV 命中率优化,减少反复重算)× 一体化协同(全链路零拷贝,减少 GPU 等数据)× 能源调度(算电协同,降低 Tokens/W)→ 共同构成「1000 倍综合降本」的工程解释。


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图11


这里的「千倍」可不是营销数字,而是一条经得起验证的工程路径:全栈自研底座(DingoStack/DingoFS/DingoDB)× 算电协同 × 全局调度(万卡级利用率)× 模型优化(KV/量化/推测解码/PD 分离)× 工厂复用(边际成本递减),五条路径相乘后的系统效率。


对客户而言,这可直接翻译为:GenAI 应用客户的同等算力 Token 成本可降低 60-75%;模型训练客户的大规模 fine-tune 完成时间缩短约 50%;多模态 Agent 客户在 20K 上下文、多轮对话场景下,TPS 提升 10 倍。


方磊在央视专访中分享了一个典型案例:一家制造企业接入九章云极的 Token 工厂后,AI 质检系统的算力成本从难以预估的固定开支,转变为清晰可控的变动成本。他强调:「这不仅是省钱,更是将算力从成本中心变成了可精准管理的生产原料。」


专业 Token 的分层体系


Token 工厂的产出不是同质化的算力商品,而是面向不同产业场景、具备明确 ROI 的「专业 Token」。九章云极将其划分为三个层级:


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图12



九章云极的战略聚焦明确:专注专业级与前沿级 Token,将 AI 能力精准转化为可直接嵌入企业核心业务流程的生产力组件。


AI 工厂战略:完整闭环与产业坐标


训练工厂与 Token 工厂 并非两个独立产品的简单组合。在九章云极的架构全景图中,两座工厂之间有一条明确的双向通道:训练工厂产出的专业模型资产流入 Token 工厂,Token 工厂在真实业务中积累的使用数据则回流至训练工厂,持续驱动模型迭代进化。


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图13


这是一个「越用越强」的增强回路:使用量越大,回流数据越丰富;数据越丰富,专业模型越精准;专业模型越精准,Token 的任务成功率越高,成本越低。


两座工厂的协同,使整个体系具备了随规模扩张而自我强化的能力。这也是 AI 工厂战略有别于单纯算力租赁的核心所在。


总结起来:训练工厂「造得出」× Token 工厂「用得起」= 智能工业化的基础设施


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图14


四个战略坐标


在这次峰会上,九章云极以四组数字锚定了 AI 工厂战略的目标:


堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答图15



从中国到全球:普惠算力的地理延伸


四个战略坐标的背后,还有一个更大的视野:让经过中国市场验证的「普惠智算方案」走向全球


目前,九章云极的智算节点已覆盖京津冀、长三角到西部枢纽的全国网络;在海外,已在印度尼西亚、马来西亚、越南、新加坡等东南亚市场,以及沙特阿拉伯、阿联酋等中东市场展开布局。


方磊在今年 4 月的全球共享发展行动论坛上发布「南方智算火种计划(The AI Prometheus)」,提出通过「韧性算力底座+本土能力建设+开箱即用超节点方案」,帮助全球南方国家将传统需要数年的算力中心建设周期压缩至数月,以极低的边际成本直接承接 AI 算力需求的爆发。


这是 AI 工厂战略在全球维度的延伸逻辑:不只输出算力租赁,而是输出可持续发展的能力,让每一个国家和地区都有能力参与 Token 经济的红利


从工厂到文明基础设施


人类历史上,每一次生产力范式的跃迁,最终都不是靠单一技术突破完成的,而是靠一套完整的工业体系:从标准化的度量单位,到可靠的生产流程,到普惠的流通网络。


蒸汽机出现半个世纪后,真正改变世界的是流水线。发电机发明几十年后,真正普惠千家万户的是电网。


今天,当通用大模型的能力已基本被业界认可,决定下一个十年的,将是谁能建造起 AI 时代的「流水线」与「电网」


九章云极 AI 工厂战略给出的答案是一套从强化学习到专业 Token 的完整工业链条:训练工厂解决「造得出」,Token 工厂解决「用得起」,两者形成闭环飞轮,共同支撑「智能像电力一样可度量、可结算、可规模化生产」这一终极图景。


这不只是一家算力公司的产品迭代,而是一次对「什么是 AI 基础设施」这一问题的重新定义。


正如方磊所言:「我们的目标,是让普惠智算成为一个具有中国印记、全球价值的产业公共品。这是九章云极的蓝图,也是我们向世界发出的合作邀请。」



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI GPU 工厂
more
OpenAI财报泄露!3个月能烧37亿美元,年亏损涨8倍
OpenAI亲曝o1越狱逃出沙箱:感觉像AGI降临
当AI存储超级周期来临,时创意展现全产业链布局
刚刚,北京建了一座AI工厂:目标10万P算力,日产10万亿Token!
腾讯研究院AI速递 20260618
原力灵机发布 Ferrata 系统,物理 AI 迎来自己的 Harness
大家都在谈“AI素养”,说的是同一件事吗?
Genesis AI“不像人”的机器人Eno刷屏,我们在它硅谷总部看到一丝苹果的影子
马斯克麾下最惨打工人:手滑删掉xAI三周训练数据
AI转型最大的门槛,不是技术,是人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号