堆了一仓库GPU，却生产不出专业智能？九章云极用AI工厂给出解答

编辑｜Panda

截至今年 3 月，中国日均 Token 调用量已突破 140 万亿，两年间增长超过千倍。这个数字比任何分析报告都更直白地说明了一件事：AI 已经从实验室走进了生产线。

然而，数字背后藏着一个越来越刺眼的矛盾。

当企业争先把大模型接入业务系统，他们发现：通用模型在聊天窗口里对答如流，放到真实工单系统里却频频失手，比如它能把政策解释得头头是道，却无法按照企业的合规流程走完一张审批表；它能洋洋洒洒生成质检报告，却在判断某颗螺丝是否超差时不断犯错……通用大模型「会回答」，但往往「不会执行」。

这不是模型不够聪明，而是它们生来就是为了「生成 Token」而非「完成任务」。从回答到执行，中间有一道鲜少被正面讨论的工程鸿沟；而填平这道鸿沟，正是九章云极 DataCanvas 在今天的「2026 全球智算科技峰会暨九章云极战略发布会」上发布的「AI 工厂」战略所要回答的核心命题。

智能的「执行鸿沟」

Token 时代的生产力悖论

要理解九章云极的战略逻辑，需先理解一个反常识的现象：Token 消耗越多，企业反而越焦虑。

表面上看，Token 调用量井喷是 AI 落地的标志。但在大量企业客户那里，「AI 接入」与「AI 带来价值」之间仍然存在明显落差。一个显著的例子就是近期亚马逊 Token 用量政策的变化：此前该科技巨头通过排行榜等措施来鼓励员工大量使用 Token（被称为 Tokenmaxxing），但这并未带来工作效率的有效增长，之后亚马逊又取消了相关政策。

问题是什么？或许不在带宽，不在成本，而在于模型的能力边界。

通用大模型的训练目标是在海量语料上预测下一个 Token；这能让它们成为出色的语言生成器，但不能让它们进化成可靠的任务执行者。让一个通用模型帮你写营销文案，效果往往令人惊喜；让它帮你走完一个包含条件判断、数据核查、多步审批的业务流程，则常常需要人工兜底。

九章云极创始人兼董事长方磊将这一矛盾描述为 AI 竞争焦点的根本性迁移：「过去，我们比拼的是谁能做出更强的模型；今天，智能竞争核心矛盾已经彻底迁移——从追求技术的卓越性，到追求生产力的工业化。」

这个判断隐含着一个更深刻的洞察：从技术突破到生产力突破，不只是算力或模型参数量的问题，而是一个工业化问题。就像第一次工业革命，真正改变世界的不是蒸汽机本身，而是围绕蒸汽机建立起来的流水线和标准化生产体系。AI 时代同样如此，决定下一个十年竞争格局的，将是谁能建造起像「电网」和「流水线」那样坚实、可量化、可扩展的智能生产与交付体系。

值得注意的是，九章云极选择切入这一矛盾的方式，并不是去直接开发智能体应用——那是 ISV（独立软件供应商）、集成商和企业开发团队的战场。

九章云极的定位是在应用层的上游解决一个更底层的问题：如何让「能执行」的专业模型得以被工业化地制造出来，并以低成本被所有人使用？

填平执行鸿沟的关键，在于强化学习。

强化学习：让模型从「会说」到「会做」

强化学习并不是一个新概念，但它在大模型时代被赋予了全新的产业意义。

传统机器学习的逻辑是从数据中找规律：模型见过足够多的示例，就能在类似场景中给出相近的答案。这套逻辑对语言生成任务效果极好，但对于需要一步步做到位的执行型任务，存在根本性的局限：数据里记录的是结果，而非「在失败后调整策略的方式」。

强化学习（RL）的核心逻辑是试错—反馈—改进闭环。模型要在真实或模拟任务环境中反复尝试、接受来自环境的奖励或惩罚信号，并据此调整自己的决策策略。

这能让模型学会一种关键能力：在不确定性中，把一个复杂目标拆解成可执行的步骤，并在某步失败后懂得回头修正路径。

举一个贴近工业场景的例子：让大模型判断一条生产线上的产品是否合格，这不仅需要「看图说话」，更需要调用质量标准数据库、与历史工单比对、识别特定缺陷类型并触发相应的处理流程。通用模型能描述这个流程，但无法可靠执行它；经过强化学习训练的专业模型，则能在数千次模拟判断与反馈中，真正「学会」这个任务的内在逻辑。

这正是九章云极训练工厂的核心使命：通过以强化学习为核心的「工业级冶炼」，把通用智能打造成真正能上生产线的专业智能。

然而，将强化学习从研究推向产业化，面临三道真实存在的工程天堑。

第一道是万卡算力的供给与稳定性天堑。RL 训练的计算消耗远超普通精调：模型必须在成千上万个任务上持续采样、评估、更新，对集群的规模和连续稳定性要求极高。任何节点故障、网络抖动都会打断整个训练过程，而万卡级集群的稳定运行，此前基本只有顶级实验室能做到。

第二道是海量智能体仿真的超复杂调度天堑。RL 训练的独特之处在于，它需要同时运行大规模的「仿真环境」来产生训练数据（Rollout）以及并行进行的模型参数更新（Update）。这两种任务对算力的需求特征截然不同且会动态变化。传统的静态调度方式根本无法应对：跨节点通信、故障自愈、断点续训，每一项都是独立的工程难题。

第三道是从研究代码到生产系统的落地鸿沟。RL 算法繁多（PPO、DPO、GRPO、RLHF、RLAIF……），如何为成千上万种专业任务自动化地设计、管理和迭代奖励函数，如何构建持续优化的评测闭环，都需要大量工程经验沉淀。

九章云极训练工厂的价值，正是系统性地打通这三道天堑。它可不是简单的算力集群，而是一个为 RL 大规模工业化生产而专门设计的全栈系统，其核心在于规模化的奖励建模与评测闭环：能够自动化地生成、管理和迭代针对海量专业任务的奖励函数，将不稳定的研究过程变为可控、可重复的工业流程，形成持续优化的数据飞轮。

训练工厂：把通用智能「冶炼」为专业智能

在九章云极的 AI 工厂体系中，训练工厂是「重型发电厂」，承担「从 0 到 1」的专业智能制造。其核心由两个模块构成：支撑大规模训练运行的五项工程能力，以及将通用智能真正「冶炼」为专业智能的强化学习训练栈。

五项工程能力：让万卡训练稳定运行

训练工厂的底座，由五项相互咬合的工程能力共同搭建：

弹性算力：算力像云一样伸缩自如。任务来了秒级扩容，任务走了自动释放；高优先级的任务随时插队，低优先级的任务在后台平稳运行。GPU 资源统一调配，不为突发峰值提前囤货，避免资源闲置浪费。
混合调度：训练、推理、微调三类任务在同一套系统中统一编排。万卡集群中某个节点故障，系统自动绕过，任务不中断；训练意外中止，从断点处自动续跑，不从头再来。
网络优化：节点之间的数据交换走高速通道，通信开销压到最低。算力花在计算上，而不是花在数据搬运的路上。
存储优化：数据提前加载、缓存预热，算力不再干等数据。大规模训练中「算力等人」的经典瓶颈被有效解决。
多租户与排队：多个团队共用同一集群，各算各的互不干扰。紧急任务插队优先跑，闲时任务排队慢慢跑，整体资源利用率大幅提升。

五项能力共同构成工业级训练的稳定底盘。九章云极已率先通过中国信通院「大模型计算资源调度平台」标准评测，81 项能力评估全覆盖，训练效率较业界基线提升 100%，GPU 利用率提升 50 %。

强化学习训练栈：工业级「冶炼炉」的四项核心

在稳定底座之上，强化学习训练栈是训练工厂真正区别于普通算力集群的核心所在，也是将「会回答」的通用模型锻造为「会执行」的专业模型的关键工序。总结起来，其具备四项核心能力：

首先，平台支持 PPO、DPO、GRPO、RLHF、RLAIF 等多种主流算法并行运行，不同行业场景可以灵活选择最适合的算法组合，而不是被锁死在单一训练路径上。

其次，奖励建模能够融合任务完成情况、人工偏好、工具调用结果等多维度反馈信号，自动化地为成千上万种专业任务生成和优化奖励函数——这是强化学习从实验室走向产业最难的一步，也是训练工厂的核心壁垒。

第三，工具调用与多步执行让模型不再只会输出文本，而是能在真实任务环境中主动调用工具、拆解复杂目标、在失败后自我修正，这正是赋予模型“执行力”的关键机制。

最后，评测闭环覆盖行业基准、数学推理、安全合规等多维度评估，并持续接收上线后的真实反馈驱动模型迭代，确保专业模型可验证、可审计地进入企业生产系统。

这两大模块的协同，使训练工厂具备了真正意义上的专业模型量产能力。方磊将其使命概括为：「训练工厂不是堆卡，而是把通用智能冶炼为专业智能。」

不过，需要在这里特别说明训练工厂产出物的本质属性，因为这直接关系到九章云极在整个产业链中扮演的角色。

训练工厂的产出，并非直接可用的 AI 应用或智能体，而是具备强大领域执行能力的「专业模型资产」。打个比方：如果说通用大模型是原矿，那么经过训练工厂精炼的专业模型，就是高度提纯的「特种合金」——性能卓越、特性明确，但它本身不是最终产品，而是用来建造最终产品的核心材料。

基于这些「特种合金」，下游的 ISV、系统集成商，或企业自身的开发团队，才能以远超以往的性能上限，构建出真正贴合业务场景的智能体应用。九章云极专注「冶炼材料」，行业伙伴基于这些优质材料去「建造大厦」。

在工程层面，这一分工由标准化的「模型包」格式来保障：训练工厂与下游 Token 工厂通过统一接口对接，经过 RL 精炼的专业模型可以一键部署、秒级上线，进入流通环节。这将原本漫长且充满不确定性的研究过程，变为一套可控、可重复、边际成本持续递减的工业流程。

然而，专业模型资产被「炼」出来之后，新的挑战才真正开始。

Token 工厂：让专业智能「规模化流通」

一个训练完毕的专业模型文件，对企业来说其实是不可直接消费的；就像一座发电厂生产了大量电力，但这些电力如果没有电网、变压器、计量表和安全开关，就无法真正进入千家万户的插座。

将专业模型转化为企业可以「像用电一样」稳定调用、按量付费的智能服务，是 Token 工厂（Inference Factory）的核心使命。我们可以将其比作是智能时代的「价值传递车间」。

推理的「执行间隙」：一道被忽视的性能鸿沟

理解 Token 工厂的技术价值，需要先看清一个令人意外的事实：当前主流推理框架的实际性能，与硬件理论上限之间，存在超过 10 倍的鸿沟。

以一台顶级 8 卡 GPU 服务器为例，其聚合内存带宽约 38 TB/s，理论推理 Token 上限约 1000 Token/s；而主流推理框架的实际 decode 速度，往往只有几十 Token/s。GPU 利用率不低，理论 FLOPS 也不差，性能却只有天花板的十分之一。那么，问题出在哪里？

九章云极副总裁胡宗星将根因归结为「Execution Gap（执行间隙）」：kernel 间等待、通信与计算的串行停顿、host-device 同步开销，以及 KV 状态在 HBM/DRAM/NVMe 之间的反复搬运……在反复重算、GPU 等数据和能源空耗上产生大量浪费。

在 Agent 时代，这一问题会被成倍放大，因为一次 Agent 任务可能涉及 N 轮对话、M 次工具调用、K 个上下文长度、R 次重试。推理的状态空间会因此爆炸式增长，旧范式完全撑不住。

Inference OS：下一代推理系统的产品形态

九章云极给出的答案不是对现有推理框架打补丁，而是围绕「状态编排」重新定义推理系统的产品形态：Inference OS。

其核心洞察是：推理正在从「计算系统」演化为「以内存为中心的状态系统」。类比数据库，推理系统的核心原语不应该是「query plan」（查询计划），而应该是「reuse plan」（复用计划），即什么状态能复用、什么要重建、在哪做 prefill、在哪做 decode、如何在硬件路径间搬运……这一系列决策决定了整个系统的效率与成本。

围绕这一判断，九章云极实施了三大范式重构：

重构一：系统架构・从异构堆叠到算-存-传一体化协同。

核心技术是 DingoFS Connector（KV Fabric 加速引擎）：通过前缀哈希分片、全链路零拷贝（RDMA + io_uring）和分布式 KV 池，将 KV Cache 的命中率提升至 60-90%（在 Prompt 模板、RAG 等典型场景下实测），TPS（吞吐量）较仅使用 HBM 的基线提升 10 倍，较业界主流跨节点 L2 缓存方案提升 5.3 倍，并稳定支持 120K 上下文长度。该方案已在 GitHub 开源，是国内首批同时支持 vLLM 和 lmcache 双 connector 的 KV 加速产品。

同时，通过 PD 分离调度（Prefill 和 Decode 使用专用硬件池，分别优化低 TTFT 和高 TPS），TPS 可额外提升 2-4 倍；拓扑感知的跨池动态路由，进一步消除了计算资源的空转浪费。

重构二：计算范式・从静态调度到持久化执行流。

传统推理框架的执行路径是「launch→load→compute→store→sync」的串行流；九章云极通过 AOT（Ahead-of-Time）编译和 Persistent Engine Kernel，将整个 decode 过程编译为一个在芯片内持续运行的引擎，彻底消除 kernel 间同步开销。配合 Warp/Block Specialization（不同 warp 负责搬运/计算/通信的分工重叠）和异构 Worker 技术，将 GPU 利用率逼近硬件物理极限。经中国信通院公开认证，推理速度较业界引擎提升 4 倍。

重构三：能效本质・从被动配电到能源定义架构。

传统数据中心是「算力被动适应电力」：电厂建好，数据中心配电，AI 任务跑什么卡就用多少电。

九章云极的算电协同体系则反向定义：调度系统感知实时电价和绿电波动，训练任务自动避峰填谷，多智算中心可按电价动态跨区迁移；同时建立 Tokens/W 这一能效新度量，让单 Token 能耗从黑盒变为可追溯的生产指标。研究表明，这一体系可帮助参考类似方案的云厂商将推理碳排减少约 47%。

三重构相乘：千倍降本的工程本质

三项范式重构并非独立叠加，而是相乘放大：复用效率（KV 命中率优化，减少反复重算）× 一体化协同（全链路零拷贝，减少 GPU 等数据）× 能源调度（算电协同，降低 Tokens/W）→ 共同构成「1000 倍综合降本」的工程解释。

这里的「千倍」可不是营销数字，而是一条经得起验证的工程路径：全栈自研底座（DingoStack/DingoFS/DingoDB）× 算电协同 × 全局调度（万卡级利用率）× 模型优化（KV/量化/推测解码/PD 分离）× 工厂复用（边际成本递减），五条路径相乘后的系统效率。

对客户而言，这可直接翻译为：GenAI 应用客户的同等算力 Token 成本可降低 60-75%；模型训练客户的大规模 fine-tune 完成时间缩短约 50%；多模态 Agent 客户在 20K 上下文、多轮对话场景下，TPS 提升 10 倍。

方磊在央视专访中分享了一个典型案例：一家制造企业接入九章云极的 Token 工厂后，AI 质检系统的算力成本从难以预估的固定开支，转变为清晰可控的变动成本。他强调：「这不仅是省钱，更是将算力从成本中心变成了可精准管理的生产原料。」

专业 Token 的分层体系

Token 工厂的产出不是同质化的算力商品，而是面向不同产业场景、具备明确 ROI 的「专业 Token」。九章云极将其划分为三个层级：

消费级 Token 面向海量用户，追求稳定吞吐与极低延迟，支撑日常 AI 应用；
专业级 Token 是企业商业价值创造的核心，封装了行业 Know-How 与合规逻辑，让企业购买的是「效率、风控与决策支持」；
前沿级 Token 则面向新材料研发、药物发现、城市级系统优化等高复杂度场景，封装多模型、多工具的全流程科研工作流，解决「此前不可解」的终极难题。

九章云极的战略聚焦明确：专注专业级与前沿级 Token，将 AI 能力精准转化为可直接嵌入企业核心业务流程的生产力组件。

AI 工厂战略：完整闭环与产业坐标

训练工厂与 Token 工厂并非两个独立产品的简单组合。在九章云极的架构全景图中，两座工厂之间有一条明确的双向通道：训练工厂产出的专业模型资产流入 Token 工厂，Token 工厂在真实业务中积累的使用数据则回流至训练工厂，持续驱动模型迭代进化。

这是一个「越用越强」的增强回路：使用量越大，回流数据越丰富；数据越丰富，专业模型越精准；专业模型越精准，Token 的任务成功率越高，成本越低。

两座工厂的协同，使整个体系具备了随规模扩张而自我强化的能力。这也是 AI 工厂战略有别于单纯算力租赁的核心所在。

总结起来：训练工厂「造得出」× Token 工厂「用得起」= 智能工业化的基础设施。

四个战略坐标

在这次峰会上，九章云极以四组数字锚定了 AI 工厂战略的目标：

10 万 P 的训练工厂：打通行业顶尖算力集群，支撑超大规模模型并行训练。10 万 P 的智算规模目标是整个 AI 工厂体系运转的动力基石，也是支撑 AI 推理服务市场（预计 2030 年突破万亿美元规模）所需的基础设施底盘。
日均 10 万亿 Token：将专业模型封装为标准化的智能单元，让智能能力即取即用、流通无阻。目标单日 10 万亿高质量 Token 的流转能力是衡量「智能工业化」真正落地规模的核心产能指标。这一数字的背后，是算力规模、推理效率、跨集群调度、KV 路由效率与 SLA 可用时间五项工程能力相乘的系统结果。
1000 倍综合降本：通过 DPU 分离超节点计划实现 Token 成本跨越式降低。这是三大范式重构相乘、五条工程路径协同的结果。
1000+ 生态模型与智能应用开发：汇集全球优质模型体系，赋能全场景智能应用开发。配套「智算开放计划」，通过算力孵化基金（为入选伙伴提供直接算力支持）和「灯塔共创计划」（与头部伙伴联合研发、共同定义行业智能标准），九章云极致力于成为产业上下游的「价值开放平台」。