
截至今年 3 月,中国日均 Token 调用量已突破 140 万亿,两年间增长超过千倍。这个数字比任何分析报告都更直白地说明了一件事:AI 已经从实验室走进了生产线。
然而,数字背后藏着一个越来越刺眼的矛盾。
当企业争先把大模型接入业务系统,他们发现:通用模型在聊天窗口里对答如流,放到真实工单系统里却频频失手,比如它能把政策解释得头头是道,却无法按照企业的合规流程走完一张审批表;它能洋洋洒洒生成质检报告,却在判断某颗螺丝是否超差时不断犯错……通用大模型「会回答」,但往往「不会执行」。
这不是模型不够聪明,而是它们生来就是为了「生成 Token」而非「完成任务」。从回答到执行,中间有一道鲜少被正面讨论的工程鸿沟;而填平这道鸿沟,正是九章云极 DataCanvas 在今天的「2026 全球智算科技峰会暨九章云极战略发布会」上发布的「AI 工厂」战略所要回答的核心命题。

智能的「执行鸿沟」
Token 时代的生产力悖论
要理解九章云极的战略逻辑,需先理解一个反常识的现象:Token 消耗越多,企业反而越焦虑。
表面上看,Token 调用量井喷是 AI 落地的标志。但在大量企业客户那里,「AI 接入」与「AI 带来价值」之间仍然存在明显落差。一个显著的例子就是近期亚马逊 Token 用量政策的变化:此前该科技巨头通过排行榜等措施来鼓励员工大量使用 Token(被称为 Tokenmaxxing),但这并未带来工作效率的有效增长,之后亚马逊又取消了相关政策。
问题是什么?或许不在带宽,不在成本,而在于模型的能力边界。
通用大模型的训练目标是在海量语料上预测下一个 Token;这能让它们成为出色的语言生成器,但不能让它们进化成可靠的任务执行者。让一个通用模型帮你写营销文案,效果往往令人惊喜;让它帮你走完一个包含条件判断、数据核查、多步审批的业务流程,则常常需要人工兜底。
九章云极创始人兼董事长方磊将这一矛盾描述为 AI 竞争焦点的根本性迁移:「过去,我们比拼的是谁能做出更强的模型;今天,智能竞争核心矛盾已经彻底迁移——从追求技术的卓越性,到追求生产力的工业化。」

这个判断隐含着一个更深刻的洞察:从技术突破到生产力突破,不只是算力或模型参数量的问题,而是一个工业化问题。就像第一次工业革命,真正改变世界的不是蒸汽机本身,而是围绕蒸汽机建立起来的流水线和标准化生产体系。AI 时代同样如此,决定下一个十年竞争格局的,将是谁能建造起像「电网」和「流水线」那样坚实、可量化、可扩展的智能生产与交付体系。
值得注意的是,九章云极选择切入这一矛盾的方式,并不是去直接开发智能体应用——那是 ISV(独立软件供应商)、集成商和企业开发团队的战场。
九章云极的定位是在应用层的上游解决一个更底层的问题:如何让「能执行」的专业模型得以被工业化地制造出来,并以低成本被所有人使用?
填平执行鸿沟的关键,在于强化学习。
强化学习:让模型从「会说」到「会做」
强化学习并不是一个新概念,但它在大模型时代被赋予了全新的产业意义。
传统机器学习的逻辑是从数据中找规律:模型见过足够多的示例,就能在类似场景中给出相近的答案。这套逻辑对语言生成任务效果极好,但对于需要一步步做到位的执行型任务,存在根本性的局限:数据里记录的是结果,而非「在失败后调整策略的方式」。
强化学习(RL)的核心逻辑是试错—反馈—改进闭环。模型要在真实或模拟任务环境中反复尝试、接受来自环境的奖励或惩罚信号,并据此调整自己的决策策略。

这能让模型学会一种关键能力:在不确定性中,把一个复杂目标拆解成可执行的步骤,并在某步失败后懂得回头修正路径。
举一个贴近工业场景的例子:让大模型判断一条生产线上的产品是否合格,这不仅需要「看图说话」,更需要调用质量标准数据库、与历史工单比对、识别特定缺陷类型并触发相应的处理流程。通用模型能描述这个流程,但无法可靠执行它;经过强化学习训练的专业模型,则能在数千次模拟判断与反馈中,真正「学会」这个任务的内在逻辑。
这正是九章云极训练工厂的核心使命:通过以强化学习为核心的「工业级冶炼」,把通用智能打造成真正能上生产线的专业智能。
然而,将强化学习从研究推向产业化,面临三道真实存在的工程天堑。
第一道是万卡算力的供给与稳定性天堑。RL 训练的计算消耗远超普通精调:模型必须在成千上万个任务上持续采样、评估、更新,对集群的规模和连续稳定性要求极高。任何节点故障、网络抖动都会打断整个训练过程,而万卡级集群的稳定运行,此前基本只有顶级实验室能做到。
第二道是海量智能体仿真的超复杂调度天堑。RL 训练的独特之处在于,它需要同时运行大规模的「仿真环境」来产生训练数据(Rollout)以及并行进行的模型参数更新(Update)。这两种任务对算力的需求特征截然不同且会动态变化。传统的静态调度方式根本无法应对:跨节点通信、故障自愈、断点续训,每一项都是独立的工程难题。
第三道是从研究代码到生产系统的落地鸿沟。RL 算法繁多(PPO、DPO、GRPO、RLHF、RLAIF……),如何为成千上万种专业任务自动化地设计、管理和迭代奖励函数,如何构建持续优化的评测闭环,都需要大量工程经验沉淀。
九章云极训练工厂的价值,正是系统性地打通这三道天堑。它可不是简单的算力集群,而是一个为 RL 大规模工业化生产而专门设计的全栈系统,其核心在于规模化的奖励建模与评测闭环:能够自动化地生成、管理和迭代针对海量专业任务的奖励函数,将不稳定的研究过程变为可控、可重复的工业流程,形成持续优化的数据飞轮。
训练工厂:把通用智能「冶炼」为专业智能
在九章云极的 AI 工厂体系中,训练工厂是「重型发电厂」,承担「从 0 到 1」的专业智能制造。其核心由两个模块构成:支撑大规模训练运行的五项工程能力,以及将通用智能真正「冶炼」为专业智能的强化学习训练栈。
五项工程能力:让万卡训练稳定运行
训练工厂的底座,由五项相互咬合的工程能力共同搭建:

弹性算力:算力像云一样伸缩自如。任务来了秒级扩容,任务走了自动释放;高优先级的任务随时插队,低优先级的任务在后台平稳运行。GPU 资源统一调配,不为突发峰值提前囤货,避免资源闲置浪费。
混合调度:训练、推理、微调三类任务在同一套系统中统一编排。万卡集群中某个节点故障,系统自动绕过,任务不中断;训练意外中止,从断点处自动续跑,不从头再来。
网络优化:节点之间的数据交换走高速通道,通信开销压到最低。算力花在计算上,而不是花在数据搬运的路上。
存储优化:数据提前加载、缓存预热,算力不再干等数据。大规模训练中「算力等人」的经典瓶颈被有效解决。
多租户与排队:多个团队共用同一集群,各算各的互不干扰。紧急任务插队优先跑,闲时任务排队慢慢跑,整体资源利用率大幅提升。
五项能力共同构成工业级训练的稳定底盘。九章云极已率先通过中国信通院「大模型计算资源调度平台」标准评测,81 项能力评估全覆盖,训练效率较业界基线提升 100%,GPU 利用率提升 50 %。
强化学习训练栈:工业级「冶炼炉」的四项核心
在稳定底座之上,强化学习训练栈是训练工厂真正区别于普通算力集群的核心所在,也是将「会回答」的通用模型锻造为「会执行」的专业模型的关键工序。总结起来,其具备四项核心能力:

首先,平台支持 PPO、DPO、GRPO、RLHF、RLAIF 等多种主流算法并行运行,不同行业场景可以灵活选择最适合的算法组合,而不是被锁死在单一训练路径上。
其次,奖励建模能够融合任务完成情况、人工偏好、工具调用结果等多维度反馈信号,自动化地为成千上万种专业任务生成和优化奖励函数——这是强化学习从实验室走向产业最难的一步,也是训练工厂的核心壁垒。
第三,工具调用与多步执行让模型不再只会输出文本,而是能在真实任务环境中主动调用工具、拆解复杂目标、在失败后自我修正,这正是赋予模型“执行力”的关键机制。
最后,评测闭环覆盖行业基准、数学推理、安全合规等多维度评估,并持续接收上线后的真实反馈驱动模型迭代,确保专业模型可验证、可审计地进入企业生产系统。
这两大模块的协同,使训练工厂具备了真正意义上的专业模型量产能力。方磊将其使命概括为:「训练工厂不是堆卡,而是把通用智能冶炼为专业智能。」
不过,需要在这里特别说明训练工厂产出物的本质属性,因为这直接关系到九章云极在整个产业链中扮演的角色。
训练工厂的产出,并非直接可用的 AI 应用或智能体,而是具备强大领域执行能力的「专业模型资产」。打个比方:如果说通用大模型是原矿,那么经过训练工厂精炼的专业模型,就是高度提纯的「特种合金」——性能卓越、特性明确,但它本身不是最终产品,而是用来建造最终产品的核心材料。
基于这些「特种合金」,下游的 ISV、系统集成商,或企业自身的开发团队,才能以远超以往的性能上限,构建出真正贴合业务场景的智能体应用。九章云极专注「冶炼材料」,行业伙伴基于这些优质材料去「建造大厦」。
在工程层面,这一分工由标准化的「模型包」格式来保障:训练工厂与下游 Token 工厂通过统一接口对接,经过 RL 精炼的专业模型可以一键部署、秒级上线,进入流通环节。这将原本漫长且充满不确定性的研究过程,变为一套可控、可重复、边际成本持续递减的工业流程。
然而,专业模型资产被「炼」出来之后,新的挑战才真正开始。
Token 工厂:让专业智能「规模化流通」
一个训练完毕的专业模型文件,对企业来说其实是不可直接消费的;就像一座发电厂生产了大量电力,但这些电力如果没有电网、变压器、计量表和安全开关,就无法真正进入千家万户的插座。
将专业模型转化为企业可以「像用电一样」稳定调用、按量付费的智能服务,是 Token 工厂(Inference Factory)的核心使命。我们可以将其比作是智能时代的「价值传递车间」。
推理的「执行间隙」:一道被忽视的性能鸿沟
理解 Token 工厂的技术价值,需要先看清一个令人意外的事实:当前主流推理框架的实际性能,与硬件理论上限之间,存在超过 10 倍的鸿沟。
以一台顶级 8 卡 GPU 服务器为例,其聚合内存带宽约 38 TB/s,理论推理 Token 上限约 1000 Token/s;而主流推理框架的实际 decode 速度,往往只有几十 Token/s。GPU 利用率不低,理论 FLOPS 也不差,性能却只有天花板的十分之一。那么,问题出在哪里?

九章云极副总裁胡宗星将根因归结为「Execution Gap(执行间隙)」:kernel 间等待、通信与计算的串行停顿、host-device 同步开销,以及 KV 状态在 HBM/DRAM/NVMe 之间的反复搬运……在反复重算、GPU 等数据和能源空耗上产生大量浪费。

在 Agent 时代,这一问题会被成倍放大,因为一次 Agent 任务可能涉及 N 轮对话、M 次工具调用、K 个上下文长度、R 次重试。推理的状态空间会因此爆炸式增长,旧范式完全撑不住。
Inference OS:下一代推理系统的产品形态
九章云极给出的答案不是对现有推理框架打补丁,而是围绕「状态编排」重新定义推理系统的产品形态:Inference OS。

其核心洞察是:推理正在从「计算系统」演化为「以内存为中心的状态系统」。类比数据库,推理系统的核心原语不应该是「query plan」(查询计划),而应该是「reuse plan」(复用计划),即什么状态能复用、什么要重建、在哪做 prefill、在哪做 decode、如何在硬件路径间搬运……这一系列决策决定了整个系统的效率与成本。
围绕这一判断,九章云极实施了三大范式重构:

重构一:系统架构・从异构堆叠到算-存-传一体化协同。
核心技术是 DingoFS Connector(KV Fabric 加速引擎):通过前缀哈希分片、全链路零拷贝(RDMA + io_uring)和分布式 KV 池,将 KV Cache 的命中率提升至 60-90%(在 Prompt 模板、RAG 等典型场景下实测),TPS(吞吐量)较仅使用 HBM 的基线提升 10 倍,较业界主流跨节点 L2 缓存方案提升 5.3 倍,并稳定支持 120K 上下文长度。该方案已在 GitHub 开源,是国内首批同时支持 vLLM 和 lmcache 双 connector 的 KV 加速产品。
同时,通过 PD 分离调度(Prefill 和 Decode 使用专用硬件池,分别优化低 TTFT 和高 TPS),TPS 可额外提升 2-4 倍;拓扑感知的跨池动态路由,进一步消除了计算资源的空转浪费。
重构二:计算范式・从静态调度到持久化执行流。
传统推理框架的执行路径是「launch→load→compute→store→sync」的串行流;九章云极通过 AOT(Ahead-of-Time)编译和 Persistent Engine Kernel,将整个 decode 过程编译为一个在芯片内持续运行的引擎,彻底消除 kernel 间同步开销。配合 Warp/Block Specialization(不同 warp 负责搬运/计算/通信的分工重叠)和异构 Worker 技术,将 GPU 利用率逼近硬件物理极限。经中国信通院公开认证,推理速度较业界引擎提升 4 倍。
重构三:能效本质・从被动配电到能源定义架构。
传统数据中心是「算力被动适应电力」:电厂建好,数据中心配电,AI 任务跑什么卡就用多少电。
九章云极的算电协同体系则反向定义:调度系统感知实时电价和绿电波动,训练任务自动避峰填谷,多智算中心可按电价动态跨区迁移;同时建立 Tokens/W 这一能效新度量,让单 Token 能耗从黑盒变为可追溯的生产指标。研究表明,这一体系可帮助参考类似方案的云厂商将推理碳排减少约 47%。
三重构相乘:千倍降本的工程本质
三项范式重构并非独立叠加,而是相乘放大:复用效率(KV 命中率优化,减少反复重算)× 一体化协同(全链路零拷贝,减少 GPU 等数据)× 能源调度(算电协同,降低 Tokens/W)→ 共同构成「1000 倍综合降本」的工程解释。

这里的「千倍」可不是营销数字,而是一条经得起验证的工程路径:全栈自研底座(DingoStack/DingoFS/DingoDB)× 算电协同 × 全局调度(万卡级利用率)× 模型优化(KV/量化/推测解码/PD 分离)× 工厂复用(边际成本递减),五条路径相乘后的系统效率。
对客户而言,这可直接翻译为:GenAI 应用客户的同等算力 Token 成本可降低 60-75%;模型训练客户的大规模 fine-tune 完成时间缩短约 50%;多模态 Agent 客户在 20K 上下文、多轮对话场景下,TPS 提升 10 倍。
方磊在央视专访中分享了一个典型案例:一家制造企业接入九章云极的 Token 工厂后,AI 质检系统的算力成本从难以预估的固定开支,转变为清晰可控的变动成本。他强调:「这不仅是省钱,更是将算力从成本中心变成了可精准管理的生产原料。」
专业 Token 的分层体系
Token 工厂的产出不是同质化的算力商品,而是面向不同产业场景、具备明确 ROI 的「专业 Token」。九章云极将其划分为三个层级:

消费级 Token 面向海量用户,追求稳定吞吐与极低延迟,支撑日常 AI 应用;
专业级 Token 是企业商业价值创造的核心,封装了行业 Know-How 与合规逻辑,让企业购买的是「效率、风控与决策支持」;
前沿级 Token 则面向新材料研发、药物发现、城市级系统优化等高复杂度场景,封装多模型、多工具的全流程科研工作流,解决「此前不可解」的终极难题。
九章云极的战略聚焦明确:专注专业级与前沿级 Token,将 AI 能力精准转化为可直接嵌入企业核心业务流程的生产力组件。
AI 工厂战略:完整闭环与产业坐标
训练工厂与 Token 工厂 并非两个独立产品的简单组合。在九章云极的架构全景图中,两座工厂之间有一条明确的双向通道:训练工厂产出的专业模型资产流入 Token 工厂,Token 工厂在真实业务中积累的使用数据则回流至训练工厂,持续驱动模型迭代进化。

这是一个「越用越强」的增强回路:使用量越大,回流数据越丰富;数据越丰富,专业模型越精准;专业模型越精准,Token 的任务成功率越高,成本越低。
两座工厂的协同,使整个体系具备了随规模扩张而自我强化的能力。这也是 AI 工厂战略有别于单纯算力租赁的核心所在。
总结起来:训练工厂「造得出」× Token 工厂「用得起」= 智能工业化的基础设施。

四个战略坐标
在这次峰会上,九章云极以四组数字锚定了 AI 工厂战略的目标:

10 万 P 的训练工厂:打通行业顶尖算力集群,支撑超大规模模型并行训练。10 万 P 的智算规模目标是整个 AI 工厂体系运转的动力基石,也是支撑 AI 推理服务市场(预计 2030 年突破万亿美元规模)所需的基础设施底盘。
日均 10 万亿 Token:将专业模型封装为标准化的智能单元,让智能能力即取即用、流通无阻。目标单日 10 万亿高质量 Token 的流转能力是衡量「智能工业化」真正落地规模的核心产能指标。这一数字的背后,是算力规模、推理效率、跨集群调度、KV 路由效率与 SLA 可用时间五项工程能力相乘的系统结果。
1000 倍综合降本:通过 DPU 分离超节点计划实现 Token 成本跨越式降低。这是三大范式重构相乘、五条工程路径协同的结果。
1000+ 生态模型与智能应用开发:汇集全球优质模型体系,赋能全场景智能应用开发。配套「智算开放计划」,通过算力孵化基金(为入选伙伴提供直接算力支持)和「灯塔共创计划」(与头部伙伴联合研发、共同定义行业智能标准),九章云极致力于成为产业上下游的「价值开放平台」。
从中国到全球:普惠算力的地理延伸
四个战略坐标的背后,还有一个更大的视野:让经过中国市场验证的「普惠智算方案」走向全球。
目前,九章云极的智算节点已覆盖京津冀、长三角到西部枢纽的全国网络;在海外,已在印度尼西亚、马来西亚、越南、新加坡等东南亚市场,以及沙特阿拉伯、阿联酋等中东市场展开布局。
方磊在今年 4 月的全球共享发展行动论坛上发布「南方智算火种计划(The AI Prometheus)」,提出通过「韧性算力底座+本土能力建设+开箱即用超节点方案」,帮助全球南方国家将传统需要数年的算力中心建设周期压缩至数月,以极低的边际成本直接承接 AI 算力需求的爆发。
这是 AI 工厂战略在全球维度的延伸逻辑:不只输出算力租赁,而是输出可持续发展的能力,让每一个国家和地区都有能力参与 Token 经济的红利。
从工厂到文明基础设施
人类历史上,每一次生产力范式的跃迁,最终都不是靠单一技术突破完成的,而是靠一套完整的工业体系:从标准化的度量单位,到可靠的生产流程,到普惠的流通网络。
蒸汽机出现半个世纪后,真正改变世界的是流水线。发电机发明几十年后,真正普惠千家万户的是电网。
今天,当通用大模型的能力已基本被业界认可,决定下一个十年的,将是谁能建造起 AI 时代的「流水线」与「电网」。
九章云极 AI 工厂战略给出的答案是一套从强化学习到专业 Token 的完整工业链条:训练工厂解决「造得出」,Token 工厂解决「用得起」,两者形成闭环飞轮,共同支撑「智能像电力一样可度量、可结算、可规模化生产」这一终极图景。
这不只是一家算力公司的产品迭代,而是一次对「什么是 AI 基础设施」这一问题的重新定义。
正如方磊所言:「我们的目标,是让普惠智算成为一个具有中国印记、全球价值的产业公共品。这是九章云极的蓝图,也是我们向世界发出的合作邀请。」
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com