万亿Token时代，国产AI Infra准备好了吗？

还记得年初爆火的龙虾吗？这类可执行的智能体，正悄悄爬进产业，在实业场景里爆发。在鲲鹏昇腾开发者大会2026现场，给我一种不谈智能体直接落伍的感觉。

中科大团队让Agent担任机器化学家，自主啃下上万篇化学文献，甚至自主设计实验、优化方案，让科研不再是试错苦旅。

企业服务领域，过去分析师团队耗时半个月的行业研报、竞品分析与数据建模工作，如今数十个Agent协同分工，几天就能搞定。

而智能体的每一次自主决策、每一轮迭代优化，都在驱动Token消耗量攀升。万亿Token时代已经到来，所有行业、所有企业都不得不直面一场AI infra的能力大考：AI基础设施，我们真的准备好了吗？

一方面是业务场景的极致复杂度。在推荐、交互等极致低时延场景下，毫秒级的延迟差距能够直接影响到产品体验与市场竞争力，超低延迟、超高吞吐的推理需求成为刚需。

而与此同时，多数企业聚焦模型与应用层创新，却忽视了算力调度、推理优化等底层基建的决定性作用，AI infra的核心价值被低估。

在全行业机遇和挑战并存的关键期，我在大会现场深度采访了国产推理引擎xLLM项目负责人刘童璇。从这支扎根国产化赛道的技术团队身上，看到了AI infra的破局答案，也看到了托举智能中国的根源力量。

它孤独地站在那里

显得寂寞而又倔强

似乎即将倾跌进深谷里

却又像是要展翅飞翔……

——《悬崖边的树》

xLLM为什么特殊？海量Token的激增需求，叠加居高不下的算力成本、海外算力生态的不确定性，让算力优化成为AI落地的最关键问题。而推理引擎，下接硬件，通过深度优化来提升芯片的模型运行性能，压缩大模型的推理耗时；上接应用，高效承接万亿Token级的海量请求。

适配国产芯片、高性能的国产推理引擎寥寥无几。xLLM的出现，填补了行业空白。而这，源于一个悬崖边的选择。

时间拨回2024年下半年，xLLM立项之初，海外算力框架占据绝对主流，行业内几乎没有人愿意all in国产推理引擎的原生研发。当时，摆在xLLM团队面前的，是一道终极选择题：究竟是依附成熟的海外开源框架，简单适配国产芯片，做浅层增量改造，还是从零起步，原生自研一套纯国产推理引擎，走一条充满未知的绝壁之路。

xLLM团队做出了坚定的抉择，从零搭建全国产推理体系，不做混合适配、不依附海外框架，彻底扎根国产算力生态。

刘童璇反复而笃定地强调，如果直接在海外框架上支持国产芯片，会受到很大束缚，因为国产芯片生态与CUDA生态不同，优化手段也不一样。强行适配会受到已有框架的束缚，永远无法挖掘国产算力的极致性能。同时，企业做AI必须要有算力压舱石，唯有原生自研，才能真正为国产算力量身打造最优推理底座，也为企业业务提供可靠可持续的保障。

从零起步的抉择，换来的是极致的技术自由，却也伴随着难以想象的困境。

技术上的挑战首当其冲。国产芯片生态碎片化，各类国产芯片架构迥异，没有统一、通用的编程模型，无法复刻CUDA体系的成熟适配逻辑。同一大模型，需要针对不同芯片架构单独重写、深度调优，适配成本极高。更棘手的是，当时国产芯片在FP16、INT8等精度的支持不够，极易出现各类BUG，优化效果没人敢打包票。

同时，国内缺乏原生国产高性能推理引擎的通用方案，这支以95后工程师为核心的年轻团队，成员大多没有从0到1建立推理引擎的经验，面对复杂的底层架构设计与全链路优化工作，难免缺乏信心。

起步阶段，是整个研发周期中最艰难时期。面对悬崖绝境般的困境，团队放弃广撒网的适配思路，没有盲目铺开试水，集中锚定DeepSeekV3/R1模型，死磕单一模型的国产化推理优化。

于悬崖边扎根，在逆境中生长，xLLM恰如崖柏，展现出顽强的技术生命力。项目正式开源之前，团队终于对自建全国产推理引擎这件事有了信心。

一棵树，彼此孤离地兀立着……但在泥土的覆盖下，它们的根伸长着。在看不见的深处，它们把根须纠缠在一起——艾青《树》

认定全国产这条路能跑通的转折点，出现在项目开源之前的性能攻坚阶段。

在长达数月的全链路深耕与芯片联调后，xLLM的优化能力迎来了质的飞跃，将原本毫秒级的调度间隙压缩至百微秒以下，让国产硬件的性能得以极致释放。

在此之前，行业普遍感知到，国产芯片的性能与N卡存在天然差距，大约只有海外先进芯片的60%—70%。但xLLM彻底打破了这一认知。在同等模型、同等部署条件下，xLLM赋能昇腾芯片跑出的推理性能，能够达到H200的80%—90%。

在刘童璇看来，这一性能表现，是国产软硬件深度协同的系统性胜利。既源于xLLM框架层的架构革新与算法优化，也得益于与国产芯片厂商的紧密合作，优化涵盖了从上到下的整个链路，包括推理引擎框架层的优化和底层计算方法的改进。

比如说，昇腾CANN、Mind系列开源软件栈，具备完善的算子适配、模型兼容能力，能够高效匹配xLLM的自研架构，大幅降低原生推理引擎的适配成本与改造难度。

此外，xLLM也得到了昇腾社区的高效响应。双方建立了常态化深度协同机制，通过每周技术例会同步迭代进度、攻克技术难题，昇腾甚至派团队常驻亦庄，与xLLM团队联合办公，从方案打磨、技术攻坚到场景落地全流程共建，实现技术迭代无缝衔接。

结果就是，xLLM的原生架构设计与昇腾超节点的技术特性高度契合，形成独一无二的软硬协同优势，基于昇腾在推理性能上获得更优表现，在分布式推理、高并发吞吐场景下，能实现性能最大化。

随后，xLLM逐步完成了其他主流国产芯片的深度适配与优化，以及与DeepSeek、Qwen、GLM等头部模型厂商的深度协同。

通过推理引擎，零散的国产芯片厂商、技术团队、模型生态被串联在一起，根系相连，能力互补，形成产业合力。可以说，xLLM的性能突破之路，也是国产AI生态聚力共生、聚木成林的一个缩影。

与国际顶尖硬件掰手腕的实测成果，给了xLLM团队极大的信心，国产化自研路线完全可行。一个新的命题随之而来：一项原生技术，如何真正走出代码，走进真实产业场景？开源，成了唯一也是最佳的答案。

2025年8月，xLLM正式在Github开源，开放给全行业共同使用和创新。但上传源代码只是开始，真正的挑战是如何被开发者用起来，吸引更多的人参与到项目中，甚至成为社区贡献者？

深耕产业多年的刘童璇，十分清楚技术研发与业务落地之间，存在巨大的gap。比如说，产业生产环境复杂多变、需求碎片化，对框架的稳定性要求极致严苛；开发者从早已习惯成熟的CUDA生态向国产CANN生态切换时普遍存在成本顾虑。

这些问题不解决，xLLM在开源社区的竞争力和生命力就无从谈起。

下定决心做大生态，xLLM走出了最为关键的三步：

第一步，性能，性能，还是性能。

刘童璇认为，推理引擎的性能是芯片厂商、模型厂商与行业客户都最在意的指标，也是推理引擎最刚性的竞争力所在。以国产芯片厂商为例，都以客户需求为导向，需要适配各家企业的私有框架，多数框架无法释放国产芯片极致算力，导致国产硬件空有硬件底座，却难以跑出匹配产业需求的推理效率。

xLLM始终将性能优化作为核心底色，持续压缩推理时延、拉高吞吐上限，坚定冲刺1毫秒以下超低推理耗时目标，在生成式推荐、大模型对话、多模态生成、工业智能巡检等刚需场景中，实现数十倍的性能提升。团队主动联动头部模型厂商，首发适配GLM4.6V、GLM4.7等主流国产模型，让各类国产大模型都能在国产芯片上释放最优性能。

第二步，得到来自真实业务验证的能力背书。

开源技术的最大短板，在于缺少大规模线上生产环境的打磨。纯实验室、纯社区驱动的框架，一旦落地到复杂集群、低容错的产业场景中，可能出现各类问题，这也是产业用户不敢直接使用开源版本的顾虑。

xLLM与生俱来的优势，就是诞生于产业，依托海量真实业务场景完成全链路打磨。相较于传统推荐模型，新一代大模型结构的生成式推荐模型泛化能力更强，能够显著提升商品推荐精准度与用户购买转化率。但大模型的超大参数，也导致推理耗时激增，并发承载困难，严重制约产业落地。xLLM将超大模型的推理时延极致压缩，拉升电商转化率的同时，机器硬件成本降低90%。

与此同时，这套方案已经成为众多运营商、大型央国企、互联网企业的选择。

第三步，依托昇腾生态，打通技术落地的推广gap。

xLLM立项之初便原生适配昇腾CANN体系，消解了生态迁移成本，彻底解决了行业最头疼的兼容适配难题，大幅降低全产业落地门槛，迅速融入国产算力核心生态体系，双方合力打造标准化行业解决方案。昇腾成熟的产业渠道、客户体系、生态伙伴资源，为xLLM提供了广阔的落地场景。如今，xLLM已广泛落地电力、能源、政务、交通等关键领域。

当昇腾依托开源的xLLM框架，将大模型推理能力封装进智能一体机，成功部署至边远地区电站并落地电力智能巡检场景时，刘童璇深刻感受到了代码守护国计民生的力量。

xLLM从一株悬崖边的崖柏，乘开源之风，聚开发者之力，成长成一片产学研用共同参与的森林。xLLM的成长过程，也是填平技术与产业断层、加速国产AI生态起飞的过程，中国的AI产业已为迎接智能体与万亿Token时代的全面爆发做好了准备。

xLLM推理引擎，推动国产模型与国产芯片的适配，让行业AI应用牢牢扎根在自主创新的算力底座之上，为智能体时代的到来筑实了根基。

如今，多模态普及、智能体自主协同、亿级超长上下文场景落地，正在倒逼整个推理体系重构。刘童璇认为，国产推理引擎必须解决几个新的难题，一是延迟。智能体连续决策、实时交互、生成式推荐等场景，1毫秒以下甚至百微秒级超低延迟成为产业标配，对推理时延提出极致要求。二是全模态。AI应用从单一文本生成，走向图文、音视频、三维内容融合的全模态时代，推理框架必须支持全模态的输入输出能力。三是亿级上下文。行业向亿级超长上下文演进，对推理系统形成全新考验。

万亿Token带来了行业的结构性机遇，而抓住机遇的前提，是应对好技术趋势对推理架构的挑战。生态共建，成为中国AI破解所有难题的关键。

国产算力、模型与AI人才，是驱动国内产业智能化必不可少的三驾马车。生态能够汇聚不同芯片厂商、模型团队、行业开发者共同参与，持续缩小与海外AI软硬件的差距。此外，单一团队、单一企业无法承接时代级的产业变革，国产AI人才是千行百业应用创新的源头。

因此，xLLM一方面深度联动清华、北大、北航、中科大、北邮、天大等十余所顶尖高校，联动数十位高校导师、近五十名实习生共建研发。同时，联合昇腾生态，打造社区+高校+产业三位一体的人才培育体系，在华为ICT大赛等官方赛事，抛出“百微秒级推理耗时优化”等产业命题，鼓励青年开发者在实战中锤炼能力，挖掘具备产业潜力的创新人才。后续，xLLM社区将持续加大开放力度，降低参与门槛，通过任务拆解、规划公开、轻量化入局的模式，让学生开发者、中小企业研发团队，即使没有庞大算力与人力资源，也能参与到国产AI技术的发展中来。

曾经空白的国产推理引擎，已根深叶茂；曾经贫瘠的国产算力，已厚植沃土；曾经各自为战的国产AI生态，也有了根系交织、生机盎然的景象。当我们站在智能体AI时代的大门之前，终于有了底气。

每一个开发者，都是中国AI产业的种子，扎根在各自的领域与岗位，让国产软硬件生根发芽。当无数应用之花在行业绽放，时间将会铭记，这是所有中国开发者用一行行代码写就的，不屈的春天。

那就用《种子的梦》来结尾吧：

为了冲破那土层的压力，

我一点一滴地积攒着力气。

我思念那明媚的阳光，

我思念那辽阔的大地……