

还记得年初爆火的龙虾吗?这类可执行的智能体,正悄悄爬进产业,在实业场景里爆发。在鲲鹏昇腾开发者大会2026现场,给我一种不谈智能体直接落伍的感觉。

中科大团队让Agent担任机器化学家,自主啃下上万篇化学文献,甚至自主设计实验、优化方案,让科研不再是试错苦旅。
企业服务领域,过去分析师团队耗时半个月的行业研报、竞品分析与数据建模工作,如今数十个Agent协同分工,几天就能搞定。
而智能体的每一次自主决策、每一轮迭代优化,都在驱动Token消耗量攀升。万亿Token时代已经到来,所有行业、所有企业都不得不直面一场AI infra的能力大考:AI基础设施,我们真的准备好了吗?
一方面是业务场景的极致复杂度。在推荐、交互等极致低时延场景下,毫秒级的延迟差距能够直接影响到产品体验与市场竞争力,超低延迟、超高吞吐的推理需求成为刚需。
而与此同时,多数企业聚焦模型与应用层创新,却忽视了算力调度、推理优化等底层基建的决定性作用,AI infra的核心价值被低估。

在全行业机遇和挑战并存的关键期,我在大会现场深度采访了国产推理引擎xLLM项目负责人刘童璇。从这支扎根国产化赛道的技术团队身上,看到了AI infra的破局答案,也看到了托举智能中国的根源力量。
它孤独地站在那里
显得寂寞而又倔强
似乎即将倾跌进深谷里
却又像是要展翅飞翔……
——《悬崖边的树》

xLLM为什么特殊?海量Token的激增需求,叠加居高不下的算力成本、海外算力生态的不确定性,让算力优化成为AI落地的最关键问题。而推理引擎,下接硬件,通过深度优化来提升芯片的模型运行性能,压缩大模型的推理耗时;上接应用,高效承接万亿Token级的海量请求。
适配国产芯片、高性能的国产推理引擎寥寥无几。xLLM的出现,填补了行业空白。而这,源于一个悬崖边的选择。
时间拨回2024年下半年,xLLM立项之初,海外算力框架占据绝对主流,行业内几乎没有人愿意all in国产推理引擎的原生研发。当时,摆在xLLM团队面前的,是一道终极选择题:究竟是依附成熟的海外开源框架,简单适配国产芯片,做浅层增量改造,还是从零起步,原生自研一套纯国产推理引擎,走一条充满未知的绝壁之路。
xLLM团队做出了坚定的抉择,从零搭建全国产推理体系,不做混合适配、不依附海外框架,彻底扎根国产算力生态。
刘童璇反复而笃定地强调,如果直接在海外框架上支持国产芯片,会受到很大束缚,因为国产芯片生态与CUDA生态不同,优化手段也不一样。强行适配会受到已有框架的束缚,永远无法挖掘国产算力的极致性能。同时,企业做AI必须要有算力压舱石,唯有原生自研,才能真正为国产算力量身打造最优推理底座,也为企业业务提供可靠可持续的保障。

从零起步的抉择,换来的是极致的技术自由,却也伴随着难以想象的困境。
技术上的挑战首当其冲。国产芯片生态碎片化,各类国产芯片架构迥异,没有统一、通用的编程模型,无法复刻CUDA体系的成熟适配逻辑。同一大模型,需要针对不同芯片架构单独重写、深度调优,适配成本极高。更棘手的是,当时国产芯片在FP16、INT8等精度的支持不够,极易出现各类BUG,优化效果没人敢打包票。
同时,国内缺乏原生国产高性能推理引擎的通用方案,这支以95后工程师为核心的年轻团队,成员大多没有从0到1建立推理引擎的经验,面对复杂的底层架构设计与全链路优化工作,难免缺乏信心。
起步阶段,是整个研发周期中最艰难时期。面对悬崖绝境般的困境,团队放弃广撒网的适配思路,没有盲目铺开试水,集中锚定DeepSeekV3/R1模型,死磕单一模型的国产化推理优化。
于悬崖边扎根,在逆境中生长,xLLM恰如崖柏,展现出顽强的技术生命力。项目正式开源之前,团队终于对自建全国产推理引擎这件事有了信心。

一棵树,彼此孤离地兀立着……但在泥土的覆盖下,它们的根伸长着。在看不见的深处,它们把根须纠缠在一起——艾青《树》
认定全国产这条路能跑通的转折点,出现在项目开源之前的性能攻坚阶段。
在长达数月的全链路深耕与芯片联调后,xLLM的优化能力迎来了质的飞跃,将原本毫秒级的调度间隙压缩至百微秒以下,让国产硬件的性能得以极致释放。

在此之前,行业普遍感知到,国产芯片的性能与N卡存在天然差距,大约只有海外先进芯片的60%—70%。但xLLM彻底打破了这一认知。在同等模型、同等部署条件下,xLLM赋能昇腾芯片跑出的推理性能,能够达到H200的80%—90%。
在刘童璇看来,这一性能表现,是国产软硬件深度协同的系统性胜利。既源于xLLM框架层的架构革新与算法优化,也得益于与国产芯片厂商的紧密合作,优化涵盖了从上到下的整个链路,包括推理引擎框架层的优化和底层计算方法的改进。
比如说,昇腾CANN、Mind系列开源软件栈,具备完善的算子适配、模型兼容能力,能够高效匹配xLLM的自研架构,大幅降低原生推理引擎的适配成本与改造难度。
此外,xLLM也得到了昇腾社区的高效响应。双方建立了常态化深度协同机制,通过每周技术例会同步迭代进度、攻克技术难题,昇腾甚至派团队常驻亦庄,与xLLM团队联合办公,从方案打磨、技术攻坚到场景落地全流程共建,实现技术迭代无缝衔接。
结果就是,xLLM的原生架构设计与昇腾超节点的技术特性高度契合,形成独一无二的软硬协同优势,基于昇腾在推理性能上获得更优表现,在分布式推理、高并发吞吐场景下,能实现性能最大化。

随后,xLLM逐步完成了其他主流国产芯片的深度适配与优化,以及与DeepSeek、Qwen、GLM等头部模型厂商的深度协同。
通过推理引擎,零散的国产芯片厂商、技术团队、模型生态被串联在一起,根系相连,能力互补,形成产业合力。可以说,xLLM的性能突破之路,也是国产AI生态聚力共生、聚木成林的一个缩影。
与国际顶尖硬件掰手腕的实测成果,给了xLLM团队极大的信心,国产化自研路线完全可行。一个新的命题随之而来:一项原生技术,如何真正走出代码,走进真实产业场景?开源,成了唯一也是最佳的答案。

2025年8月,xLLM正式在Github开源,开放给全行业共同使用和创新。但上传源代码只是开始,真正的挑战是如何被开发者用起来,吸引更多的人参与到项目中,甚至成为社区贡献者?

深耕产业多年的刘童璇,十分清楚技术研发与业务落地之间,存在巨大的gap。比如说,产业生产环境复杂多变、需求碎片化,对框架的稳定性要求极致严苛;开发者从早已习惯成熟的CUDA生态向国产CANN生态切换时普遍存在成本顾虑。
这些问题不解决,xLLM在开源社区的竞争力和生命力就无从谈起。
下定决心做大生态,xLLM走出了最为关键的三步:
第一步,性能,性能,还是性能。
刘童璇认为,推理引擎的性能是芯片厂商、模型厂商与行业客户都最在意的指标,也是推理引擎最刚性的竞争力所在。以国产芯片厂商为例,都以客户需求为导向,需要适配各家企业的私有框架,多数框架无法释放国产芯片极致算力,导致国产硬件空有硬件底座,却难以跑出匹配产业需求的推理效率。
xLLM始终将性能优化作为核心底色,持续压缩推理时延、拉高吞吐上限,坚定冲刺1毫秒以下超低推理耗时目标,在生成式推荐、大模型对话、多模态生成、工业智能巡检等刚需场景中,实现数十倍的性能提升。团队主动联动头部模型厂商,首发适配GLM4.6V、GLM4.7等主流国产模型,让各类国产大模型都能在国产芯片上释放最优性能。
第二步,得到来自真实业务验证的能力背书。
开源技术的最大短板,在于缺少大规模线上生产环境的打磨。纯实验室、纯社区驱动的框架,一旦落地到复杂集群、低容错的产业场景中,可能出现各类问题,这也是产业用户不敢直接使用开源版本的顾虑。
xLLM与生俱来的优势,就是诞生于产业,依托海量真实业务场景完成全链路打磨。相较于传统推荐模型,新一代大模型结构的生成式推荐模型泛化能力更强,能够显著提升商品推荐精准度与用户购买转化率。但大模型的超大参数,也导致推理耗时激增,并发承载困难,严重制约产业落地。xLLM将超大模型的推理时延极致压缩,拉升电商转化率的同时,机器硬件成本降低90%。
与此同时,这套方案已经成为众多运营商、大型央国企、互联网企业的选择。
第三步,依托昇腾生态,打通技术落地的推广gap。
xLLM立项之初便原生适配昇腾CANN体系,消解了生态迁移成本,彻底解决了行业最头疼的兼容适配难题,大幅降低全产业落地门槛,迅速融入国产算力核心生态体系,双方合力打造标准化行业解决方案。昇腾成熟的产业渠道、客户体系、生态伙伴资源,为xLLM提供了广阔的落地场景。如今,xLLM已广泛落地电力、能源、政务、交通等关键领域。

当昇腾依托开源的xLLM框架,将大模型推理能力封装进智能一体机,成功部署至边远地区电站并落地电力智能巡检场景时,刘童璇深刻感受到了代码守护国计民生的力量。
xLLM从一株悬崖边的崖柏,乘开源之风,聚开发者之力,成长成一片产学研用共同参与的森林。xLLM的成长过程,也是填平技术与产业断层、加速国产AI生态起飞的过程,中国的AI产业已为迎接智能体与万亿Token时代的全面爆发做好了准备。

xLLM推理引擎,推动国产模型与国产芯片的适配,让行业AI应用牢牢扎根在自主创新的算力底座之上,为智能体时代的到来筑实了根基。
如今,多模态普及、智能体自主协同、亿级超长上下文场景落地,正在倒逼整个推理体系重构。刘童璇认为,国产推理引擎必须解决几个新的难题,一是延迟。智能体连续决策、实时交互、生成式推荐等场景,1毫秒以下甚至百微秒级超低延迟成为产业标配,对推理时延提出极致要求。二是全模态。AI应用从单一文本生成,走向图文、音视频、三维内容融合的全模态时代,推理框架必须支持全模态的输入输出能力。三是亿级上下文。行业向亿级超长上下文演进,对推理系统形成全新考验。
万亿Token带来了行业的结构性机遇,而抓住机遇的前提,是应对好技术趋势对推理架构的挑战。生态共建,成为中国AI破解所有难题的关键。

国产算力、模型与AI人才,是驱动国内产业智能化必不可少的三驾马车。生态能够汇聚不同芯片厂商、模型团队、行业开发者共同参与,持续缩小与海外AI软硬件的差距。此外,单一团队、单一企业无法承接时代级的产业变革,国产AI人才是千行百业应用创新的源头。
因此,xLLM一方面深度联动清华、北大、北航、中科大、北邮、天大等十余所顶尖高校,联动数十位高校导师、近五十名实习生共建研发。同时,联合昇腾生态,打造社区+高校+产业三位一体的人才培育体系,在华为ICT大赛等官方赛事,抛出“百微秒级推理耗时优化”等产业命题,鼓励青年开发者在实战中锤炼能力,挖掘具备产业潜力的创新人才。后续,xLLM社区将持续加大开放力度,降低参与门槛,通过任务拆解、规划公开、轻量化入局的模式,让学生开发者、中小企业研发团队,即使没有庞大算力与人力资源,也能参与到国产AI技术的发展中来。
曾经空白的国产推理引擎,已根深叶茂;曾经贫瘠的国产算力,已厚植沃土;曾经各自为战的国产AI生态,也有了根系交织、生机盎然的景象。当我们站在智能体AI时代的大门之前,终于有了底气。

每一个开发者,都是中国AI产业的种子,扎根在各自的领域与岗位,让国产软硬件生根发芽。当无数应用之花在行业绽放,时间将会铭记,这是所有中国开发者用一行行代码写就的,不屈的春天。
那就用《种子的梦》来结尾吧:
为了冲破那土层的压力,
我一点一滴地积攒着力气。
我思念那明媚的阳光,
我思念那辽阔的大地……