【科技纵览】昨夜,一则消息在各大科技平台迅速发酵:美团正式开源了拥有1.6万亿参数的LongCat-2.0大模型。这一动作之所以引发行业震动,核心在于其完整的训练与推理流程,均是在国产算力集群上独立完成的。众所周知,大模型的开发涵盖预训练、后训练及推理三个阶段,其中预训练的技术门槛最高。此前,国产芯片主要应用于推理环节,而此次美团实现了从预训练到推理的全链路国产化,使得LongCat-2.0成为首个在国产算力集群上成功跑通的万亿参数模型。在此之前,科大讯飞的讯飞星火V3.5曾是国产算力上跑通的千亿级模型代表,但并未触及万亿规模。

尽管美团官方未公开具体芯片型号,但据“数智前线”披露,该模型是在昇腾5万卡集群上完成全流程训练的。早在今年6月5日,美团便携带LongCat-2.0预览版亮相华为云首届INSPIRE创想者大会,重点展示了其在代码生成(Coding)和智能体领域的潜力。
一个值得深思的问题是,为何率先实现这一突破的是美团,而非以技术激进著称的DeepSeek?这背后折射出不同企业在战略定位、资源调配及商业考量上的差异。据媒体报道,DeepSeek今年推出的V4模型,其训练仍依赖于英伟达CUDA生态,仅在推理端适配了华为昇腾等国产平台。这种取舍源于DeepSeek对前沿模型能力的极致追求,以及对其既有算力与软件栈积累的依赖,其护城河在于极高的训练效率。
相比之下,美团作为场景驱动的互联网巨头,出于供应链安全的长远考量,选择了更为艰难但自主可控的路径。王兴曾公开支持华为自研芯片路线,美团也是最早拥抱鸿蒙生态的企业之一。据悉,LongCat团队自2023年起便开始深耕国产算力,是昇腾最大的互联网客户之一。面对算法生态相对匮乏、显存容量较小且带宽较窄的国产芯片环境,美团团队从零构建技术栈,攻克了算子适配、通信优化及分布式稳定性等基础难题。
在训练侧,美团自研了覆盖Embedding、FA、LSA、MoE等多个确定性算子,并重写了一系列基础算子以提升数值可靠性;针对长上下文场景,还专门开发了确定性注意力算子与KL损失算子。在推理侧,Super Kernel与Weight Prefetch等技术同样体现了深度的算子层适配。这些能力在成熟的英伟达生态中往往唾手可得,但在国产平台上则需从头打磨。美团在介绍中特别强调,预训练在5万余张国产芯片上耗时月余,消费超过35万亿tokens,全程无回滚、无不可恢复的loss突刺,这正是其工程实力的有力证明。值得注意的是,部分技术如LongCat稀疏注意力(LSA),明确标注是由DeepSeek的DSA演进而来,体现了技术迭代的继承性。
国产算力芯片正逐步从推理走向训练的核心地带。2023年,科大讯飞与华为成立“联合特战队”,基于昇腾构建了首个万卡国产算力平台“飞星一号”。2024年10月,“飞星二号”三万卡级集群启动,并于今年6月全面投产商用,主攻MoE稀疏万亿级基座等技术。阿里平头哥的真武系列PPU也在持续推进,2025年9月央视曝光了其万卡集群,2026年5月发布了新一代训推一体芯片真武M890。百度方面,昆仑芯3.4万卡集群于2025年4月亮相,支撑了文心5.1的训练,目前其IPO进程已进入“A+H”两地上市的关键阶段。
与此同时,寒武纪芯片虽未大规模参与大语言模型训练,但在具身智能领域找到了新试验场。2026年1月,摩尔线程联合北京智源研究院,使用千卡集群完成了参数量80亿的RoboBrain 2.5全流程训练。理想汽车等车企也在自研芯片,用于训练支撑具身智能应用的VLA模型。从万亿基座到具身小模型,国产算力正在多点开花。然而,有智算中心人士指出,要实现从训练到推理的全流程贯通,仍需芯片厂商与应用方的深度联合攻坚,这将是一个循序渐进的过程。