美团LongCat-2.0开源：国产算力首次跑通万亿参数预训练，工程突破背后的战略抉择

【科技纵览】昨夜，一则消息在各大科技平台迅速发酵：美团正式开源了拥有1.6万亿参数的LongCat-2.0大模型。这一动作之所以引发行业震动，核心在于其完整的训练与推理流程，均是在国产算力集群上独立完成的。众所周知，大模型的开发涵盖预训练、后训练及推理三个阶段，其中预训练的技术门槛最高。此前，国产芯片主要应用于推理环节，而此次美团实现了从预训练到推理的全链路国产化，使得LongCat-2.0成为首个在国产算力集群上成功跑通的万亿参数模型。在此之前，科大讯飞的讯飞星火V3.5曾是国产算力上跑通的千亿级模型代表，但并未触及万亿规模。

尽管美团官方未公开具体芯片型号，但据“数智前线”披露，该模型是在昇腾5万卡集群上完成全流程训练的。早在今年6月5日，美团便携带LongCat-2.0预览版亮相华为云首届INSPIRE创想者大会，重点展示了其在代码生成（Coding）和智能体领域的潜力。

一个值得深思的问题是，为何率先实现这一突破的是美团，而非以技术激进著称的DeepSeek？这背后折射出不同企业在战略定位、资源调配及商业考量上的差异。据媒体报道，DeepSeek今年推出的V4模型，其训练仍依赖于英伟达CUDA生态，仅在推理端适配了华为昇腾等国产平台。这种取舍源于DeepSeek对前沿模型能力的极致追求，以及对其既有算力与软件栈积累的依赖，其护城河在于极高的训练效率。

相比之下，美团作为场景驱动的互联网巨头，出于供应链安全的长远考量，选择了更为艰难但自主可控的路径。王兴曾公开支持华为自研芯片路线，美团也是最早拥抱鸿蒙生态的企业之一。据悉，LongCat团队自2023年起便开始深耕国产算力，是昇腾最大的互联网客户之一。面对算法生态相对匮乏、显存容量较小且带宽较窄的国产芯片环境，美团团队从零构建技术栈，攻克了算子适配、通信优化及分布式稳定性等基础难题。

在训练侧，美团自研了覆盖Embedding、FA、LSA、MoE等多个确定性算子，并重写了一系列基础算子以提升数值可靠性；针对长上下文场景，还专门开发了确定性注意力算子与KL损失算子。在推理侧，Super Kernel与Weight Prefetch等技术同样体现了深度的算子层适配。这些能力在成熟的英伟达生态中往往唾手可得，但在国产平台上则需从头打磨。美团在介绍中特别强调，预训练在5万余张国产芯片上耗时月余，消费超过35万亿tokens，全程无回滚、无不可恢复的loss突刺，这正是其工程实力的有力证明。值得注意的是，部分技术如LongCat稀疏注意力（LSA），明确标注是由DeepSeek的DSA演进而来，体现了技术迭代的继承性。

国产算力芯片正逐步从推理走向训练的核心地带。2023年，科大讯飞与华为成立“联合特战队”，基于昇腾构建了首个万卡国产算力平台“飞星一号”。2024年10月，“飞星二号”三万卡级集群启动，并于今年6月全面投产商用，主攻MoE稀疏万亿级基座等技术。阿里平头哥的真武系列PPU也在持续推进，2025年9月央视曝光了其万卡集群，2026年5月发布了新一代训推一体芯片真武M890。百度方面，昆仑芯3.4万卡集群于2025年4月亮相，支撑了文心5.1的训练，目前其IPO进程已进入“A+H”两地上市的关键阶段。

与此同时，寒武纪芯片虽未大规模参与大语言模型训练，但在具身智能领域找到了新试验场。2026年1月，摩尔线程联合北京智源研究院，使用千卡集群完成了参数量80亿的RoboBrain 2.5全流程训练。理想汽车等车企也在自研芯片，用于训练支撑具身智能应用的VLA模型。从万亿基座到具身小模型，国产算力正在多点开花。然而，有智算中心人士指出，要实现从训练到推理的全流程贯通，仍需芯片厂商与应用方的深度联合攻坚，这将是一个循序渐进的过程。