美团发布 Longcat Flash 模型，性能媲美 Deepseek V3 与 Gemini Flash 2.5

外卖巨头美团发布了 Longcat Flash 模型，其性能可与 DeepSeek V3 和 Gemini 2.5 Flash 相媲美。该模型是开源的，其权重和源代码均在 MIT 许可证 (MIT license) 下发布。

LongCat-Flash-Chat 已登陆 Huggingface。

传送门：https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

5600 亿总参数 | 186 亿至 313 亿动态激活
基于 20 万亿 Tokens 训练
性能出色

该模型的技术报告内容详实，包含大量细节。

技术报告：https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

全新架构

零计算专家 (Zero-computation experts) 让路由器可以跳过对简单 token 的处理，从而将额外的计算资源用于处理更难的 tokens。
带有 PID 式控制器的专家偏置，可以稳定每个 token 对应的平均活跃专家数量。
负载均衡损失 (Load-balance loss) 将 token 分散到不同设备上，并将所有零专家视为一个组，以确保公平性。
快捷连接的混合专家模型 (Shortcut-connected MoE) 将密集前馈网络 (dense FFN) 的计算与 MoE 的通信过程重叠，从而将通信开销隐藏在实际计算中。
单批次重叠推理管线 (Single Batch Overlap inference pipeline) 可以重叠 NVLink 和 RDMA 的路径，使每个输出 token 的时间 (TPOT) 几乎减半。
方差对齐 (Variance alignment) 通过缩放两个注意力路径来均衡其数值幅度，从而在模型宽度较大时稳定训练过程。
细粒度专家 (Fine-grained experts) 通过一个标量进行方差补偿，以恢复正确的初始化规模。
超参数迁移 (Hyperparameter transfer) 将代理模型的设置扩展到大宽度模型，避免了昂贵的完整超参数搜索。
模型增长初始化 (Model growth initialization) 将半深度模型的检查点堆叠成全深度模型，以实现更平滑的收敛。他们首先训练一个尺寸减半的模型，然后在“训练充分后”（原文此处未明确指出具体是多少 Bilions tokens），通过直接堆叠较小模型的层来初始化最终模型。
隐藏 z-loss (Hidden z-loss) 抑制了 BF16 格式下出现的巨大激活值，防止了损失尖峰。
在 Adam 优化器中设置极小的 epsilon 值 (1e-16)，使得优化器在超大批量下仍能保持自适应性。
采用单个密集 MTP 头的推测解码 (Speculative decoding)，以较低的参数成本达到了约 90% 的接受率。
多头潜在注意力 (Multi-head Latent Attention) 能够高效压缩 KV 缓存，大幅减少了 KV 的 I/O 和存储开销。
自定义核函数和量化技术（分块量化和 FP8）在不损失质量的前提下，提升了推理效率。

但这个模型之所以如此引人注目，是因为它并非出自一家 AI 优先的公司。美团最初是一个团购网站，如今以其外卖服务而闻名。

美团提供广泛的本地消费服务，包括外卖及相关的即时配送服务、到店餐饮、酒店和旅游预订，以及社区电商、生鲜配送、网约车、共享单车和消费信贷等多种新业务。

目前，美团已成为中国最大的平台之一，拥有超过 7.7 亿年活跃交易用户和数百万商户，其目标是让人们“吃得更好，生活更好”。

一家外卖公司竟能打造出接近行业顶尖水平的模型，这充分展示了中国 AI 生态系统的深厚实力。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！