
外卖巨头美团发布了 Longcat Flash
模型,其性能可与 DeepSeek V3 和 Gemini 2.5 Flash 相媲美。该模型是开源的,其权重和源代码均在 MIT
许可证 (MIT license) 下发布。
LongCat-Flash-Chat
已登陆 Huggingface。
传送门:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
5600 亿总参数 | 186 亿至 313 亿动态激活 基于 20 万亿 Tokens 训练 性能出色
该模型的技术报告内容详实,包含大量细节。
技术报告:https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
全新架构
零计算专家 (Zero-computation experts) 让路由器可以跳过对简单 token 的处理,从而将额外的计算资源用于处理更难的 tokens。 带有 PID 式控制器的专家偏置,可以稳定每个 token 对应的平均活跃专家数量。 负载均衡损失 (Load-balance loss) 将 token 分散到不同设备上,并将所有零专家视为一个组,以确保公平性。 快捷连接的混合专家模型 (Shortcut-connected MoE) 将密集前馈网络 (dense FFN) 的计算与 MoE 的通信过程重叠,从而将通信开销隐藏在实际计算中。 单批次重叠推理管线 (Single Batch Overlap inference pipeline) 可以重叠 NVLink 和 RDMA 的路径,使每个输出 token 的时间 (TPOT) 几乎减半。 方差对齐 (Variance alignment) 通过缩放两个注意力路径来均衡其数值幅度,从而在模型宽度较大时稳定训练过程。 细粒度专家 (Fine-grained experts) 通过一个标量进行方差补偿,以恢复正确的初始化规模。 超参数迁移 (Hyperparameter transfer) 将代理模型的设置扩展到大宽度模型,避免了昂贵的完整超参数搜索。 模型增长初始化 (Model growth initialization) 将半深度模型的检查点堆叠成全深度模型,以实现更平滑的收敛。他们首先训练一个尺寸减半的模型,然后在“训练充分后”(原文此处未明确指出具体是多少 Bilions tokens),通过直接堆叠较小模型的层来初始化最终模型。 隐藏 z-loss (Hidden z-loss) 抑制了 BF16 格式下出现的巨大激活值,防止了损失尖峰。 在 Adam 优化器中设置极小的 epsilon 值 (1e-16),使得优化器在超大批量下仍能保持自适应性。 采用单个密集 MTP 头的推测解码 (Speculative decoding),以较低的参数成本达到了约 90% 的接受率。 多头潜在注意力 (Multi-head Latent Attention) 能够高效压缩 KV 缓存,大幅减少了 KV 的 I/O 和存储开销。 自定义核函数和量化技术(分块量化和 FP8)在不损失质量的前提下,提升了推理效率。
但这个模型之所以如此引人注目,是因为它并非出自一家 AI 优先的公司。美团最初是一个团购网站,如今以其外卖服务而闻名。
美团提供广泛的本地消费服务,包括外卖及相关的即时配送服务、到店餐饮、酒店和旅游预订,以及社区电商、生鲜配送、网约车、共享单车和消费信贷等多种新业务。
目前,美团已成为中国最大的平台之一,拥有超过 7.7 亿年活跃交易用户和数百万商户,其目标是让人们“吃得更好,生活更好”。
一家外卖公司竟能打造出接近行业顶尖水平的模型,这充分展示了中国 AI 生态系统的深厚实力。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!