美团发布 Longcat Flash 模型,性能媲美 Deepseek V3 与 Gemini Flash 2.5

智能情报所 2025-09-02 15:47
资讯配图

外卖巨头美团发布了 Longcat Flash 模型,其性能可与 DeepSeek V3 和 Gemini 2.5 Flash 相媲美。该模型是开源的,其权重和源代码均在 MIT 许可证 (MIT license) 下发布。

LongCat-Flash-Chat 已登陆 Huggingface。

传送门:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

  • 5600 亿总参数 | 186 亿至 313 亿动态激活
  • 基于 20 万亿 Tokens 训练
  • 性能出色

该模型的技术报告内容详实,包含大量细节。

技术报告:https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

全新架构

  • 零计算专家 (Zero-computation experts) 让路由器可以跳过对简单 token 的处理,从而将额外的计算资源用于处理更难的 tokens。
  • 带有 PID 式控制器的专家偏置,可以稳定每个 token 对应的平均活跃专家数量。
  • 负载均衡损失 (Load-balance loss) 将 token 分散到不同设备上,并将所有零专家视为一个组,以确保公平性。
  • 快捷连接的混合专家模型 (Shortcut-connected MoE) 将密集前馈网络 (dense FFN) 的计算与 MoE 的通信过程重叠,从而将通信开销隐藏在实际计算中。
  • 单批次重叠推理管线 (Single Batch Overlap inference pipeline) 可以重叠 NVLink 和 RDMA 的路径,使每个输出 token 的时间 (TPOT) 几乎减半。
  • 方差对齐 (Variance alignment) 通过缩放两个注意力路径来均衡其数值幅度,从而在模型宽度较大时稳定训练过程。
  • 细粒度专家 (Fine-grained experts) 通过一个标量进行方差补偿,以恢复正确的初始化规模。
  • 超参数迁移 (Hyperparameter transfer) 将代理模型的设置扩展到大宽度模型,避免了昂贵的完整超参数搜索。
  • 模型增长初始化 (Model growth initialization) 将半深度模型的检查点堆叠成全深度模型,以实现更平滑的收敛。他们首先训练一个尺寸减半的模型,然后在“训练充分后”(原文此处未明确指出具体是多少 Bilions tokens),通过直接堆叠较小模型的层来初始化最终模型。
  • 隐藏 z-loss (Hidden z-loss) 抑制了 BF16 格式下出现的巨大激活值,防止了损失尖峰。
  • 在 Adam 优化器中设置极小的 epsilon 值 (1e-16),使得优化器在超大批量下仍能保持自适应性。
  • 采用单个密集 MTP 头的推测解码 (Speculative decoding),以较低的参数成本达到了约 90% 的接受率。
  • 多头潜在注意力 (Multi-head Latent Attention) 能够高效压缩 KV 缓存,大幅减少了 KV 的 I/O 和存储开销。
  • 自定义核函数和量化技术(分块量化和 FP8)在不损失质量的前提下,提升了推理效率。

但这个模型之所以如此引人注目,是因为它并非出自一家 AI 优先的公司。美团最初是一个团购网站,如今以其外卖服务而闻名。

美团提供广泛的本地消费服务,包括外卖及相关的即时配送服务、到店餐饮、酒店和旅游预订,以及社区电商、生鲜配送、网约车、共享单车和消费信贷等多种新业务。

目前,美团已成为中国最大的平台之一,拥有超过 7.7 亿年活跃交易用户和数百万商户,其目标是让人们“吃得更好,生活更好”。

一家外卖公司竟能打造出接近行业顶尖水平的模型,这充分展示了中国 AI 生态系统的深厚实力。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
EMI
more
PaddleMIX推出扩散模型推理加速Fast-Diffusers:自研蒸馏加速方法FLUX-Lightning实现4步图像生成
【技术博客】掌握 PCB 设计中的 EMI 控制之如何设计低 EMI 的 PCB
马斯克称特斯拉Semi将在明年开始大批量生产
记忆功能成新战场,谷歌Gemini、Anthropic Claude联手狙击OpenAI,网友:终于不用从头再来了
谷歌放大招:学生免费用一年Gemini Pro!学生党的终极学习外挂已上线
博思特携手双子智擎发布GeminiBot A1
SEMI:HBM渗透率25%是转折点
SEMI-e 深圳国际半导体展半导体核心零部件产品合集:杰为科技、甲冠半导体、芯密科技、明睿陶瓷、槃实科技
再见了,Photoshop!谷歌发布 Gemini 2.5 Flash Image (纳米香蕉):一句话P图让Adobe彻底沉默
谷歌 Gemini 月处理 token 量或已突破 1000 万亿:为何这个数字超乎你的想象
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号