开源权重模型的新格局
开源权重模型的排行榜,答案只有一个:中国。
纵观 2025 年,中国实验室发布了一系列最强的开源权重语言模型,如今已在各大公开排行榜和商业工具中独占鳌头。

正在成为标准的中国模型
中国的开源人工智能攻势,正在演变为一场行业标准之争。DeepSeek 的 R1
模型和阿里巴巴的 Qwen
模型正吸引全球用户,而美国团队 OpenAI 则以 gpt-oss
作为回应。
华盛顿已开始担忧,一旦中国开源模型成为默认标准,北京就可能在贸易争端中,将这种影响力转化为关键筹码。
供应商们期望效仿安卓模式,先用免费核心构建生态,再通过捆绑搜索和应用商店等服务来实现后期盈利。
历史一再证明,最终成为标准的,往往不是纸面参数最强的技术,而是那些最易于获取、最便于修改的技术。可用性和灵活性至关重要。
一个月,8 款重量级模型发布
以下是清晰的时间线,每个链接都指向一手来源或模型卡片。
7月11日: 月之暗面的 Kimi-K2-Instruct,总参数 1 万亿,激活参数 320 亿,以开源权重形式在 Hugging Face 发布,上下文长度 128K 。 7月21日: Qwen3-235B-A22B-Instruct-2507,总参数 2350 亿,激活参数 220 亿,采用 Apache-2.0 许可证 。 7月22日: Qwen3-Coder-480B-A35B-Instruct,总参数 4800 亿的混合专家编码模型,采用 Apache-2.0 许可证。 7月25日: Qwen3-235B-A22B-Thinking-2507,专用推理变体,原生上下文长度 256K 。 7月28日: 智谱 AI 的 GLM-4.5 与 GLM-4.5 Air,分别拥有 3550 亿和 1060 亿总参数,采用 MIT 许可证,专为智能体应用设计。 7月30日: Qwen3-30B-A3B-Instruct-2507,总参数 305 亿,激活参数 33 亿,原生上下文长度 256K 。 7月31日: Qwen3-30B-A3B-Thinking-2507,推理优先的 300 亿参数混合专家模型,上下文长度 256K。 7月31日: Qwen3-Coder-30B-A3B-Instruct,精简的 300 亿参数规模编码模型,上下文长度 256K 。
西方开源权重模型的困境
Mistral 已将其大型开源混合专家(MoE)模型标记为旧版,战略重心转向小型的 Apache-2 模型。
Mixtral 8x7B
和 8x22B
模型预计在 2025 年初停用,这解释了为何我们再难看到西方的大型开源模型称霸 Arena 排行榜。
Llama 拥有庞大的生态系统,但本月在正面竞争中处境艰难,其主力模型 Maverick
和 Scout
分别排名 64 和 67。
一个不得不承认的现实是:在基于盲测的人类偏好中,西方的旗舰开源模型已不在第一梯队。
Gemma 是西方在单 GPU 或边缘设备上最实用的选择,但其 Gemma-3-27B-IT
模型排名 52 位。虽具备竞争力,但对中国的顶级模型构不成真正的威胁。
如何面对现实的选择
如果你坚持使用开源权重模型,并追求当前最高质量,那么 Qwen3-235B/30B
、Kimi-K2
或 GLM-4.5 / 4.5 Air
是你的首选。
如果你需要宽松的许可证和便捷的自托管方案,Mistral 和 Gemma 的小型模型仍是可靠选项。
但别指望它们能在盲测中胜过来自中国的模型,最新的 Arena 数据已将这一取舍展现得淋漓尽致。
用数据说话,拒绝凭感觉
截至 8 月 28 日,Arena 排行榜显示 Qwen3-235B-A22B-Instruct-2507
、Kimi-K2
和 GLM-4.5
雄踞榜首。

相比之下,Llama 4 Maverick
排名 64,Llama 4 Scout
排名 67,Gemma-3-27B-IT
排名 52,Mistral-small-2506
排名 42。
Mistral 的官方文档也确认,Mixtral
系列已被列为旧版并将在 2025 年初停用,印证了其战略重心的转移。
如何亲自验证排名
你可以随时访问 Chatbot Arena 总排行榜来亲自查证这些模型的实时表现。
在榜单中,请重点关注 “License”(许可证) 这一栏,它是区分模型是否开源的关键:
开源模型:通常会标注明确的许可证,如
Apache 2.0
,MIT
,等。
闭源模型:一般会标注为
Proprietary
。
结论
在真实的人类偏好测试中,无论从优势幅度还是一致性来看,中国的开源权重模型都正在全面胜出。
西方的开源模型家族在同样的榜单上已被远远甩开。如果你的目标是找到当下最强的开源模型,中国模型是唯一的选择。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!