性能超DeepSeek-V3.2！国产大模型又开源了，限时免费用

性能超DeepSeek-V3.2！国产大模型又开源了，限时免费用图1

100亿激活参数！MiniMax开源新模型M2，全球开源模型综合第一。

作者 | 李水青

编辑 | 心缘

智东西10月27日报道，刚刚，MiniMax发布并开源MiniMax-M2，一款为Max可视化编程和智能体工作流构建的轻量级模型。

▲MiniMax-M2在Hugging Face的开源界面截图

MiniMax-M2聚焦智能体的效率提升，是一款总参数达2300亿个的MoE（混合专家）模型，其中活跃参数达100亿个，兼顾编程和智能体任务以及通用智能。

在权威基准测评中，MiniMax-M2的测试成绩赶超Gemini 2.5 Pro、DeepSeek-V3.2等领先模型，接近GPT-5（thinking）模型性能，据称可提供匹敌这些模型的端到端工具使用性能，同时部署和扩展更便捷。

▲MiniMax-M2的基准测试概况

具体来看，MiniMax-M2有以下几大亮点：

1、智能提升。根据知名分析机构Artificial Analysis的基准测试，MiniMax-M2在数学、科学、指令遵循、编程和智能体工具使用方面展现出具竞争力的通用智能。其综合得分在全球开源模型中排名第一。

2、高级编程。MiniMax-M2专为端到端开发人员工作流程而设计，擅长多文件编辑、编码-运行-修复循环以及测试验证修复。在Terminal-Bench和（Multi-）SWE-Bench风格的任务中展现了其在跨语言终端、IDE和CI中的实用有效性。

3、智能体性能。MiniMax-M2能够规划并执行跨Shell、浏览器、检索和代码运行器的复杂、长周期工具链。在类似BrowseComp的评估中，它能够持续定位难以发现的漏洞来源，保持证据的可追溯性，并优雅地从不稳定的步骤中恢复。

4、高效设计。MiniMax-M2拥有100亿个激活参数，可为交互式智能体和批量采样提供更低的延迟、更低的成本和更高的吞吐量，这与向高度可部署的模型转变契合，这些模型在编程和智能体任务中仍然表现出色。

以下更全面的评估测试了端到端编程和智能体工具的使用情况，涉及编辑真实的代码库、执行命令、浏览网页以及交付实用的解决方案等方面。MiniMax-M2在Multi-SWE-Bench、Terminal-Bench、ArtifactsBench、BrowseComp等多项测试中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等顶尖模型。

▲MiniMax-M2的基准测试具体情况

Artificial Analysis统计的基准测试如下，MiniMax-M2在LiveCodeBench（LCB）、IFBench、AA Intelligence等多项测试中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等顶尖模型。

▲Artificial Analysis基准测试具体情况

目前，用户可以在MiniMax Agent上体验MiniMax-M2，在限定时间内免费用。

▲MiniMax Agent限免使用

体验地址：

https://agent.minimax.io/

智东西第一时间对MiniMax-M2进行了体验，当输入提示词：“模拟一个旋转六边形内弹跳球。”MiniMax-M2能够成功实现这一物理模拟，且提供了比较直观的小球轨迹效果及参数控制面板设计。这期间等待数分钟，主要是其调用智能体对基本控制功能、面板参数调试、高级功能、网站显示等进行了数次的测试调试。