Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

量子位 2025-09-10 18:01

金磊发自凹非寺
量子位 | 公众号 QbitAI

全球最快的开源大模型来了——速度达到了每秒2000个tokens！

虽然只有320亿参数（32B），吞吐量却是超过典型GPU部署的10倍以上的那种。

资讯配图

它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学（MBZUAI）和初创公司G42 AI合作推出的K2 Think。

名字是不是有点熟悉？

没错，它和月之暗面前不久推出的Kimi K2在命名上是有点小撞车，不过阿联酋这个多了个“Think”。

但非常有意思的一点是，在K2 Think的背后，确实有“made in China”的味道。

因为从HuggingFace中的Model tree来看，K2 Think是基于Qwen 2.5-32B打造的：

资讯配图

而且“全球最快开源AI模型”之外，MBZUAI官方还称自家的K2 Think是“有史以来最先进的开源 AI 推理系统”。

那么它的实力到底几何？我们继续往下看。

实测速度均超过2000 tokens/秒

目前，K2 Think已经给出了可以体验的地址（见文末）。

我们先小试牛刀测试一把IMO的试题：

Let a_n = 6^n + 8^n. Determine the remainder when dividing a_{83} by 49.

资讯配图

可以肉眼看到，在没有任何加速的情况下，K2 Think在思考过后输出答案的速度，真的就是“啪的一下”。

从底部给出的速度来看，已经达到了2730.4 tokens/秒。

资讯配图

接下来，我们用中文来测试一个经典问题：

Strawberry这个单词里面有几个字母R？

资讯配图

速度依旧保持在了2224.7 tokens/秒，并且给出了正确答案：3个R。

资讯配图

我们再来实测几道AIME 2025的数学题：

Find the sum of all integer bases $b>9$ for which $17_{b}$ is a divisor of $97_{b}$.

资讯配图

Find the number of ordered pairs $(x,y)$, where both $x$ and $y$ are integers between $-100$ and $100$, inclusive, such that $12x^{2}-xy-6y^{2}=0$.

资讯配图

可以看到，K2 Think最大特点就是所有问题均能保持在超过2000 tokens/秒的速度，并且就目前实测结果来看，生成的答案均是正确。

但从功能角度来看，目前K2 Think还不支持文档传输，以及多模态等能力。

不过MBZUAI的高级研究员Taylor W. Killian在X上也给出了解释：

这个模型主要为数学推理而开发。

资讯配图

技术报告也已发布

从体量上来看，K2 Think仅有32B，但官方却表示，它已经可以与OpenAI和DeepSeek旗舰推理模型的性能相当。

资讯配图

从测试结果来看，K2 Think在多项数学基准测试中，拿下了较为理想的分数，例如AIME’24 90.83分、AIME’25 81.24分、HMMT25 73.75分，以及Omni-MATH-HARD上取得60.73分的成绩。

资讯配图

并且K2 Think团队已经发布技术报告：

资讯配图

从整体来看，K2 Think团队主要从六个方面做到了技术创新：

资讯配图

长链路思维的监督微调（SFT）：通过精心设计的链式推理数据，训练模型逐步思考，而不是直接给答案，使其在复杂问题上更有条理。
可验证奖励的强化学习（RLVR）：模型不是依赖人类偏好打分，而是直接以答案对错为奖励信号，显著提升数学、逻辑等领域的表现。
推理前的智能规划（Plan-Before-You-Think）：先让一个规划代理提炼问题要点，制定解题大纲，再交给模型展开详细推理，就像人类先列提纲再解题一样。
推理时扩展（Best-of-N采样）：对同一问题生成多个答案，再挑选最佳结果，从而提高正确率。
推测解码（Speculative Decoding）：在推理时并行生成和验证答案，减少冗余计算，加速输出。
硬件加速（Cerebras WSE晶圆级引擎）：依托全球最大的单芯片计算平台，实现单请求每秒超2000 tokens的生成速度，使长链路推理也能保持流畅的交互体验。

与此同时，研究团队还对K2 Think进行了系统的安全测试，包括拒绝有害请求、多轮对话鲁棒性、防止信息泄露和越狱攻击等，整体达到了较高水平。

资讯配图

那么你也想尝鲜一下目前世界最快开源AI模型的速度吗？链接放下面喽，感兴趣的小伙伴快去体验吧~

体验地址：
https://www.k2think.ai/

技术报告：
https://k2think-about.pages.dev/assets/tech-report/K2-Think_Tech-Report.pdf

参考链接：
[1]https://www.k2think.ai/k2think
[2]https://x.com/mbzuai/status/1965386234559086943
[3]https://huggingface.co/LLM360/K2-Think
[4]https://venturebeat.com/ai/k2-think-arrives-from-uae-as-worlds-fastest-open-source-ai-model
[5]https://www.youtube.com/watch?v=8C6_B1QeyBo

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属AI产品从业者的实名社群，只聊AI产品最落地的真问题 资讯配图

资讯配图

扫码添加小助手，发送「姓名+公司+职位」申请入群～

资讯配图

进群后，你将直接获得：

👉 最新最专业的AI产品信息及分析 🔍

👉 不定期发放的热门产品内测码 🔥

👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

开源

more

美团开源的LongCat有这么多技术细节！附实测案例

机智流 1周前

美团开源的LongCat有这么多技术细节！附实测案例

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

量子位 1天前

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

中国开源AI下载量年底登顶Hugging Face，美国首次被甩开，a16z合伙人惊爆：80%美国AI创业公司，都在用中国大模型

智能情报所 1天前

中国开源AI下载量年底登顶Hugging Face，美国首次被甩开，a16z合伙人惊爆：80%美国AI创业公司，都在用中国大模型

3999让机器人家务全包，抱抱脸联合创始人：开源YYDS！

量子位 5天前

3999让机器人家务全包，抱抱脸联合创始人：开源YYDS！

突破性开源具身模型EO-1问世：统一感知与行动，机器人拥有“多模态大脑”

具身进化 2天前

突破性开源具身模型EO-1问世：统一感知与行动，机器人拥有“多模态大脑”

智源研究院携手联合国、GOSIM共同举办“可持续发展大会”，凝聚全球开源力量共探AI普惠全球

智源社区 1天前

智源研究院携手联合国、GOSIM共同举办“可持续发展大会”，凝聚全球开源力量共探AI普惠全球

π0.5开源了！！！

具身智能之心 3天前

π0.5开源了！！！

苹果深夜开源FastVLM，首词生成速度飙升85倍，浏览器就能跑实时视频字幕，LLaVA忌惮的对手来了？

智能情报所 1周前

苹果深夜开源FastVLM，首词生成速度飙升85倍，浏览器就能跑实时视频字幕，LLaVA忌惮的对手来了？

TPAMI 2025开源｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！

3D视觉工坊 5天前

TPAMI 2025开源｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！

超150名全球大咖齐聚杭州！顶尖研究院、科技巨头、高校精英引爆开源AI热潮，GOSIM HANGZHOU 2025即将揭幕

AI科技大本营 1周前

超150名全球大咖齐聚杭州！顶尖研究院、科技巨头、高校精英引爆开源AI热潮，GOSIM HANGZHOU 2025即将揭幕

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号