谷歌开源DiffusionGemma，自送差评，速度却快4倍

新智元报道

谷歌开源DiffusionGemma，自送差评，速度却快4倍图2

【新智元导读】大厂发新模型，话术从来是「更强」。可谷歌这次的官方指南里写着：它不如自家旧款。

这一次开源DiffusionGemma，谷歌把「我不如我」写进了官方指南。

Google Gemma官方称DiffusionGemma是一个探索快速文本生成的实验性开源模型：

不再逐个token顺序处理，而是一次生成整段文本。

还在DiffusionGemma官方开发者指南中，自送一句「差评」。

谷歌说，这个模型基于自家前沿的Gemini Diffusion研究，主打生成速度，适合行内编辑、快速迭代、生成非线性文本结构这类对速度严苛的本地交互场景。至于高质量的生产级输出，它建议你继续用Gemma 4。

说白了：新模型更快，但生成质量更差。

6月10日，Google DeepMind在Hugging Face上线DiffusionGemma，Apache 2.0许可，开源权重。

https://huggingface.co/google/diffusiongemma-26B-A4B-it

单张NVIDIA H100上，DiffusionGemma的文本生成速度突破每秒1000个token，最高比自家自回归模型快4倍。

谷歌开源DiffusionGemma，自送差评，速度却快4倍图5

一个自己都说生成质量退步的模型，凭什么值得关注？

DiffusionGemma不是Gemma 4的升级版，它是Google DeepMind出品的实验性开放模型（experimental open model），底子是Gemma 4的26B A4B混合专家（Mixture of Experts，MoE）架构，总参数约252亿，推理时只激活约38亿。

不同的是它生成文本的方式：不再逐个token自回归，而是离散文本扩散（discrete text diffusion）。

它从一开始就没打算在高质量的生产级场景和Gemma 4硬拼，所以前面说到的能力「不如旧款」，更像是厘清定位。

CEO劈柴（Sundar Pichai）亲自发推，把DiffusionGemma比作「一匹赛马」：靠同时生成整段文本块、而不是逐字预测来抢速度。

逐token打字机

与一次成块的印刷机

要看清楚DiffusionGemma最大的不同，要先明白今天的大模型是怎么对外输出的。

从GPT到Claude，再到Gemma，几乎所有主流大模型都在做同一件事：预测下一个词元。

这套机制，很像一台打字机，一个字一个字往下敲。

DiffusionGemma换了一种思路，它的灵感来自图像扩散：

生成图片的扩散模型，从一团随机噪声起步，一步步把噪声擦掉，逼近一张清晰的图。

DiffusionGemma把这套机制搬进文本：先铺一张256个随机占位token的「画布」，再多轮并行去噪，让整段文字一次性「冲洗」成形。

谷歌认为这好比从打字机升级成印刷机。打字机一次敲一个字，印刷机一次压一整版。

这张「画布」，带来一个自回归模型给不了的能力：双向注意力。

逐token的模型只能往左看，已经吐出去的字改不了，开头错一个，能一路错到结尾。DiffusionGemma在去噪时，画布上每个位置都能看到其他所有位置。哪个token置信度掉下来了，采样器能把它打回噪声、重改一遍。

也就是说，它能一边写一边回头改自己的草稿。

左边的自回归模型像打字机，只能从左往右一个token接一个token地写；右边的扩散模型更像在打磨一整块草稿，去噪时能同时参考画布里的前后位置和已经写好的上文，不断修正不确定的token。

Google DeepMind官方点出了一个很直观的好处，它可以实时自我修正，连复杂的Markdown格式都能一次性闭合收尾，而不是像逐字模型那样写到一半才发现括号没配上。

文本超过256个token怎么办？

它走块自回归（block-autoregressive）：一张256-token的画布去噪完，写进KV缓存，再开下一张新画布，接着上文往下生成。

将并行的快和自回归的稳，融合在了一起。

单卡真快

但4倍加速要挑场合

并行去噪，带来的直接好处是吞吐。

官方成绩单是：单张H100上1000+ tokens/s，消费级的RTX 5090上700+ tokens/s，模型卡里还提到H100在FP8、低batch下能冲过1100 tokens/s。

英伟达那边补了更多机型，DGX Spark 150 tokens/s，DGX Station最高能到2000 tokens/s。

更接地气的是量化之后，它只占大约18GB显存，塞得进高端消费级显卡。这意味着RTX 5090、4090这种游戏卡，本地就能跑。

但「4倍加速」这四个字，谷歌官方也划出了适用范围：

这个速度，主要出现在本地、单用户、请求不多的场景里：一台机器、一个人用，一次也没几个任务在排队。

换成云端那种每秒要扛成千上万条请求的高并发服务，情况就反过来了，跑同样的服务，单位成本甚至更高。

为什么是扩散

把GPU从等内存里解放出来

为什么换个生成方式，就能快这么多？

关键在GPU到底在干等什么。逐token的自回归，本质是个内存带宽瓶颈（memory-bound）：每吐一个字，GPU都得把模型权重从显存里搬一遍，大部分时间在等数据搬运，真正算数的算力反倒闲着。

扩散把这道题反了过来。

一整块256个token并行推过transformer，是个计算瓶颈（compute-bound）的活儿，正好喂饱NVIDIA的张量核心（Tensor Core），而这恰恰是GPU最擅长、平时本地单用户推理时最闲的部分。

英伟达这次也下了功夫，原生支持NVFP4（4-bit浮点）格式，在接近无损精度的前提下进一步抬高吞吐；CUDA栈day-zero就能跑，不用专门调优。这个模型的设计，几乎是冲着GPU的长处去的。

benchmark上差距有多明显

与Gemma 4相比，DiffusionGemma到底怎么样，模型卡给出了数字。

一张图看清DiffusionGemma的取舍：最左的输出速度（tok/s，单张H100、fp8、单请求）上，它以1107对303把Gemma 4甩开近四倍；可往右数六项质量基准，从多语言问答到数学、代码、科学知识，它项项落在Gemma 4身后。

图上的几项质量基准落差，DiffusionGemma比Gemma 4明显要低。差得最狠的是数学，AIME 2026上69.1%对88.3%，接近20个百分点的鸿沟。

图里没画的还有更难看的：多模态的MMMU Pro，54.3%对73.8%，同样也低了近20个点。

认怂背后是真有差距，但在那些「非线性」任务上，双向注意力反而占便宜。

最典型的是数独：每个格子都被横、竖和九宫格同时约束，必须前后兼顾，逐token模型天生别扭，只能从左往右填、没法回头。

微调后的DiffusionGemma解数独：不是从左到右一格格填，而是整盘并行去噪、几步之内同时收敛。这类前后强约束的任务，恰恰是逐token模型最头疼、双向注意力最占便宜的场景。

DiffusionGemma的基础模型起初也几乎解不出（成功率约0%），但谷歌用一套简单的SFT微调跑了一遍，正确率直接拉到80%。

代码中插（infilling）也是同理，前后文都得照顾，扩散的全局视角反而比打字机顺手。

这条「速度换质量」的路，也不是谷歌一家在走。

商用扩散大模型这条线上，Inception Labs的Mercury系列已经先跑一步。

其Mercury 2于2026年2月发布，官方主打相对速度优化模型最高5倍加速；早期Mercury Coder材料和第三方评测中也出现过「最高10倍吞吐」的描述。这里的共同点不是「全面替代旗舰模型」，而是围绕速度、延迟和成本做架构取舍。

换句话说，质量主动让步是当下整条扩散路线的共性，不是DiffusionGemma独有的短板。

它不是第一个

却补上了开源大模型的拼图

其实，扩散文本并不是什么新鲜事。

商用这边，Inception Labs的Mercury系列早跑通了，可真正开源的变体只有1.3B一档，个头偏小。

学术这边，LLaDA把扩散语言模型推到了100B参数，却偏研究，没怎么为生产部署打磨。

连谷歌自己，2025年5月的I/O上就发过Gemini Diffusion，速度做到1479 tokens/s，但权重并没放出来。

DiffusionGemma不一样的地方，在于它把三样东西凑齐了：前沿实验室出品、开源权重、消费级显卡本地就能跑。

而且一下就端出了全家桶：Hugging Face Transformers、vLLM、Unsloth全部支持，vLLM直接给了OpenAI兼容的本地部署命令，下完权重就能起一个本地服务。

英伟达也在发布当天就给它做好了适配：在Hugging Face上放了两个版本的模型文件，一个精度高的标准版（BF16），一个更小更快，塞得进消费级显卡的轻量版（NVFP4）；还在自家网站build.nvidia.com挂了免费在线入口。

一句话，从在线试玩到下载回自己机器上起服务，路都铺好了。

开源扩散大模型生态一直缺的那块拼图，这一次被谷歌补上了。

参考资料：

https://x.com/googlegemma/status/2064741002204545467%20

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/%20

https://developers.googleblog.com/diffusiongemma-the-developer-guide/

编辑：元宇

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

谷歌开源DiffusionGemma，自送差评，速度却快4倍图15

谷歌开源DiffusionGemma，自送差评，速度却快4倍图16