
新智元报道
新智元报道

【新智元导读】大厂发新模型,话术从来是「更强」。可谷歌这次的官方指南里写着:它不如自家旧款。
这一次开源DiffusionGemma,谷歌把「我不如我」写进了官方指南。

不再逐个token顺序处理,而是一次生成整段文本。
谷歌说,这个模型基于自家前沿的Gemini Diffusion研究,主打生成速度,适合行内编辑、快速迭代、生成非线性文本结构这类对速度严苛的本地交互场景。至于高质量的生产级输出,它建议你继续用Gemma 4。
说白了:新模型更快,但生成质量更差。
6月10日,Google DeepMind在Hugging Face上线DiffusionGemma,Apache 2.0许可,开源权重。

https://huggingface.co/google/diffusiongemma-26B-A4B-it
单张NVIDIA H100上,DiffusionGemma的文本生成速度突破每秒1000个token,最高比自家自回归模型快4倍。

一个自己都说生成质量退步的模型,凭什么值得关注?
DiffusionGemma不是Gemma 4的升级版,它是Google DeepMind出品的实验性开放模型(experimental open model),底子是Gemma 4的26B A4B混合专家(Mixture of Experts,MoE)架构,总参数约252亿,推理时只激活约38亿。
不同的是它生成文本的方式:不再逐个token自回归,而是离散文本扩散(discrete text diffusion)。
它从一开始就没打算在高质量的生产级场景和Gemma 4硬拼,所以前面说到的能力「不如旧款」,更像是厘清定位。
CEO劈柴(Sundar Pichai)亲自发推,把DiffusionGemma比作「一匹赛马」:靠同时生成整段文本块、而不是逐字预测来抢速度。


要看清楚DiffusionGemma最大的不同,要先明白今天的大模型是怎么对外输出的。
从GPT到Claude,再到Gemma,几乎所有主流大模型都在做同一件事:预测下一个词元。
这套机制,很像一台打字机,一个字一个字往下敲。
DiffusionGemma换了一种思路,它的灵感来自图像扩散:
生成图片的扩散模型,从一团随机噪声起步,一步步把噪声擦掉,逼近一张清晰的图。
DiffusionGemma把这套机制搬进文本:先铺一张256个随机占位token的「画布」,再多轮并行去噪,让整段文字一次性「冲洗」成形。
谷歌认为这好比从打字机升级成印刷机。打字机一次敲一个字,印刷机一次压一整版。
这张「画布」,带来一个自回归模型给不了的能力:双向注意力。
逐token的模型只能往左看,已经吐出去的字改不了,开头错一个,能一路错到结尾。DiffusionGemma在去噪时,画布上每个位置都能看到其他所有位置。哪个token置信度掉下来了,采样器能把它打回噪声、重改一遍。
也就是说,它能一边写一边回头改自己的草稿。

左边的自回归模型像打字机,只能从左往右一个token接一个token地写;右边的扩散模型更像在打磨一整块草稿,去噪时能同时参考画布里的前后位置和已经写好的上文,不断修正不确定的token。
Google DeepMind官方点出了一个很直观的好处,它可以实时自我修正,连复杂的Markdown格式都能一次性闭合收尾,而不是像逐字模型那样写到一半才发现括号没配上。
文本超过256个token怎么办?
它走块自回归(block-autoregressive):一张256-token的画布去噪完,写进KV缓存,再开下一张新画布,接着上文往下生成。
将并行的快和自回归的稳,融合在了一起。

并行去噪,带来的直接好处是吞吐。
官方成绩单是:单张H100上1000+ tokens/s,消费级的RTX 5090上700+ tokens/s,模型卡里还提到H100在FP8、低batch下能冲过1100 tokens/s。
英伟达那边补了更多机型,DGX Spark 150 tokens/s,DGX Station最高能到2000 tokens/s。
更接地气的是量化之后,它只占大约18GB显存,塞得进高端消费级显卡。这意味着RTX 5090、4090这种游戏卡,本地就能跑。
但「4倍加速」这四个字,谷歌官方也划出了适用范围:
这个速度,主要出现在本地、单用户、请求不多的场景里:一台机器、一个人用,一次也没几个任务在排队。
换成云端那种每秒要扛成千上万条请求的高并发服务,情况就反过来了,跑同样的服务,单位成本甚至更高。

为什么换个生成方式,就能快这么多?
关键在GPU到底在干等什么。逐token的自回归,本质是个内存带宽瓶颈(memory-bound):每吐一个字,GPU都得把模型权重从显存里搬一遍,大部分时间在等数据搬运,真正算数的算力反倒闲着。
扩散把这道题反了过来。
一整块256个token并行推过transformer,是个计算瓶颈(compute-bound)的活儿,正好喂饱NVIDIA的张量核心(Tensor Core),而这恰恰是GPU最擅长、平时本地单用户推理时最闲的部分。

英伟达这次也下了功夫,原生支持NVFP4(4-bit浮点)格式,在接近无损精度的前提下进一步抬高吞吐;CUDA栈day-zero就能跑,不用专门调优。这个模型的设计,几乎是冲着GPU的长处去的。

与Gemma 4相比,DiffusionGemma到底怎么样,模型卡给出了数字。

一张图看清DiffusionGemma的取舍:最左的输出速度(tok/s,单张H100、fp8、单请求)上,它以1107对303把Gemma 4甩开近四倍;可往右数六项质量基准,从多语言问答到数学、代码、科学知识,它项项落在Gemma 4身后。
图上的几项质量基准落差,DiffusionGemma比Gemma 4明显要低。差得最狠的是数学,AIME 2026上69.1%对88.3%,接近20个百分点的鸿沟。
图里没画的还有更难看的:多模态的MMMU Pro,54.3%对73.8%,同样也低了近20个点。
认怂背后是真有差距,但在那些「非线性」任务上,双向注意力反而占便宜。
最典型的是数独:每个格子都被横、竖和九宫格同时约束,必须前后兼顾,逐token模型天生别扭,只能从左往右填、没法回头。
微调后的DiffusionGemma解数独:不是从左到右一格格填,而是整盘并行去噪、几步之内同时收敛。这类前后强约束的任务,恰恰是逐token模型最头疼、双向注意力最占便宜的场景。
DiffusionGemma的基础模型起初也几乎解不出(成功率约0%),但谷歌用一套简单的SFT微调跑了一遍,正确率直接拉到80%。
代码中插(infilling)也是同理,前后文都得照顾,扩散的全局视角反而比打字机顺手。
这条「速度换质量」的路,也不是谷歌一家在走。
商用扩散大模型这条线上,Inception Labs的Mercury系列已经先跑一步。
其Mercury 2于2026年2月发布,官方主打相对速度优化模型最高5倍加速;早期Mercury Coder材料和第三方评测中也出现过「最高10倍吞吐」的描述。这里的共同点不是「全面替代旗舰模型」,而是围绕速度、延迟和成本做架构取舍。
换句话说,质量主动让步是当下整条扩散路线的共性,不是DiffusionGemma独有的短板。

其实,扩散文本并不是什么新鲜事。
商用这边,Inception Labs的Mercury系列早跑通了,可真正开源的变体只有1.3B一档,个头偏小。
学术这边,LLaDA把扩散语言模型推到了100B参数,却偏研究,没怎么为生产部署打磨。
连谷歌自己,2025年5月的I/O上就发过Gemini Diffusion,速度做到1479 tokens/s,但权重并没放出来。
DiffusionGemma不一样的地方,在于它把三样东西凑齐了:前沿实验室出品、开源权重、消费级显卡本地就能跑。
而且一下就端出了全家桶:Hugging Face Transformers、vLLM、Unsloth全部支持,vLLM直接给了OpenAI兼容的本地部署命令,下完权重就能起一个本地服务。
英伟达也在发布当天就给它做好了适配:在Hugging Face上放了两个版本的模型文件,一个精度高的标准版(BF16),一个更小更快,塞得进消费级显卡的轻量版(NVFP4);还在自家网站build.nvidia.com挂了免费在线入口。
一句话,从在线试玩到下载回自己机器上起服务,路都铺好了。
开源扩散大模型生态一直缺的那块拼图,这一次被谷歌补上了。
参考资料:
https://x.com/googlegemma/status/2064741002204545467%20
https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/%20
https://developers.googleblog.com/diffusiongemma-the-developer-guide/
编辑:元宇


