谷歌开源DiffusionGemma,自送差评,速度却快4倍

新智元 2026-06-19 13:03

谷歌开源DiffusionGemma,自送差评,速度却快4倍图1

  新智元报道  

谷歌开源DiffusionGemma,自送差评,速度却快4倍图2

【新智元导读】大厂发新模型,话术从来是「更强」。可谷歌这次的官方指南里写着:它不如自家旧款。


这一次开源DiffusionGemma,谷歌把「我不如我」写进了官方指南。

谷歌开源DiffusionGemma,自送差评,速度却快4倍图3
Google Gemma官方称DiffusionGemma是一个探索快速文本生成的实验性开源模型:

不再逐个token顺序处理,而是一次生成整段文本。


还在DiffusionGemma官方开发者指南中,自送一句「差评」。

谷歌说,这个模型基于自家前沿的Gemini Diffusion研究,主打生成速度,适合行内编辑、快速迭代、生成非线性文本结构这类对速度严苛的本地交互场景。至于高质量的生产级输出,它建议你继续用Gemma 4。

说白了:新模型更快,但生成质量更差。

6月10日,Google DeepMind在Hugging Face上线DiffusionGemma,Apache 2.0许可,开源权重。

谷歌开源DiffusionGemma,自送差评,速度却快4倍图4

https://huggingface.co/google/diffusiongemma-26B-A4B-it

单张NVIDIA H100上,DiffusionGemma的文本生成速度突破每秒1000个token,最高比自家自回归模型快4倍。

谷歌开源DiffusionGemma,自送差评,速度却快4倍图5

一个自己都说生成质量退步的模型,凭什么值得关注?

DiffusionGemma不是Gemma 4的升级版,它是Google DeepMind出品的实验性开放模型(experimental open model),底子是Gemma 4的26B A4B混合专家(Mixture of Experts,MoE)架构,总参数约252亿,推理时只激活约38亿。

不同的是它生成文本的方式:不再逐个token自回归,而是离散文本扩散(discrete text diffusion)。

它从一开始就没打算在高质量的生产级场景和Gemma 4硬拼,所以前面说到的能力「不如旧款」,更像是厘清定位。

CEO劈柴(Sundar Pichai)亲自发推,把DiffusionGemma比作「一匹赛马」:靠同时生成整段文本块、而不是逐字预测来抢速度。 

谷歌开源DiffusionGemma,自送差评,速度却快4倍图6


谷歌开源DiffusionGemma,自送差评,速度却快4倍图7
逐token打字机
与一次成块的印刷机

要看清楚DiffusionGemma最大的不同,要先明白今天的大模型是怎么对外输出的。

从GPT到Claude,再到Gemma,几乎所有主流大模型都在做同一件事:预测下一个词元。

这套机制,很像一台打字机,一个字一个字往下敲。

DiffusionGemma换了一种思路,它的灵感来自图像扩散:

生成图片的扩散模型,从一团随机噪声起步,一步步把噪声擦掉,逼近一张清晰的图。


DiffusionGemma把这套机制搬进文本:先铺一张256个随机占位token的「画布」,再多轮并行去噪,让整段文字一次性「冲洗」成形。

谷歌认为这好比从打字机升级成印刷机。打字机一次敲一个字,印刷机一次压一整版。

这张「画布」,带来一个自回归模型给不了的能力:双向注意力。

逐token的模型只能往左看,已经吐出去的字改不了,开头错一个,能一路错到结尾。DiffusionGemma在去噪时,画布上每个位置都能看到其他所有位置。哪个token置信度掉下来了,采样器能把它打回噪声、重改一遍。

也就是说,它能一边写一边回头改自己的草稿。

谷歌开源DiffusionGemma,自送差评,速度却快4倍图8

左边的自回归模型像打字机,只能从左往右一个token接一个token地写;右边的扩散模型更像在打磨一整块草稿,去噪时能同时参考画布里的前后位置和已经写好的上文,不断修正不确定的token。

Google DeepMind官方点出了一个很直观的好处,它可以实时自我修正,连复杂的Markdown格式都能一次性闭合收尾,而不是像逐字模型那样写到一半才发现括号没配上。

文本超过256个token怎么办?

它走块自回归(block-autoregressive):一张256-token的画布去噪完,写进KV缓存,再开下一张新画布,接着上文往下生成。

将并行的快和自回归的稳,融合在了一起。



谷歌开源DiffusionGemma,自送差评,速度却快4倍图9
单卡真快
但4倍加速要挑场合

并行去噪,带来的直接好处是吞吐。

官方成绩单是:单张H100上1000+ tokens/s,消费级的RTX 5090上700+ tokens/s,模型卡里还提到H100在FP8、低batch下能冲过1100 tokens/s。

英伟达那边补了更多机型,DGX Spark 150 tokens/s,DGX Station最高能到2000 tokens/s。

更接地气的是量化之后,它只占大约18GB显存,塞得进高端消费级显卡。这意味着RTX 5090、4090这种游戏卡,本地就能跑。

但「4倍加速」这四个字,谷歌官方也划出了适用范围:

这个速度,主要出现在本地、单用户、请求不多的场景里:一台机器、一个人用,一次也没几个任务在排队。


换成云端那种每秒要扛成千上万条请求的高并发服务,情况就反过来了,跑同样的服务,单位成本甚至更高。



谷歌开源DiffusionGemma,自送差评,速度却快4倍图10
为什么是扩散
把GPU从等内存里解放出来

为什么换个生成方式,就能快这么多?

关键在GPU到底在干等什么。逐token的自回归,本质是个内存带宽瓶颈(memory-bound):每吐一个字,GPU都得把模型权重从显存里搬一遍,大部分时间在等数据搬运,真正算数的算力反倒闲着。

扩散把这道题反了过来。

一整块256个token并行推过transformer,是个计算瓶颈(compute-bound)的活儿,正好喂饱NVIDIA的张量核心(Tensor Core),而这恰恰是GPU最擅长、平时本地单用户推理时最闲的部分。

谷歌开源DiffusionGemma,自送差评,速度却快4倍图11

英伟达这次也下了功夫,原生支持NVFP4(4-bit浮点)格式,在接近无损精度的前提下进一步抬高吞吐;CUDA栈day-zero就能跑,不用专门调优。这个模型的设计,几乎是冲着GPU的长处去的。



谷歌开源DiffusionGemma,自送差评,速度却快4倍图12
benchmark上差距有多明显

与Gemma 4相比,DiffusionGemma到底怎么样,模型卡给出了数字。

谷歌开源DiffusionGemma,自送差评,速度却快4倍图13

一张图看清DiffusionGemma的取舍:最左的输出速度(tok/s,单张H100、fp8、单请求)上,它以1107对303把Gemma 4甩开近四倍;可往右数六项质量基准,从多语言问答到数学、代码、科学知识,它项项落在Gemma 4身后。

图上的几项质量基准落差,DiffusionGemma比Gemma 4明显要低。差得最狠的是数学,AIME 2026上69.1%对88.3%,接近20个百分点的鸿沟。

图里没画的还有更难看的:多模态的MMMU Pro,54.3%对73.8%,同样也低了近20个点。

认怂背后是真有差距,但在那些「非线性」任务上,双向注意力反而占便宜。

最典型的是数独:每个格子都被横、竖和九宫格同时约束,必须前后兼顾,逐token模型天生别扭,只能从左往右填、没法回头。

微调后的DiffusionGemma解数独:不是从左到右一格格填,而是整盘并行去噪、几步之内同时收敛。这类前后强约束的任务,恰恰是逐token模型最头疼、双向注意力最占便宜的场景。

DiffusionGemma的基础模型起初也几乎解不出(成功率约0%),但谷歌用一套简单的SFT微调跑了一遍,正确率直接拉到80%。

代码中插(infilling)也是同理,前后文都得照顾,扩散的全局视角反而比打字机顺手。

这条「速度换质量」的路,也不是谷歌一家在走。

商用扩散大模型这条线上,Inception Labs的Mercury系列已经先跑一步。

其Mercury 2于2026年2月发布,官方主打相对速度优化模型最高5倍加速;早期Mercury Coder材料和第三方评测中也出现过「最高10倍吞吐」的描述。这里的共同点不是「全面替代旗舰模型」,而是围绕速度、延迟和成本做架构取舍。

换句话说,质量主动让步是当下整条扩散路线的共性,不是DiffusionGemma独有的短板。



谷歌开源DiffusionGemma,自送差评,速度却快4倍图14
它不是第一个
却补上了开源大模型的拼图

其实,扩散文本并不是什么新鲜事。

商用这边,Inception Labs的Mercury系列早跑通了,可真正开源的变体只有1.3B一档,个头偏小。

学术这边,LLaDA把扩散语言模型推到了100B参数,却偏研究,没怎么为生产部署打磨。

连谷歌自己,2025年5月的I/O上就发过Gemini Diffusion,速度做到1479 tokens/s,但权重并没放出来。

DiffusionGemma不一样的地方,在于它把三样东西凑齐了:前沿实验室出品、开源权重、消费级显卡本地就能跑。

而且一下就端出了全家桶:Hugging Face Transformers、vLLM、Unsloth全部支持,vLLM直接给了OpenAI兼容的本地部署命令,下完权重就能起一个本地服务。

英伟达也在发布当天就给它做好了适配:在Hugging Face上放了两个版本的模型文件,一个精度高的标准版(BF16),一个更小更快,塞得进消费级显卡的轻量版(NVFP4);还在自家网站build.nvidia.com挂了免费在线入口。

一句话,从在线试玩到下载回自己机器上起服务,路都铺好了。

开源扩散大模型生态一直缺的那块拼图,这一次被谷歌补上了。

参考资料:

https://x.com/googlegemma/status/2064741002204545467%20

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/%20

https://developers.googleblog.com/diffusiongemma-the-developer-guide/


编辑:元宇


秒追ASI
点赞、转发、在看一键三连
点亮星标,锁定新智元极速推送!

谷歌开源DiffusionGemma,自送差评,速度却快4倍图15

谷歌开源DiffusionGemma,自送差评,速度却快4倍图16

谷歌开源DiffusionGemma,自送差评,速度却快4倍图17

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作
脑机电极 | E-Link 256开源方案:一种基于"软互连"的高密度柔性脑机探针连接器
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了
没想到 PI 押注的真机RL,这家公司把他做到了全球大规模开源
分享一个零基础、高质量、免费、开源的 RL 课
大晓机器人开源全球最大中国家庭专属全屋3D数据集
视频AI卷向5分钟:全量开源,一次生成,正式告别「盲盒抽卡」
开源燎原 共筑中间件新生态 东方通&openEuler Meetup走进西安电子科技大学
LLM Agent | 技能不是越多越好!SAPO 给 Agent 技能库装上「质检员」:先验证再存储,开源4B自造技能反超GPT-5.4
刚刚,Fable-5之下,智谱开源的GLM-5.2拿下AI编程第一!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号