访谈参与者
主持人: Logan Kilpatrick (Google DeepMind 团队成员) 采访嘉宾: Nicole Brichtova (产品经理) Kaushik Shivakumar (研究员) Mostafa Dehghani (研究员) Robert Riachi (研究员)
访谈正文
Logan Kilpatrick: 大家好,欢迎回到《Release Notes》节目。我是 Logan Kilpatrick,来自 Google DeepMind 团队。
今天我们请到了 Kaushik、Robert、Nicole 和 Mostafa,他们是 Gemini 原生图像生成模型背后的研究与产品团队。
我们今天就是要深入聊聊这个让我无比期待的模型。Nicole,不如你来开个头?有什么好消息和我们分享?
Nicole Brichtova: 好的,我们即将在 Gemini 和 2.5 Flash 中更新图像生成与编辑功能,这可以说是一次巨大的品质飞跃。
这个模型代表了业界顶尖水平,我们对其生成和编辑能力都感到非常兴奋。
与其空谈,不如我直接给你展示一下这个模型能做什么吧?
Logan Kilpatrick: 好呀,好呀。我非常期待。我大概试玩过一次,但肯定没有你们玩得那么深入,所以我很想看看实例。
Nicole Brichtova: 太好了,我来给你拍张照。我们从一个简单的指令开始,比如:拉远镜头,让他穿上一件巨大的香蕉服装。
并且,要保持他的脸部清晰可见,确保这看起来还是你本人。好的,生成过程需要几秒钟,但速度还是相当快的。
Logan Kilpatrick: 这正是我最喜欢的一点。我觉得这种编辑速度让这些模型玩起来乐趣无穷。你能帮我把图片稍微放大一点吗?
Nicole Brichtova: 没问题。你看,这就是你,Logan。你的脸还在。这个模型最厉害的地方在于,它看起来依然是你,对吧?
这还是你,但你确实穿着一套巨大的香蕉戏服。而且,你还有了一个在城市中行走的漂亮背景。
Logan Kilpatrick: 这太有意思了,因为这张照片的背景是在芝加哥,而那条街真实的样子和这个几乎一模一样。
Nicole Brichtova: 这就是模型的世界知识在发挥作用。现在我们继续,输入:让它变得“nano”化。
Logan Kilpatrick: 这是什么意思?让它 nano 化是什么意思?
Nicole Brichtova: 我们来看看模型会怎么做。当初我们在 LMArena 平台首次发布时,给它取了个代号叫“纳米香蕉”。
人们开始猜测这是我们的新模型,事实也的确如此。你看,现在模型把你变成了一个穿着巨大香蕉服装的可爱 nano 版本。
这个例子最棒的地方在于,这显然是个很模糊的指令。刚才你还在问这是什么意思。
但模型有足够的创造力去解读,并创造出这样一个场景,既满足了你的指令,又在上下文中合情合理,同时还保持了场景其余部分的关联性。
这真的非常令人兴奋。我觉得这是我们第一次看到大语言模型能够在多次编辑中真正保持场景的一致性,并且让用户使用非常自然的语言与模型互动。
我不需要输入冗长的指令,只需给出自然的语言指令,就能和模型进行多轮有趣的对话,这一点非常激动人心。
Logan Kilpatrick: 我太喜欢这个了。它在文字渲染方面的表现如何?这是我最关心的功能之一。你要不要在这张图上加点什么试试?
Nicole Brichtova: 好啊,你来给我个指令吧。
Logan Kilpatrick: 嗯……就用 Gemini Nano 吧?这是我唯一能想到的和 nano 相关的东西了。我总想做这类应用,在广告牌上加上文字来制作发布公告的推文,这是我的最爱。
Nicole Brichtova: 好的,开始吧。你看,好了。这是一个相对简单的文本,字母不多,是些简单的词,所以效果非常好。
当然,在这次的发布说明中我们也提到,模型在文字渲染方面确实还存在一些不足,我们正在非常努力地解决。
团队里的同事们,也许 Kaushik 可以谈谈,正在努力让我们的下一个模型在文字渲染上做得更好。
Logan Kilpatrick: 太棒了。还有其他你想展示的例子吗?或者关于这次发布,有什么衡量标准的故事?
我知道其中一个挑战是评估体系,因为你们衡量的大多是基于人类偏好的东西,我很好奇你们怎么看待这个问题。
很难有一个绝对的标准,但我很好奇,对于这次发布以及我们训练这些模型的整个过程,你们是如何思考评估这个问题的。
Robert Riachi: 总的来说,对于像图像和视频这样的多模态内容,要衡量其性能的提升非常困难。过去的方法一直是利用大量的人类偏好数据来优化。
但显然,图像是非常主观的。你虽然能从大量人群中获得反馈,但这需要时间,不是最快的评估指标。
所以,我们一直在努力寻找其他可以在训练过程中进行优化的评估指标。我觉得文字渲染就是一个非常有趣的故事。
Kaushik 很早就一直在谈论它,是它最大的倡导者之一。很长一段时间里,我们都有点没太在意他,觉得他对文字渲染过于痴迷了。
但最终,它成为了我们关注的核心指标之一。你可以这样想,当模型学会处理文本的结构时,它也就能更好地学习图像中的其他结构。
在一张图像中,存在着不同频率的元素,有结构,也有纹理。所以,文字渲染能力能很好地反映出模型在生成场景结构方面的水平。
Logan Kilpatrick: 是的,我也很好奇最初的信念从何而来。是你们在做大量研究实验时,逐渐发现这是一个关键指标吗?
Kaushik Shivakumar: 我想,这始于我们试图找出这些模型的短板。为了改进任何模型,你都需要一个明确的信号来告诉你哪里做得不好。
一旦你有了那个清晰的信号,你肯定就能取得很好的进展。回溯几年前,几乎没有任何模型能在文字渲染上做得像样。
随着我们花更多时间关注并持续追踪这个指标,现在我们运行的任何实验,只要追踪它,就能确保我们不会在这方面倒退。
并且,仅仅因为把它作为一个信号,我们甚至可能会发现一些意想不到的改动竟然也起作用了。
是的,就像 Robert 说的,在缺乏其他有效的图像质量评估指标的情况下,这是一个衡量整体图像质量的好方法。
我过去对使用人类评估员来评估图像生成效果的方法有些怀疑。但随着时间的推移,我认识到,当你让足够多的人,针对各种类别的足够多的指令进行评估时,你实际上能获得相当多有用的信号。
但显然,这样做成本很高。你不想总是请一大堆人来给图片打分。所以在模型训练时关注像文字渲染这样的指标,就能很好地判断它的表现是否符合预期。
Logan Kilpatrick: 这真的很有意思。我很好奇原生图像生成能力和原生图像理解能力之间的相互作用。
我们之前和 Ani 的团队做过一期节目,那个团队一直在图像理解方面努力推进。Gemini 拥有最先进的图像理解能力。
那么我的这种想法是否合理:随着模型越来越擅长理解图像,其中一部分能力实际上也可以迁移到生成任务上,反之亦然?
Mostafa Dehghani: 是的。基本上,我们希望最终能实现原生的多模态理解与生成。在同一个模型、同一次训练中学习所有这些模态和不同能力的好处在于,你希望在这些不同的维度之间实现正向迁移。
这不仅限于单一模态的理解和生成,还关乎我们是否能从图像、视频或音频中学到关于世界的知识,从而帮助我们更好地进行文本理解或生成。
所以,图像理解和图像生成当然就像姐妹一样。我们确实看到它们在例如交错生成等任务中是相辅相成的。
但最终的目标是……让我给你举个例子。比如,在语言中,有一种我们称之为报告偏见的现象。
意思是,你去朋友家做客,回来后,你绝不会在对话中谈论他们家那个普通的沙发。但如果你给别人看一张那个房间的照片,沙发就在那里。
所以,如果你想学习关于这个世界的大量事物,图像和视频中就包含了这些信息,而不需要你明确地去请求。视觉信号绝对是学习世界知识的一条捷径。
回到理解和生成的问题上,正如我所说,这两者是相辅相成的。在交错生成中,你可以看到理解能力对生成能力的巨大帮助,反之亦然。
Nicole Brichtova: 好的。让我试试这个指令:用五种不同的方式,将这个主体转换成一张 1980 年代美国购物中心风格的魅力写真照。好了,祈祷它能成功。
好的,看起来很有希望。这个过程显然需要更长一点的时间,因为我们不仅要生成多张图片,还要生成描述这些图片的文字。
Kaushik Shivakumar: 你会注意到,原生图像生成的一个特点是,它会一张接一张地生成图像。这意味着模型可能会参考前一张生成的图片,然后选择生成一张截然不同的图片,或者只做一个微小的修改。
它至少拥有已经生成内容的上下文信息。这就是我们所说的原生图像生成模型。它们能够访问多模态的上下文,然后再生成图像。
Logan Kilpatrick: 是的,这很有趣。我之前的想法一直以为它只是四次独立的计算过程之类的。
Robert Riachi: 但这实际上都是在模型的同一个上下文中完成的。
Logan Kilpatrick: 都在模型的同一个上下文中。这太有意思了。
Nicole Brichtova: 这样做的好处是,图片的风格会比较统一。而且模型还做了件很有趣的事,它在每一张照片里都把你放了两次。
这是“街机之王 Logan”。我们往下看,这是“时髦小子”。你看,这些配图的描述没有一个是我们想出来的。
指令只是简单地说“把你变成 1980 年代美国购物中心风格的写真照模特”。这个是“购物中心常客”。你应该考虑一下其中一些穿搭。
第四个选项,“淡定哥”。你看,你在每张照片里的穿着都不同,而且它们看起来都像你。
能看到模型想出五个独立创意,给它们起不同的名字,为你设计不同的服装,同时还能保持角色的一致性,这真的很酷。
这不仅对角色创建很有用,如果你有一张自己房间的照片,这个功能也同样适用。你可以对它说:嘿,帮我用五种不同的方式来装饰这个房间。
我们已经看到团队里有很多人用它来重新设计他们的花园和住宅,看到这些更实际的应用真的非常酷。
Logan Kilpatrick: 我在 AI Studio 里为我女朋友写过一个应用,就是用来可视化她办公室搭配各种不同颜色窗帘的效果。
她当时说:我不知道哪种颜色的窗帘才符合这里的氛围。那个应用就是……那还是用 2.0 版本做的,我得用 2.5 版本再试试。
效果其实非常好,很有帮助。不过 2.0 版本有时会改变床的样子,或者改变其他东西,而不仅仅是窗帘。
Nicole Brichtova: 你应该试试。新模型在保持场景其余部分一致性方面做得很好,我们称之为像素级精准编辑。
这一点非常重要,因为有时候你只想编辑图像中的某一个东西,而希望其他所有东西都保持原样。
同样,如果你在创建角色,你可能只想转动角色的头部,但他们身上穿的所有东西都需要在不同场景中保持一致。
Logan Kilpatrick: Robert,你有什么见解?
Robert Riachi: 是的,我想说,一个非常酷的地方在于它的速度仍然非常快。
Logan Kilpatrick: 刚才整个生成过程花了多长时间?
Nicole Brichtova: 让我看看……13 秒。
Robert Riachi: 哇,所以每张图片大概是……
Nicole Brichtova: 每张图片大概是 13 秒左右。噢,这是累积的时间。
Robert Riachi: 是的,我觉得很酷的一点是,即使在 2.0 版本出来的时候,我也会用它来做类似的事情。我有一个书架,地上堆满了东西,我就对它说:装饰一下这里。
比如,这些东西应该以什么样的方式摆在我的书架上?当然我女朋友可能不同意它的输出结果。
所以有时候你需要在此基础上进行迭代。你可以很快地重新运行并迭代。我认为,这种迭代式的创作过程正是其魅力所在。
Logan Kilpatrick: 对于那些试用过 2.0 版本的用户来说,有什么不同吗?比如,使用 2.0 版本的一个经验是,最好一次只进行单一的编辑。
如果你让它同时改变六个不同的东西,模型有时会表现不佳。对于这个新模型,我们是否还应该遵循这种有针对性的编辑方式?
Mostafa Dehghani: 这正是我想要提到的。交错生成的魔力之一在于,它为你提供了一种全新的图像生成范式。
如果你有一个非常复杂的指令,比如你提到的六个不同的编辑,那如果我要进行五十个不同的编辑呢?
现在,模型有了一个非常好的机制,可以从上下文中精准地抓取信息,并在下一步中使用。所以你能做的,就是让模型将一个复杂的指令分解成多个步骤,然后一步一步地进行编辑。
这和我们在语言模型领域的思考链非常相似。你花费更多的计算资源,让模型在像素空间里进行这种思考,同时把任务分解成更小的部分。
这样你就能真正地处理好每一个具体阶段,然后累积起来,完成任何你想要的复杂任务。我认为,这再次体现了交错生成的魔力。
Logan Kilpatrick: 有一个我一直很关心的问题,特别是 Nicole,你也是我们 Imagen 模型的项目经理。
对于开发者或者了解所有模型的人来说,他们应该如何看待 Imagen 模型和我们现在这个原生能力之间的关系?
Nicole Brichtova: 是的,你也知道,我们的目标始终是用 Gemini 构建一个统一的模型。所以,我们的最终目标是始终将所有模态都整合到 Gemini 中,这样我们就能受益于 Mostafa 刚才提到的所有知识迁移,并最终朝着通用人工智能迈进。
在这个过程中,拥有一些专门针对特定任务且表现非常出色的模型是非常有用的。Imagen 就是一个非常出色的文生图模型。
我们还有很多不同的 Imagen 变体,它们也可以进行图像编辑,这些都在 Vertex AI 平台上提供。它们就是为特定任务而优化的。
所以,如果你只是想要文生图功能,并且想要极佳的视觉质量,同时还希望它成本效益高、生成速度快,那么 Imagen 就是你的首选。
但如果你需要一些更复杂的工作流程,比如你希望先用模型生成,然后在同一个流程中进行编辑,并且希望进行多轮互动,那么 Gemini 就是更好的选择。
所以,Gemini 更像是一个多模态的、富有创造力的合作伙伴,它可以输出图像,也可以输出文本。
Logan Kilpatrick: 是的,我今天就试了一个例子,很好奇你对应该用哪个模型有什么看法。我当时说:生成这张图片,然后让广告牌采用我提到的某家公司的风格。
这种任务,原生图像生成模型会不会因为在世界知识方面稍胜一筹而更具优势?
Nicole Brichtova: 你是说理解你指令背后的真实意图?是的,我认为这是一部分原因。另一部分原因是,通过原生图像生成,如果你想直接抓取你提到的那家公司的风格作为参考,你也可以将参考图输入到模型中。
也就是说,你可以输入一张图片作为参考,这对完成你的指令很有帮助。而这一点在 Gemini 中原生实现起来比在 Imagen 中要容易。
Logan Kilpatrick: 我会告诉你们广告牌用例的结果的——我要创建一个广告牌评估基准。
Nicole Brichtova: 我们会有一个 Logan 评估基准。
Logan Kilpatrick: 我喜欢这个想法。回到从 2.0 版本以来的进展这个话题。当时模型发布时,最有趣的事情之一就是人们给我们发来了大量的反馈,关于在 AI Studio 以及后来的 Gemini 应用中的体验。
我们能谈谈这段进步的历程吗?就是那些我们从 2.0 版本收到了大量反馈,说做得不好的地方,现在在 2.5 版本中有望得到改善的问题。
Robert Riachi: 是的,我们当时真的就是坐在推特上,浏览了大量的反馈。我还记得,我和 Kaushik 以及团队里的其他人,收集了所有失败的案例,并以此为基础制作了评估集。
所以我们有一个基准测试,是直接从推特上的真实用户反馈中提取的。就是人们圈我们说:嘿,这个功能不行。
对于我们未来开发的每一个模型,我们都会不断地往这个基准上添加内容。所以我们总是在收集这些反馈。
Logan Kilpatrick: 是的,请把那些不成功的例子发给我们。你们有没有什么印象特别深刻的例子,就是以前完全做不到,但现在简直是手到擒来的那种?
Kaushik Shivakumar: 是的,我特别注意到一点,在试用 2.5 模型时,我发现其实在 2.0 模型中,我们曾认为一个难点是保持图像之间的一致性。
特别是当你创建一个物体或角色,并希望这个角色在多张图片中保持一致时。事实证明,如果你让角色保持在输入图像中的相同位置,这其实相当容易。
2.0 模型可以在保持角色姿势和场景整体结构不变的情况下,给角色加上一顶帽子,改变表情等等。
而 2.5 模型在这些能力之上,新增的功能是,你可以要求从不同角度渲染这个角色,而它看起来会是完全相同的角色,只是换成了侧面视角。
或者,你可以拿一件家具,把它放到一个完全不同的环境中,重新调整它的朝向,并创造一个全新的场景。但那件家具会忠实于你最初上传的样子。
Logan Kilpatrick: 我喜欢这个。我对 2.0 的一些作品的反应是,有时候图像看起来……比如你添加一些东西,像在我的脸上加一个滑稽的胡子或者一顶帽子,它看起来几乎像是叠加或 PS 上去的。
这个问题是否也与角色一致性类似?我很好奇这个能力是否有所提升。
Kaushik Shivakumar: 是的,实际上,我认为这很大程度上归功于开发这个模型的团队。对于之前的模型,我们的心态有点像是:好了,它完成了编辑。任务成功了。
但是,当我们开始与 Imagen 团队越来越紧密地合作时,他们看到我们 Gemini 这边认为成功的同一个编辑,会说:这太糟糕了。
所以这是一个融合了两个团队视角的例子。Gemini 团队关注的是指令遵循、世界知识等。
而 Imagen 团队则关注让图像看起来自然、美观且真正有用。我认为需要将这两者结合起来,才使得 2.5 版本在你所描述的这些方面表现得好得多。
Nicole Brichtova: 是的,补充一下——我们团队里确实有一些主要来自 Imagen 团队的同事,他们有非常敏锐的审美品味。
所以很多时候我们做评估时,他们会看成百上千张图片,然后说:不,这个模型比那个模型好。
而团队里很多其他人看了会觉得:好吧。我觉得这种感觉是需要花几年时间去培养的。
Logan Kilpatrick: 你们能根据某个人的个人品味来训练一个自动评估器吗?
Nicole Brichtova: 我们目前还做不到。
Logan Kilpatrick: 这会是个有趣的副业项目。
Nicole Brichtova: 是的,这是一个我非常期待的副业项目。随着 Gemini 的理解能力越来越强,我希望能基于团队里一位在这方面特别出色的同事,开发一个审美自动评估器。
Mostafa Dehghani: 直接让那个人作为副业,为模型提供训练信号就行了。
Nicole Brichtova: 是的,是的,我们之后会把这个当成一个副业项目来做。
Logan Kilpatrick: 我喜欢这个想法。2.5 版本取得了很大进展。显然,大家都会非常兴奋地想要试用这个模型。接下来会是什么呢?
Mostafa Dehghani: 当谈到图像生成时,我们确实很关心视觉质量。但我认为,还有一个全新的、我们希望通过统一的全能模型实现的东西,那就是智能性。
你希望你的图像生成模型感觉起来是智能的。当用户与它互动时,他们不仅对图像质量印象深刻,还会觉得:哇,这太智能了。
我脑海里有一个例子,我非常期待它能实现。就是当我让模型做某件事时,它并没有遵循我的指令,但它做的结果,在我看到生成物之后,我会说:我很高兴它没有听我的指令。
这甚至比我实际描述的还要好。它有一种……你知道……
Logan Kilpatrick: 你觉得模型是故意这么做的吗?还是说这是一种意想不到的意外?
Mostafa Dehghani: 不,不,不只是那样。基本上,有时候你的描述是不充分的。或者有时候你对现实的看法是错误的。
但是,拥有 Gemini 知识的外部世界,它的视角和你的是不同的。我认为,这并不是刻意的,而是自然而然发生的。
然后你会感觉到,我正在与一个比我更聪明的系统互动。当我要求生成一些图片时,如果它偏离了我的指令,生成了和我要求的不一样的东西,我并不介意,因为大多数时候,结果比我想象的还要好。
所以,我认为从宏观上讲,智能性绝对是我们努力推进的方向,同时我们也会保持或提升视觉质量。
Logan Kilpatrick: 我喜欢这个。还有其他让大家兴奋的功能吗?
Nicole Brichtova: 我对事实性感到非常兴奋。这又回到了那个点,有时候你可能需要为工作演示文稿制作一个小图表或信息图。
如果它看起来很漂亮,那当然很好,但对于那个用例来说,这还不够。它还必须是准确的。
你不能有任何无关的文字。它必须既美观又实用。我觉得我们才刚刚开始探索这些模型在这方面的能力。
我梦想有一天,这些模型能真的为我制作工作用的幻灯片,而且做得很好看。
Logan Kilpatrick: 这是每个产品经理的梦想。
Nicole Brichtova: 是每个产品经理的梦想。我正试图把我工作的那部分外包给 Gemini,而我认为我们在这个过程中扮演着非常重要的角色。
Logan Kilpatrick: 太棒了,我喜欢。嗯,我想大家都会非常兴奋地想要试用这些模型。感谢你们四位,也感谢团队里的其他人促成了这一切。
我非常感谢大家付出的辛勤努力。我对这次发布感到非常兴奋。也感谢大家收看《版本说明》。我们下期节目再见。
视频地址:https://www.youtube.com/watch?v=H6ZXujE1qBA&list=WL&index=7&ab_channel=GoogleforDevelopers
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!