主持人
首先,恭喜您获得诺贝尔奖,并感谢 AlphaFold 带来的惊人突破。
我们都想听您亲口讲述获奖时的情景,您当时在哪里?是如何得知的?
Demis Hassabis
那是一个非常超现实的时刻,关于它的一切都感觉不真实。
他们会在全球直播前大概十分钟打电话通知你,当你接到来自瑞典的电话时,你几乎是处于震惊状态,那是每个科学家都梦寐以求的电话。
之后在瑞典与皇室共度的一整周颁奖典礼也同样精彩。这个传统已经延续了120年。
最奇妙的部分是,他们会从金库的保险柜里取出一本诺贝尔奖名册,让你签下自己的名字,旁边就是所有其他伟人的签名。
所以,当翻阅着前面的书页,看到费曼、玛丽·居里、爱因斯坦和尼尔斯·玻尔的名字,然后把自己的名字也写进那本书里,那真是一个不可思议的瞬间。
主持人
您之前是否隐约感觉自己被提名了,并且可能会获奖?
Demis Hassabis
你会听到一些传闻。但实际上,在今天这个时代,他们能把消息封锁得如此之好,令人惊讶,这几乎是瑞典的国宝级机密。
你会听说,像 AlphaFold 这样的成就也许值得那份认可。他们不仅看重科学突破本身,也看重其在现实世界中的影响力。
而这种影响力的显现可能需要二三十年。所以你永远无法确定,这件事是否会发生,以及会多快发生。因此,这完全是个惊喜。
主持人
在 Alphabet 这样庞大的组织里,DeepMind 扮演着什么样的角色?您负责什么?
Demis Hassabis
我们现在将 Google DeepMind 视为整个 Google 和 Alphabet 的引擎室。
大约几年前,我们将 Google 旗下所有不同的人工智能团队进行了合并,把所有团队的优势整合到一个部门中。
我们构建的主要模型 Gemini,以及视频模型和交互式世界模型等,现在已经接入到 Google 的所有产品线中。
基本上,现在每一个产品、每一个用户界面背后都有我们 AI 模型的支持。
无论是通过 AI 概览、AI 模式还是 Gemini 应用,现在有数十亿人正在与 Gemini 模型互动。而这仅仅是个开始,我们还在将其整合到 Workspace、Gmail 等产品中。
这对我们来说是一个绝佳的机会:既能进行前沿研究,又能立刻将成果交付给数十亿用户。
主持人
您的团队有多少人?人员构成是怎样的?
Demis Hassabis
Google DeepMind 大约有 5000 人,其中超过 80% 是工程师和拥有博士学位的研究员。
主持人
最近你们发布了名为 Genie 的世界模型,它是什么?
Demis Hassabis
你看到的视频和交互式世界,完全是由一个文本提示生成的。它不是静态视频,用户可以用键盘实时控制这个 3D 环境。
你所看到的一切,所有的像素都是实时生成的。在玩家或互动者到达世界的某个部分之前,那些东西根本不存在。
这个模型正在逆向工程出直观物理学。它观看了数百万个视频,从中逆向解析出了世界运作的许多规律。
主持人
传统的 3D 渲染引擎需要程序员手动编写所有物理定律,但这个模型仅仅通过学习视频,就自己搞懂了这一切。
Demis Hassabis
是的,它通过学习视频和一些来自游戏引擎的合成数据训练出来,就这么逆向工程出了所有规律。
这个项目对我个人意义非凡。因为在90年代,我曾为视频游戏编写 AI 和图形引擎,深知手动编程所有物理效果是多么困难。
现在看到这个模型能毫不费力地完成这一切,包括水面倒影、材质流动和物体行为,真是太神奇了。它解决的复杂性难以用语言形容。
主持人
这项技术会把我们引向何方?
Demis Hassabis
我们之所以构建这类模型,是因为要构建通用人工智能(AGI),系统需要理解我们周遭的物理世界,而不仅仅是语言或数学等抽象世界。
这是机器人技术能正常工作的关键,也是目前所缺失的部分。同样,像智能眼镜这样的设备,也必须理解你所处的物理环境。
我们认为,构建这类世界模型,是让 AI 理解世界动态和物理规律的体现。如果系统能生成它,就表明它理解了它。
主持人
那么,一个能通过摄像头观察世界,然后通过语言指令执行物理动作的通用机器人系统,目前发展到什么阶段了?
Demis Hassabis
没错。如果你试试 Gemini Live,举起手机对准周围的世界,就会发现它对物理世界的理解能力已经相当神奇。
下一步就是将这种能力整合到眼镜之类的便携设备中,让它成为日常助手。
在机器人技术方面,我们开发了 Gemini 机器人模型。我们做过演示,你可以直接和两只机械手对话,比如告诉它“把黄色的物体放进红色的桶里”,它就能将语言指令转化为动作。
这就是多模态模型的强大之处,它能将对现实世界的理解带入互动中,这也是机器人安全导航世界所必需的。
主持人
这是否意味着你们最终可以构建一个机器人版的 Android 操作系统,从而催生机器人设备和产业的爆发?
Demis Hassabis
完全正确。这当然是我们正在追求的策略之一,一个跨机器人平台的操作系统层。
但同时,将我们最新的模型与特定的机器人设计进行垂直整合,并进行端到端的学习,也同样很有趣。我们正在同时推进这两种策略。
主持人
您认为人形机器人是一个好的形态选择吗?
Demis Hassabis
我认为两者都会有各自的位置。五到十年前,我认为专用形态的机器人会是主流,比如在工业领域,为特定任务优化的机器人效率最高。
但另一方面,对于通用或个人使用的机器人,人形形态可能非常重要。因为我们设计的物理世界,像台阶、门廊,都是为人类服务的。
与其去改变现实世界,设计一个能与我们已有世界无缝协作的形态可能更容易。所以我认为人形形态对于这类任务非常重要,当然,专业形态的机器人也有一席之地。
主持人
在未来五到七年内,您对机器人数量的规模有何看法?
Dem-is Hassabis
我确实花了很多时间思考这个问题,但我感觉我们还处于比较早期的阶段。
未来几年机器人领域会出现一个真正令人惊叹的时刻,但算法还需要进一步发展,通用模型需要更可靠,更好地理解世界。
硬件方面也存在一个时机问题。你必须在硬件水平足够成熟时才能规模化生产,否则,你刚建好工厂,六个月后可能就出现了下一代更可靠、更灵巧的机器人。
主持人
用计算机发展的类比来说,我们现在大概处于70年代个人电脑和 DOS 系统的时代?
Demis Hassabis
可能如此。但不同之处在于,现在可能一年就会发生过去十年才能发生的变化。
主持人
让我们谈谈科学。您一直认为 AI 最大的价值在于解决人类难以处理的科学问题。您最兴奋的科学突破领域是什么?
Demis Hassabis
用 AI 加速科学发现,是我整个职业生涯投身于此的原因。我认为,如果我们以正确的方式构建 AGI,它将成为科学的终极工具。
我们在 DeepMind 已经展示了很多可能性,最著名的当然是 AlphaFold,但我们也已将 AI 应用于材料设计、聚变反应堆控制、天气预测、解决奥数难题等众多领域。
我认为我们目前对 AI 的潜力还只是触及了皮毛。有些能力是目前缺失的。
例如,今天的 AI 我认为不具备真正的创造力。它还不能提出新的猜想或假设。它或许能证明你给它的某个东西,但自己还无法提出一个新想法或新理论。
主持人
作为人类,创造力是什么?
Demis Hassabis
我认为创造力是那种我们常常在历史上最杰出的科学家和艺术家身上看到的直觉性飞跃。
这可能是通过类比或类比推理完成的。关于人类科学家如何做到这一点,心理学和神经科学中有很多理论。
一个好的测试方法是,给一个现代 AI 系统设定一个知识截止日期,比如1901年,看它是否能像爱因斯坦在1905年那样提出相对论。如果能,那我们就取得了真正重要的进展。
另一个例子是我们的 AlphaGo。它不仅赢了比赛,还发明了前所未见的新策略。但问题是,一个 AI 系统能否创造出一个像围棋一样优雅、令人满足、具有美感的游戏,而不仅仅是一个新策略?
目前,对这些问题的答案是否定的。我认为这是目前一个真正的通用系统,一个 AGI 系统所缺失的能力。
主持人
您能具体分析一下目前还缺少什么吗?您似乎不像某些人那样认为 AGI 几年内就会到来。
Demis Hassabis
我认为最根本的方面是,我们能否模仿最优秀的人类科学家所能做出的那种直觉性飞跃,而不仅仅是渐进式的进步。伟大的科学家比优秀的科学家更具创造力。
我相信有一天 AI 也能做到这一点,但目前它还不具备实现这种突破所需的推理能力和思维能力。
我还认为我们缺乏一致性。你常听到有人说,现在的系统具备博士级别的智能。我认为这是无稽之谈。它们在某些方面的能力达到了博士水平,但并非在所有领域都如此。
事实上,我们都知道,今天的聊天机器人,如果你换种方式提问,它们甚至会在高中数学和简单的计数上犯错。对于一个真正的 AGI 系统来说,这是不应该发生的。
所以,我认为我们距离一个能做到这些事情的 AGI 系统,大概还有五到十年的时间。
另一个缺失的能力是持续学习,即能够在线教系统新东西,或调整其行为。我认为很多这些核心能力仍然缺失,可能还需要一到两个关键性的突破。
主持人
有报告说大型语言模型的性能正在趋同,提升速度也在放缓,是这样吗?
Demis Hassabis
不,我们在内部并没有看到这种情况,我们仍然看到巨大的进步速度。
而且,我们正在更广阔的视野看待问题,比如我们的 Genie 模型和 VEO 模型,以及 ImageFX 工具,它简直太不可思议了。
主持人
您能详细谈谈 Nano Banana 这样的创意工具吗?
Demis Hassabis
我认为这就是许多创意工具的未来。你只需要和它对话,它就足够连贯。Nano Banana 之所以出色,在于它的一致性。
它能理解并遵循你的指令,只改变你想要改变的部分,而保持其他一切不变。这样你就可以通过迭代,最终得到想要的效果。
我认为这就是很多创意工具未来的发展方向,它实现了创造力的民主化,人们喜欢用它来创作。
主持人
这意味着任何人都能轻松创作,而不需要像过去那样学习复杂的软件。
Demis Hassabis
是的,你会看到两件事发生。一是这类工具的普及化,让每个人都可以直接使用和创作。
另一方面,我们也在与顶尖的电影制作人、创作者和艺术家合作,比如导演达伦·阿伦诺夫斯基。我们发现这些工具也极大地增强了专业人士的能力。
他们突然之间可以变得效率高十倍、一百倍,可以以非常低的成本尝试脑海中各种各样的想法,然后创作出他们想要的美好作品。
所以,我们既在为日常用户普及工具,同时也在高端领域赋能最顶尖的创作者。
主持人
我们会进入一个每个人都可以描述自己感兴趣的内容,然后由 AI 生成的时代吗?比如个性化的音乐或游戏。我们还会有一致的、共享的文化故事吗?
Demis Hassabis
我确实预见到一个共同创作的世界。我是在游戏行业起步的,我认为我们正看到娱乐业未来的开端,可能是一种新的艺术形式。
我仍然相信,顶尖的、有远见的创作者会存在。他们将创造出引人入胜的体验和动态的故事情节,其作品质量会比普通人更高。
数百万人会沉浸在他们创造的世界里,但也许也能共同创造世界的某些部分。那位主要的创作者,更像是一个世界的编辑。
主持人
您现在主要把时间花在哪些方面?能介绍一下 Isomorphic 公司吗?
Demis Hassabis
是的,我同时也在运营 Isomorphic,这是我们分拆出来的一家公司,致力于彻底改变药物发现的过程。
它建立在我们 AlphaFold 在蛋白质折叠领域的突破之上。当然,知道蛋白质的结构只是药物发现过程中的一步。
你可以把 Isomorphic 想象成正在构建许多与 AlphaFold 相邻的技术,以帮助设计没有副作用、但能精确结合到蛋白质正确位置的化学化合物。
我认为,在未来十年内,我们可以将药物发现的时间从数年、有时甚至长达十年,缩短到可能几周甚至几天。我们大概明年某个时候会进入临床前阶段。
主持人
在药物发现中,你们多大程度上是在构建能与物理化学规律匹配的确定性模型,而不是完全依赖概率性模型?
Demis Hassabis
这是一个很好的问题。目前以及未来五年左右,我们正在构建的是混合模型。
AlphaFold 本身就是一个混合模型。它有基于神经网络的学习组件,但生物学和化学领域并没有足够的数据可供学习。
所以你还必须将一些已知的化学和物理规则内置进去。比如原子间化学键的角度,以及确保原子之间不能重叠。
理论上 AI 可以自己学,但这会浪费大量学习能力。所以最好是把这些作为一种约束条件内置进去。这里的诀窍在于如何将学习系统与人工设计的系统完美地结合起来。
主持人
这种混合架构最终能带来 AGI 所需的突破吗?
Demis Hassabis
我认为最终的目标是,当你通过混合系统弄明白某件事后,你希望将这个认知融入到学习组件中,实现端到端的学习。
就像我们对 AlphaGo 的更通用版本 AlphaZero 所做的那样。AlphaGo 有一些围棋的特定知识,但 AlphaZero 去掉了这些,让它完全从零开始自我学习,从而能学习任何游戏。
主持人
很多人担心 AI 带来的巨大能源需求,您怎么看?
Demis Hassabis
有趣的是,我认为两种情况都是对的。一方面,我们非常注重开发高效的模型,因为我们需要服务数十亿用户,必须做到低延迟、低成本。
在过去两年里,模型的效率提升了十倍,甚至百倍。
但另一方面,这并没有减少总需求,因为我们还没达到 AGI,前沿模型的研究和训练需要越来越大的规模。所以两件事是同时发生的。
最终,我认为 AI 系统对能源和气候变化的贡献,将远远超过其消耗。无论是提升电网效率、新材料设计还是新能源发现,AI 的帮助将远超其自身用量。
主持人
作为最后一个问题,请描述一下十年后的世界。
Demis Hassabis
在 AI 领域,十年甚至十周,都像是一辈子那么长。
但我确实觉得,在未来十年内,我们将拥有 AGI,完全的 AGI。
我认为那将开启一个科学的新黄金时代,一场新的文艺复兴。我们将看到它在从能源到人类健康等所有领域带来的好处。
访谈地址:https://www.youtube.com/watch?v=Kr3Sh2PKA8Y&ab_channel=All-InPodcast
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!