到2030年,大语言模型有望在几小时内解决人类需数月时间才能完成的任务。
对大语言模型进行基准测试会带来一些不同寻常的挑战。首先,许多大语言模型的主要目的都是提供与人类写作并无二致且引人入胜的文本。而且,这种任务的成功可能与传统上用于判断处理器性能的指标(如指令执行率等)无关。
不过,我们有充分的理由坚持尝试衡量大语言模型的表现。否则,就不可能定量地了解大语言模型随着时间的推移能有多大程度的改进,也不可能估算何时它们才能独立完成实质性的有用项目。
这是模型评估与威胁研究(METR)工作背后的关键动机。该组织的总部位于加利福尼亚州伯克利,负责“研究、开发和评估前沿人工智能系统在没有人类输入的情况下完成复杂任务的能力”。2025年3月,该组织发表了一篇题为《衡量人工智能完成长期任务的能力》(Measuring AI Ability to Complete Long Tasks)的论文,该论文得出了一个惊人的结论,即根据其设计的一项指标来看,关键大语言模型的能力每7个月就会翻一番。这种认识也引出了第二个同样令人震惊的结论:到2030年,最先进的大语言模型应该能够以50%的可靠性完成一项基于软件的任务,而人类完成这项任务需要以每周40个小时的强度工作1个月。大语言模型将能以比人类快得多的速完成这种任务,它们只需要几天甚至几个小时。

这类任务可能包括创办一家公司、写一本小说或大幅改进现有的大语言模型。人工智能研究员扎克·斯坦铂尔曼(Zach Stein-Perlman)在一篇博客文章中写道,具有这种能力的大语言模型“无论是从潜在的益处还是潜在的风险方面来说,都将带来巨大的利益”。
METR工作的核心是研究人员设计的一个名为“任务完成时间范围”的指标。该指标是指人类程序员平均完成一项任务所需的时间,而大语言模型能够在一定程度上(比如50%)可靠地完成这项任务。左图显示,过去几年里,一些通用大语言模型的这项指标明显呈指数级增长,大约7个月就会翻一番。研究人员也考虑了任务的“混乱”因素,根据METR研究员梅根·金妮曼特(Megan Kinniment)的说法,“混乱”的任务是指那些与“现实世界”中的任务更相似的任务。对于大语言模型而言,更复杂的任务更具挑战性(上图)。
也许大语言模型自我提升的概念会让你联想到某种奇点末日的景象,金妮曼特也深以为然。但她提醒道:“其提升速度可能会相当快,这确实会让事情变得更加难以控制,但不一定会导致这种大规模的爆炸式增长。”她补充说,各种因素很有可能会减缓实践的速度。“即使我们拥有了非常聪明的人工智能,这种进步速度最终仍有可能在硬件和机器人等方面遇到瓶颈。”
报名
