人工智能的未来,快速发展的大语言模型

EETOP 2025-09-19 09:34

到2030年,大语言模型有望在几小时内解决人类需数月时间才能完成的任务。

对大语言模型进行基准测试会带来一些不同寻常的挑战。首先,许多大语言模型的主要目的都是提供与人类写作并无二致且引人入胜的文本。而且,这种任务的成功可能与传统上用于判断处理器性能的指标(如指令执行率等)无关。

不过,我们有充分的理由坚持尝试衡量大语言模型的表现。否则,就不可能定量地了解大语言模型随着时间的推移能有多大程度的改进,也不可能估算何时它们才能独立完成实质性的有用项目。

这是模型评估与威胁研究(METR)工作背后的关键动机。该组织的总部位于加利福尼亚州伯克利,负责“研究、开发和评估前沿人工智能系统在没有人类输入的情况下完成复杂任务的能力”。2025年3月,该组织发表了一篇题为《衡量人工智能完成长期任务的能力》(Measuring AI Ability to Complete Long Tasks)的论文,该论文得出了一个惊人的结论,即根据其设计的一项指标来看,关键大语言模型的能力每7个月就会翻一番。这种认识也引出了第二个同样令人震惊的结论:到2030年,最先进的大语言模型应该能够以50%的可靠性完成一项基于软件的任务,而人类完成这项任务需要以每周40个小时的强度工作1个月。大语言模型将能以比人类快得多的速完成这种任务,它们只需要几天甚至几个小时。

资讯配图

这类任务可能包括创办一家公司、写一本小说或大幅改进现有的大语言模型。人工智能研究员扎克·斯坦铂尔曼(Zach Stein-Perlman)在一篇博客文章中写道,具有这种能力的大语言模型“无论是从潜在的益处还是潜在的风险方面来说,都将带来巨大的利益”。

METR工作的核心是研究人员设计的一个名为“任务完成时间范围”的指标。该指标是指人类程序员平均完成一项任务所需的时间,而大语言模型能够在一定程度上(比如50%)可靠地完成这项任务。左图显示,过去几年里,一些通用大语言模型的这项指标明显呈指数级增长,大约7个月就会翻一番。研究人员也考虑了任务的“混乱”因素,根据METR研究员梅根·金妮曼特(Megan Kinniment)的说法,“混乱”的任务是指那些与“现实世界”中的任务更相似的任务。对于大语言模型而言,更复杂的任务更具挑战性(上图)。

也许大语言模型自我提升的概念会让你联想到某种奇点末日的景象,金妮曼特也深以为然。但她提醒道:“其提升速度可能会相当快,这确实会让事情变得更加难以控制,但不一定会导致这种大规模的爆炸式增长。”她补充说,各种因素很有可能会减缓实践的速度。“即使我们拥有了非常聪明的人工智能,这种进步速度最终仍有可能在硬件和机器人等方面遇到瓶颈。”

文章来源于悦智网,作者Gwendolyn Rak

报名

资讯配图
注:本次研讨会席位有限,因此暂停对院校学生开放报名,望理解。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
人工智能
more
人工智能如何创造新的生命形式 | Eric Nguyen | TED
竞争主旋律下,人工智能国际治理合作何时有 | 区势·AI
重磅!2025年中国及31省市人工智能代理行业政策汇总及解读(全)
【教育】“人工智能+教育”!温州发布三年行动计划
【教育】北京中小学人工智能通识课开课!覆盖1400多所学校
车百智评001期 | 从汽车产业视角解读《关于深入实施“人工智能+”行动的意见》
全球南方的开放式人工智能创新:地缘战略竞争中的新机CSIS【海外智库观察】
【报告】AI专题四:2025年专业服务领域生成式人工智能报告(附PDF下载)
黄仁勋:我的AI工具使用经验 | 区势·AI
【教育】人工智能通识教育如何落地?走进杭州中小学一探究竟
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号