点击蓝字
关注我们

OpenAI于2005年9月25日推出了GDPval,这是一项新的评估方法,用于衡量 44 个职业中具有经济价值的现实任务的模型性能。它以 GDP为线索,从对经济贡献大的行业里挑选关键职业,由一线专家提供真实工作任务,评价更贴近日常工作。相比只考学术难题或编程竞赛,GDPval专注基于可交付成果的任务,同时用数据而不是猜测来判断模型能力,并能持续观察模型随时间的进步。它既说明模型在实验室外能做什么,也为政策、企业和教育在资源投入和能力建设上提供更可靠的参考。以下为报告编译:
GDPval 按“经济价值”选题:9个行业是根据圣路易斯联邦储备银行的数据确定的对美国GDP贡献超过 5% 的行业来选择的,其中遴选 44 个职业,构建 1,320 项专业任务(黄金开源集 220 项),并使用了来自O*NET——由美国劳工部赞助的美国职业信息数据库的数据,将每个职业的每项任务根据是知识工作还是体力劳进行分类。任务由平均 14 年经验的一线从业者设计并复核,每项任务都基于真实的工作产品,例如法律简报、工程蓝图、客户支持对话或护理计划,附带可以充分参考的上下文与情境,产出涵盖文档、幻灯片、图表、表格与多媒体。对比学术考试类基准(如 MMLU、Humanity’s Last Exam)或单一领域评测(如 SWE-Lancer)更贴近专业场景。

任务质量控制流程
每项任务都经过多步骤审查过程,以确保它代表实际工作,可供其他专业人员完成,并且易于评估。平均而言,每项任务都接受了 5 轮专家审查,包括来自其他任务编写者的检查、额外的职业审查员和基于模型的验证。生成的数据集包括每个职业(全集)的 30 个经过全面审查的任务,在开源黄金集中每个职业有 5 个任务,为评估模型在现实世界知识工作中的性能提供了坚实的基础。
作为早期尝试,GDPval 以一次性评估为主,尚难覆盖多轮沟通与迭代修订等现实细节;后续将走向更具交互性、上下文更丰富的流程化评估,更真实刻画模型如何支持专业人士。
以下是GDPval 任务示例
示例一:制造工程师
提示 + 任务上下文
这是 2025 年 6 月,您是汽车装配线的一名制造工程师。该产品是用于地下采矿作业的电缆绕线车,您正在查看最终测试步骤。在最后的测试步骤中,需要将一大卷电缆卷入和卷出 2 次,以确保电缆卷轴按要求工作。目前的作需要 2 人进行此测试。第一个人需要将线轴带到测试单元附近并放置,第二个人将电缆线轴的开口端连接到测试单元并逐步启动卷轴。当电缆从线轴上解开并放到卡车上时,第一个人需要旋转线轴以方便展开。当电缆完全卷到卡车上时,下一步是以相反的顺序执行作,以便电缆从卡车中卷出并回到自己的卷轴上。此测试将再次进行以确保功能。这项任务复杂,存在相关风险,需要大量劳动力并使工作区域变得混乱。您的经理要求您开发一种夹具/夹具,以简化电缆卷筒线轴的卷入和卷出,以便测试可以由一个人完成。此请求附有一份信息文档,其中提供了有关电缆卷筒尺寸的基本详细信息、设计电缆卷筒夹具和构建可交付成果的信息。这项任务的可交付成果将只是初步概念设计。将执行单独的任务来计算设计基础,例如应力、强度、成本效益分析等。使用 3D 建模软件设计夹具,并使用 Microsoft PowerPoint 创建演示文稿。作为可交付成果的一部分,仅上传一个总结设计的 pdf 文档,使用创建的 3D 设计的快照。提交不需要 3D 设计文件。
经验丰富的人工交付成果

示例二:订单员
提示 + 任务上下文
您是一家配件公司的批发销售分析师,为订单管理团队提供支持。财务团队已标记了最近几个订单的客户发票和内部定价之间的不一致,这可能是由于系统问题造成的。在根本原因得到解决之前,我们会要求您审核最近的批发订单,以识别并标记可能导致账单错误、短运或零售商处以合规罚款的 SKU 级输入错误。已为您提供附加的 Excel 文件,其中包含行级别的采购订单导出(按 SKU 组织)。导出包括以下字段:“订购的单位”、“输入的单价”、“预期单价”、“单位订单倍数 (UOM)”、“箱包”和“收货方”。箱包指示仓库中物料的包装方式。对于某些 SKU,即使存在包装箱,该商品也有资格单独发货;这些项目的 UOM 为“EA”。但是,单位为“CASE”的SKU必须以包装箱的倍数订购。在这些情况下,当订购的单位不能被包装整除时,将违反履行策略并导致错误。您的任务是汇总两个验证检查(价格不匹配和包装箱)中的任何行级错误,以确定哪些 SKU 存在问题以及存在哪些类型的错误。“包装错误”应表示订单数量未以正确的倍数订购的行数。使用附加的 Excel 文件并添加列来识别这两个类别中的错误,以及每行的错误总数。包括一列,该列返回一个文本值,该文本值汇总了每行的错误类型。然后,创建一个新选项卡并构建一个汇总表或数据透视表,以汇总 SKU 级别的错误,并能够向下钻取到 PO 级别。该表应显示价格不匹配错误、包装错误和总误差。返回 Excel 可交付成果,以及 Word 中的简要摘要,概述了已识别的错误类型。包括有关从何处开始解决问题的任何建议,尤其是在某些 SKU 的错误频率较高的情况下。最终,您的分析将支持公司管理层解决与最近订单的不一致问题。
经验丰富的人工交付成果

示例三:
提示 + 任务上下文
您是一家广告公司的视频制作人,准备加入一个新项目:60 秒的真人 B2B 视频拍摄。客户已于 2025 年 7 月 7 日星期一为该项目安排了启动电话会议,并将视频最终交付的截止日期定为 2025 年 8 月 29 日星期五。
在他们设置启动电话的最初电子邮件中,客户提到该视频将展示办公室环境中的员工如何使用他们的新软件应用程序来自动执行某些任务以提高效率。与动画或动态图形相比,客户端更喜欢实景,但根据其软件的 UI,屏幕上会有静态插页式图形和轻文本。
您可以根据此信息做出以下假设:
• 您的团队将提出如何讲述故事的概念。
• 视频将在一天内拍摄完毕,因为它并不太复杂。
• 您的团队将编写脚本。
• 您的团队将创建一个故事板。
• 您的团队将根据客户提供的 UI 创建图形。
使用 Google 日历、Monday.com、Microsoft Excel、PowerPoint 或任何基于可视化的日历应用程序(并导出为 PDF),准备一份完整的生产计划,直观地显示项目生命周期的所有阶段,从 7 月 7 日的启动电话会议开始,到 8 月 29 日的最终交付结束。
时间表的每个阶段(前期制作、后期制作、平面设计)都应采用颜色编码,以便轻松查看哪个阶段在哪个日期或日期范围内发生。随意使用您喜欢的任何颜色,只要工作阶段的颜色相同,以便于区分(例如,绿色的编辑/后期制作,粉红色的前期制作任务,黄色的图形)。同样,资产审查或批准等客户任务(所有这些任务都在下面标记为包含“客户”一词并标有星号*的任何内容)都应采用颜色编码,以区分您团队的任务和客户的任务。在交付每个资产(故事板、编辑第一轮)后,请安排两天时间让客户对材料进行内部审查。
请安排脚本和图形的两轮修改。编辑应该得到三轮修订,因为在生产生命周期的这个漫长阶段,客户端将拥有最多的注释。
下面列出了根据您作为制作人的经验的其他阶段的估计时间。
请包括以下阶段/任务(所有带有 * 客户端的任务都是客户端任务):
启动电话会议(2025 年 7 月 7 日)
内部创意工作购物(2 天)
内部创意审核(1 天)
* 客户推介会(1 天)
* 客户推介审查(2 天)
* 客户推介批准(1 天)
预算编制(4 天)、锁定预算(1 天)
剧本写作(两轮)(6-7天)
* 客户端脚本审查(2 天)
* 客户端脚本批准(1 天)
故事板(3 天)
* 客户故事板审查(2 天)
* 客户故事板批准(1 天)
图形(两轮)(6-7 天)
* 客户图形审查(2 天)
* 客户图形批准(1 天)
选角电话(4 天)
* 客户选角审查(2 天)
* 客户选角批准(1 天)
外景考察(4 天)
* 客户位置审查(2 天)
* 客户位置批准(1 天)
船员雇佣(2 天)
锁定施法(1 天)
锁定位置(1 天)
船闸船员(1 天)
剧本到演员(1 天)
备用装备租赁(1 天)
准备电话表(1 天)
船员呼叫表(1 天)
最终预制作调整(1 天)
拍摄日(1 天)
素材摄取 + 项目设置(1 天y)
编辑(三轮)(10-12天)
* 客户编辑评论(2 天)
* 客户最终批准(1 天)
音频混音(1 天)
颜色分级(1 天)
最终交付(2025 年 8 月 29 日)
*音频和颜色的客户审查(1 天 – 请注意,这只有 1 天,因为该视频应该简单明了。如果您日历上的时间不多了,您可以在同一天安排着色、混音和复习。
尽管计划的某些阶段在某些阶段完成之前无法开始(例如,在拍摄视频之前无法开始编辑),但其他阶段可以(并且应该)重叠,以确保有足够的时间按时完成项目。例如,选角电话和外景侦察可以在编写脚本的同时进行,因为在脚本编写开始之前,客户将签署概念(在本例中为办公室环境中的演员)。
已完成的时间表在日历上应该只有这个项目(但一定要考虑到任何美国联邦假期,因为在这些日子里不能完成任何工作)。不包括周末。根据需要,调整日历日的大小,以确保在任何给定日期发生的所有任务都清晰可见(即,没有需要用户单击才能查看的“+2 个以上任务”实例)。
完成后,时间表的 PDF 将分发给公司内的所有相关部门,以便部门负责人可以为每项任务安排适当的角色。该文档对于预测收入、员工可用性和员工利用率也很重要。
经验丰富的人工交付成果


GDPval 胜率:在具有经济价值的任务上表现
评估显示,当前顶尖模型在真实经济相关任务上的表现已接近行业专家水平。在专家盲测中,Claude Opus 4.1 模型的输出有47.6%的任务被评为优于或与专家成果相当,名列群雄之首;GPT-5则在准确度方面表现尤为突出。相比之下,其它模型(如OpenAI o3、GPT-4o mini、Gemini 2.5 Pro、Grok 4等)虽然也有进步,但在胜率上略低。

OpenAI 前沿模型随时间变化的性能
总体来看,从GPT-4o到GPT-5的性能增长超过了两倍,甚至有分析称一年内提升约三倍,显示出模型能力的快速迭代。在220道GDPval评估任务中,前沿模型的可交付成果与专家相比,几乎一半任务可以匹敌或超越专家水平。
各模型在不同维度上表现各异:
准确性:GPT-5在领域知识检索、计算和严格按要求执行方面表现最优,错误率最低。它几乎不出现算数错误或重大逻辑偏差。
美学与格式:Claude Opus 4.1在文档排版、幻灯片布局等视觉呈现上优势明显。其输出通常更符合专业审美要求,展示了更强的多模态处理和版式设计能力。
指令遵循和一致性:GPT-5很少偏离要求,遵循指令能力最好;而Gemini和Grok等模型常出现遗漏参考资料或错误格式的问题。总结来看,GPT-5在准确性上领跑,Claude 4.1在美观度上更强,而所有模型在复杂任务格式的一致性上仍有改进空间。
GDPval还考察了不同训练和推理策略对模型性能的提升效果:
增量训练:对GPT-5进行定向增量训练后,其在GDPval任务上的表现显著提高,为未来进一步改进提供了可能。
推理深度:实验设置了低/中/高不同“思考深度”模式,结果显示加大推理步骤数可以线性提升模型质量。即多轮推理、多阶段思考能帮助模型更好地解决任务。
提示工程:通过精心设计的提示,模型对输出进行自检和格式校对,大幅减少了错误。针对GPT-5的提示策略消除了PDF输出中的黑框问题,并将幻灯片格式错误率从86%降至64%;这也使GPT-5的专家优选率提高了约5个百分点。
代理增强:结合多模态工具(如代码解释器、网络检索)以及多样本评审(best-of-N 与模型自身评审)可进一步改善质量。GDPval指出,通过让模型调用外部资源和自我判断,模型在处理多文件任务时展现出更高的细致度和准确度。
GDPval任务一般需要专家平均7小时完成,然而前沿模型在纯推理时间上可实现近100倍的速度提升,并且成本低约100倍。例如,在一种“先让模型尝试、若不满意再由专家介入”的工作流中,AI辅助可显著节省时间和费用。这意味着对于重复性强、定义明确的子任务,首先交给模型尝试往往能大幅提效。此外,GDPval实验也表明,当模型进行更深入的推理(增加推理步数或解题步骤)时,其表现会持续提升,这反映了模型在复杂任务中的潜在能力。需要指出的是,这些速度与成本优势仅考虑了模型推理和API计费,未计入实际工作中所需的人工监督与迭代过程。

但是,当前GDPval尚未涵盖需要多轮交互和处理含糊信息的任务。实际工作中常出现任务定义不清,需要与客户沟通澄清需求的情景,而GDPval当前评估并未模拟这些情境。同时,在各种模型中,专家最常倾向于人类的输出,因为模型未能在GDPval任务中完全遵循指令。因此下一步计划是扩充任务类型和交互性,如加入需要对话、反复修订的多轮任务,以及面对模糊指令时的决策能力。未来的GDPval迭代还将覆盖更多行业和职业种类,并更广泛地测试模型在开放式、模糊场景中的表现,以更全面地衡量AI在实际知识工作中的进展。
GDPval评估的结果表明:当前AI模型已经能够承担某些重复性、明确性高的知识工作任务,并在效率和成本方面带来巨大潜力。在这些任务中使用AI可让人类专家将更多精力投入到创造性和判断力强的工作环节,从而为经济增长创造机会。然而,绝大多数工作超越了单一任务,仍依赖人类在沟通、创造和综合决策等方面的能力。未来需要通过不断改进交互式能力和模糊场景理解能力,使AI更好地补充人类劳动。OpenAI强调,推进这些技术进步的同时,应推动工具民主化、支持劳动者转型,以确保AI带来的变革“人人共享”。总之,GDPval从实证角度揭示了AI在实际工作场景中的潜在影响:一方面显著提升了效率、降低成本,另一方面也对未来劳动力提出了新要求和机遇。这一发现为我们理解AI在劳动市场中的角色、制定培训和政策提供了重要参考。
文章来源:
https://openai.com/index/gdpval/
编辑 | 李森(北京工商大学)
审核 | 赵杨博
终审 | 梁正 鲁俊群

