谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

量子位 2025-09-26 12:56

西风发自凹非寺
量子位 | 公众号 QbitAI

OpenAI发布最新研究，却在里面夸了一波Claude。

他们提出名为GDPval的新基准，用来衡量AI模型在真实世界具有经济价值的任务上的表现。

具体来说，GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业，这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。

专业评分人员将主流模型的输出结果与人类专家的成果进行了对比。

最终测试下来，Claude Opus 4.1成为表现最佳的模型，47.6%的产出被评定媲美人类专家成果。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图1

GPT-5 38.8%的成绩和Claude还是有些差距，位居第二；GPT-4o与人类相比只有12.4%获胜或平局。

没能成为最优，OpenAI也给自己找补了：不同模型各有优势，Claude Opus 4.1主要是在美学方面突出，而GPT-5在准确性上更优。

OpenAI还表示，同样值得注意的是模型的进步速度，其前沿模型在短短一年内，胜率几乎实现了翻倍。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图2

最后OpenAI还开源了包含220项任务的优质子集，并提供公开的自动评分服务。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图3

网友看后纷纷表示，非常因吹斯汀的研究：

OpenAI各代模型的性能呈线性增长，以及感谢对竞争对手的认可。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图4

还有网友认为，这也可能是奥特曼精心设计的宣传手段，通过吹嘘AI能为GDP带来增长而筹集资金。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图5

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图6

下面具体来看一下这项测试。

测试AI的“挣钱”能力

OpenAI指出，GDPval相比现有的AI评估，好就好在：

任务基于真实工作成果且关联完成时间与成本，具备现实性；
涵盖O*NET（美国职业信息网络）追踪的大部分职业工作活动，具有代表性广度；
任务要求处理多种格式文件并解析多个参考文件，涉及计算机使用与多模态；
除了正确性还需考虑结构、风格等主观因素，数据集也可作为评估自动评分系统性能的测试平台；
以胜率为主要指标无上限，支持持续评估；
任务难度高，行业专业人士平均需7小时完成，复杂任务甚至耗时数周。

其任务构建流程，首先从确定核心行业与职业入手。

OpenAI先是筛选出了对美国GDP贡献超5%的9个行业（依据2024年第二季度各行业增加值占美国国内生产总值百分比数据），再在每个行业内挑选5个贡献工资总额最多且以数字任务为主的职业。

判断职业是否“以数字任务为主”时，参考ONET中该职业的所有任务，借助GPT-4o对任务按“数字/非数字”分类，结合ONET中任务的相关性、重要性和频率得分加权计算，若60%以上任务为数字任务，则将该职业纳入。

最终OpenAI筛选出了44个职业，这些职业合计年创收3万亿美元。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图7

接着进行行业专业人士招募，要求参与任务创建的专家至少有4年相关职业经验，简历需体现专业认可度、晋升经历及管理职责。

经统计，招募来的行业专家平均经验达14年。

这些人还需进一步通过视频面试、背景调查、培训及测试才能参与该项目（OpenAI还会给到一笔优厚报酬），其前雇主涵盖苹果、谷歌、微软、Meta、三星、甲骨文、IBM、摩根大通等众多知名企业与机构，确保专家具备扎实的行业实践基础。

任务创建环节，每个GDPval任务包含“需求”和“交付成果”两部分，行业专家会对照O*NET中自身职业的任务分类设计任务，以保证任务覆盖的广度与代表性。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图8

为了评估任务质量，OpenAI要求这些专家根据其职业的实际标准，对每项任务的难度、代表性、完成时间和整体质量等进行打分，并结合OEWS（美国劳工统计局职业就业统计）数据中对应职业的中位时薪，通过“平均完成时间×时薪”计算每个任务的经济价值。

最终，GDPval全集中总共包含1320项任务，所有任务均经过了“自动化模型筛选+多轮人类专家审核”的迭代流程，每个任务会获得至少3次、平均5次的人工审核。

专家在各评审阶段会给出详细意见。任务会根据意见反复修改完善。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图9

Claude表现媲美人类专家

OpenAI开源了包含220项任务的优质子集，采用了盲态专家pairwise对比法（即专家不知晓待评成果来源的成对对比评分方式），对该子集进行评级。

每项对比评分平均耗时超过1小时。OpenAI表示还额外邀请了更多职业领域专家，对人类专家与模型输出的成果进行评分。专家需为其选择及排序结果提供详细依据。

针对优质子集，OpenAI同时开发了实验性自动评分器，其与人类专家评分的一致性达66%，仅比人类间评分一致性（71%）低5%。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图10

对GPT-4o、o4-mini、o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro及Grok 4这几款模型进行评估后，结果显示：

在GDPval优质子集任务中，Claude Opus 4.1是整体表现最佳的模型，尤其在美观性方面（如文档格式、幻灯片布局）表现突出。

其输出的成果中，有47.6%被评定为优于或等同于人类专家水平的成果。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图11

OpenAI各代模型在GDPval上的表现大致呈线性提升。

而根据下图所示，GPT-5在准确性方面（如严格遵循指令、完成正确计算）优势显著。

换句话说，GPT-5在纯文本任务上表现更优，但Claude在.pdf、.xlsx、.ppt等文件类型的处理上表现更佳，展现出更强的视觉感知与美观设计能力。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图12

在GDPval优质子集的全部任务中，有略多于50%的任务里，至少有一个模型的输出成果优于人类专家或与人类专家相当。

OpenAI还指出，将AI模型与人类监督结合，在完成任务时有望比单独人类专家更经济高效。

无论是“先让模型试做，不满意再自己改”的模式，还是“直接用模型成果”“只让模型试一次就自己做”等模式，都能帮人类节省成本和时间。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图13

此外，研究发现增加推理努力（如对o3、GPT-5设置不同推理强度）、提供更多任务背景、优化提示词与智能体辅助框架（如通过在容器中支持GET请求，采用“N=4”的“最优N选1”抽样策略，搭配GPT-5作为判断模型）能显著提升模型性能。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图14

OpenAI也指出了GDPval的局限性，如数据集规模有限（仅44种职业）、聚焦可在计算机上完成的知识工作（不包含体力劳动等）、任务为精准指定的一次性任务（缺乏交互性）、自动评分器存在不足、评估成本高等。

目前，GDPval尚处于初步阶段，OpenAI计划在未来的迭代版本中，逐步拓展其覆盖范围、增强真实性与交互性，并纳入更多场景细节。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图15

By the way，不光OpenAI觉得Claude好，曾经的亲密盟友微软最近传来消息：携手Anthropic优化Microsoft 365 Copilot AI助手（doge）。

参考链接：
[1]https://x.com/OpenAI/status/1971249374077518226
[2]https://evals.openai.com/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🎡 量子位智库AI100季度榜单征集中！征集截至10月10日。欢迎提名2025年Q3「AI 100」双榜单产品～

🙋‍♀️ 点击链接填写：https://wj.qq.com/s2/23045758/29fb/ 或扫描下方二维码填报

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己图16

一键关注 👇 点亮星标

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

AI 测试

more

新车：荣威M7DMH售价8.58万元起；小米YU7GT现身纽北；比亚迪仰望02 测试车官宣；五菱星光730内饰公布

好机友 1周前

新车：荣威M7DMH售价8.58万元起；小米YU7GT现身纽北；比亚迪仰望02 测试车官宣；五菱星光730内饰公布

中汽中心完成汽车测试领域整合：中汽股份正式股权收购极限检验中心

中国汽车报 1周前

中汽中心完成汽车测试领域整合：中汽股份正式股权收购极限检验中心

小米YU7高性能版纽北测试曝光：命名GT或Ultra，动力超1500马力

TechWeb 1周前

小米YU7高性能版纽北测试曝光：命名GT或Ultra，动力超1500马力

手表的压力测试其实是骗你的，准确率约等于算命

虎嗅app 1周前

手表的压力测试其实是骗你的，准确率约等于算命

GPT-5通过“哥德尔测试”！独创性解决博士生都得花几天时间的开放数学问题

量子位 1天前

GPT-5通过“哥德尔测试”！独创性解决博士生都得花几天时间的开放数学问题

会议预告 | HiPi ICTS 2025 集成电路测试技术研讨会，测试助力数智化创新

半导体在线 2天前

会议预告 | HiPi ICTS 2025 集成电路测试技术研讨会，测试助力数智化创新

理想i6高速避障测试对标Model Y 李想：新形态SUV"交卷"了

TechWeb 4天前

理想i6高速避障测试对标Model Y 李想：新形态SUV"交卷"了

麦格纳、北斗智联、蔡司微光学、通用测试、罗森伯格、黑芝麻智能科技、富朗巴等企业亮相 SAECCE2025亮点展商展品爆料！

新材料在线 1天前

麦格纳、北斗智联、蔡司微光学、通用测试、罗森伯格、黑芝麻智能科技、富朗巴等企业亮相 SAECCE2025亮点展商展品爆料！

ChatGPT高冷J型，豆包暖暖F男，大模型 MBTI 测试，看看哪个更适合你

APPSO 3天前

ChatGPT高冷J型，豆包暖暖F男，大模型 MBTI 测试，看看哪个更适合你

V2000CG凯瑞鸥海岛测试飞行

无人机网 1周前

V2000CG凯瑞鸥海岛测试飞行

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号