GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则

新智元 2025-11-21 18:30

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图1

新智元报道

编辑：LRST

【新智元导读】最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示，即使是顶尖大模型在处理复杂任务时也表现不佳，尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话，揭示了AI在专业领域的不足，强调开发更可靠AI系统的重要性。

大模型技术日新月异，MMLU、GPQA 等学术基准的分数不断被刷新。

然而，当这些「高分模型」进入到金融、法律等利害攸关 (high-stakes) 的专业领域时，它们真的能胜任吗？

现实应用中存在两大难题：

1.学术基准的视角局限：现有学术基准（如MMLU）提供的视角是有限的，更侧重于有标准答案的STEM推理，而忽视了在金融、法律领域中那些开放式、无唯一答案、且具有重大经济后果的真实任务。

2.现有专业基准的局限：目前行业内的专业基准大多「要么私有、要么规模太小」，且往往缺乏可解释、可复现的评估标准。

为突破这一瓶颈，Scale AI团队重磅推出了专业推理基准(Professional Reasoning Bench， PRBench) ，一个针对金融和法律领域的现实、开放且有挑战性的基准。

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图2

论文链接：https://scale.com/research/prbench

团队招募了182名持有JD、CFA或6年以上经验的合格专业人士 ，围绕他们实际客户工作中的真实需求，撰写了1100个专家级任务，任务覆盖范围极广，涵盖全球114个国家和47个美国司法管辖区。

PRBench的核心在于其19,356条专家评估准则 (rubrics) ，使其成为法律和金融领域规模最大的、公开的、基于准则的基准。

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图3

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图4

那么，顶尖大模型的表现如何？

在代表最具挑战性案例的「困难子集」 (Hard subset)上，表现最好的模型（GPT-5 Pro/GPT-5）在金融和法律上的得分也仅为0.39和0.37。

这揭示了一个核心差距：尽管AI正被用于辅助「利害攸关」的决策，但模型的常见失败模式，例如「判断不准确」、「过程缺乏透明度」和「推理不完整」，使其在处理这些具有重大经济后果的任务时，显得并不可靠。

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图5

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图6

直指「经济路径」，拷问真实决策力

PRBench不再满足于评估「答案是否正确」，而是独创了「经济路径」(Economic Pathway)分析维度，旨在评估模型处理那些「能直接导致真实经济后果」（如降低风险、创造价值）的决策任务的能力。

例如，在金融领域价值创造 (Value Creation)、风险管理与韧性 (Risk & Resilience)

在法律领域规避处罚与赔偿 (Penalty and Damages Avoidance)、合同风险配置 (Contractual Risk Allocation)

分析发现，这些「经济后果」越重大的任务，模型失败的风险就越高，这也正是PRBench所要拷问的核心能力。

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图8

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则图9

模拟真实场景，30%的多轮对话

与许多「一问一答」的基准不同，PRBench中约30%的任务是多轮对话 。

这模拟了专业人士（如律师或金融分析师）的真实工作流：他们不会一步到位，而是通过「迭代式提问」来「逐步建立上下文或做出澄清」。

例如，在图12的金融任务中：

用户（第1轮）：提出了一个非常复杂的宏观场景：「如果我们遇到150个基点的主权蔓延冲击...如何...避免强制出售资产的情况下，维持流动性覆盖率？」
模型（第1轮）：给出了一个高层次的框架性回答，分析了冲击的影响。
用户（第2轮）：基于模型的回答进行「向后推导」和「追问」：「现在从我们流动性比例失败的点倒推回来...你会设置什么早期预警触发器？以及你会采取什么确切的步骤...？」。

这种设计迫使模型不仅要懂知识，还必须能像真实的专家那样，在复杂的多轮对话流中逐步建立并深入理解上下文，进而施展严谨的深度推理能力。

结语

PRBench的发布，为「利害攸关」的专业AI应用提供了一个急需的、透明且可靠的评估框架。

它揭示了一个明确的事实：尽管大模型在通用能力上进步神速，但在真正辅助现实世界决策，尤其是金融和法律等专业领域，它们还远未达到可靠的标准。

通过开源这一规模最大的Rubric基准，团队希望能推动研究界共同努力，开发出更透明、更可靠、真正具有经济价值的AI系统。

参考资料：

https://scale.com/research/prbench

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

金融

more

2026年中国汽车金融行业报告（极简版）

瞻研究 3天前

2026年中国汽车金融行业报告（极简版）

首笔科创贷OPC贷到账！金融活水助力OPC发展

成都科技 2个月前

首笔科创贷OPC贷到账！金融活水助力OPC发展

2026年第一批成都市科技型企业科技金融资助拟立项项目公示等｜成都科技服务（内含4条信息）

成都科技 7个月前

2026年第一批成都市科技型企业科技金融资助拟立项项目公示等｜成都科技服务（内含4条信息）

【“智改数转”在行动】成都高新区：以“数智券+智造贷”金融工具创新突破中小企业转型困局

四川制造 8个月前

【“智改数转”在行动】成都高新区：以“数智券+智造贷”金融工具创新突破中小企业转型困局

深圳前海金融赋能低空经济产业高质量发展十二条措施（征求意见稿）发布，鼓励低空场景创新和保险产品创新，探索与港交所建立上市快速通道

低空经济观察 2个月前

深圳前海金融赋能低空经济产业高质量发展十二条措施（征求意见稿）发布，鼓励低空场景创新和保险产品创新，探索与港交所建立上市快速通道

福布斯U30再添涉诈案例：土耳其裔金融科技创始人被控多项联邦罪名

科技区角 4个月前

福布斯U30再添涉诈案例：土耳其裔金融科技创始人被控多项联邦罪名

4个金融男搞AI音乐，拿下27亿融资，估值超过366亿

智东西 2周前

4个金融男搞AI音乐，拿下27亿融资，估值超过366亿

AI杀入金融数据圈：千问、Kimi接入股票数据库，券商投顾会被替代吗？

搜狐科技 1个月前

AI杀入金融数据圈：千问、Kimi接入股票数据库，券商投顾会被替代吗？

大厂芯片业务前负责人创业AI CPU，拿下头部基金融资，已量产出货15万颗｜早起看早期

36氪 4个月前

大厂芯片业务前负责人创业AI CPU，拿下头部基金融资，已量产出货15万颗｜早起看早期

展望“十五五”：金融“活水”支持新型工业化有了“路线图”

中国电子信息产业发展研究院 8个月前

展望“十五五”：金融“活水”支持新型工业化有了“路线图”

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号