华尔街彻夜难眠！Gemini 3屠榜金融「最难考试」，AI砸了「金饭碗」？

新智元报道

编辑：KingHZ

【新智元导读】被誉为「黄金职业通行证」的人类知识堡垒，CFA考试悄然陷落。最新的推理模型不仅轻松通过了CFA三级考试，还创造了几乎满分的成绩。

AI一分钟，人类十年功！

一觉醒来，AI推理模型已横扫特许金融分析师CFA考试。

要拿下享誉全球的CFA（特许金融分析师）证书，对于人类考生来说，这通常意味着数年的煎熬和至少1000小时的苦读。

但AI这次取得的成绩有点让人「破防」了：推理模型不仅轻松通过了三级考试，还创造了几乎满分的成绩。

具体而言，在一级考试中，Gemini 3.0 Pro创下97.6%的历史最高纪录。

二级考试中，GPT-5以94.3%的成绩领先。

在三级考试中，Gemini 2.5 Pro在选择题部分取得86.4%的最高分，而Gemini 3.0 Pro在问答题部分达到92.0%的优异成绩。

那些想去华尔街工作的毕业生，可能睡不着了。

金融界「最难考试」被AI通关

特许金融分析师（Chartered Financial Analyst，CFA）认证被公认为金融领域难度最大的资格认证之一。

全部三级考试，需要逐级通过，涵盖从基础知识到应用分析、直至复杂投资组合构建的进阶能力。

在2023年，当时最强的AI模型只能解答部分CFA试题，表现参差不齐。

当时的研究证实AI能搞定CFA一级和二级考试，但当时它们在三级考试面前却碰了壁，因为搞不定那些复杂的论述题（essay questions）。

链接：https://aclanthology.org/2024.emnlp-industry.80/

到了今年7月，AI已经能在几分钟之内通过最难的CFA考试：

来自纽约大学斯特恩商学院（NYU Stern）与AI财富管理平台GoodFin的研究人员想探究：AI是否已经具备了处理「专业金融决策所需的、高风险的分析推理」能力？

研究团队对23个大语言模型进行了「大阅兵」，测试它们处理CFA三级模拟试题中选择题和论述题的能力。

要知道，CFA三级考试的核心可是最考验功力的投资组合管理和财富规划。

CFA三级考试主题和权重

结果显示，o4-mini、Gemini 2.5 Pro和Claude Opus等前沿推理模型，在运用「思维链」（chain-of-thought）提示词技术后，均成功通关。

链接：https://arxiv.org/pdf/2507.02954

「我认为毫无疑问，这项技术将在未来彻底重塑整个行业。」GoodFin的创始人兼CEO Anna Joo Fee如是说。

华尔街彻夜难眠！Gemini 3屠榜金融「最难考试」，AI砸了「金饭碗」？图10

本月9日，最新研究表明，当前这代推理模型不仅全部通过了三级考试，某些科目甚至接近满分。

华尔街彻夜难眠！Gemini 3屠榜金融「最难考试」，AI砸了「金饭碗」？图11

预印本链接;https://arxiv.org/abs/2512.08270

标题：Reasoning Models Ace the CFA Exams

AI的新成绩让人破防

来自哥伦比亚大学、伦斯勒理工学院和北卡罗来纳大学的研究团队，使用包含980道考题的题库对6款推理模型进行测试。

他们编制了一套涵盖CFA（特许金融分析师）全部三个等级的模拟试题，共计980道题目。

一级试题集（Level I Set）： 包含三套试卷，总计540道多选题（Multiple Choice Questions, MCQs），每套180题。
二级试题集（Level II Set）： 包含两套试卷，总计176道选择题（每套88题），每套试卷由22个「案例题组」（item sets）组成，每个题组包含4个问题。
三级试题集（Level III Set）： 包含三套试卷，总计264道题目（每套88题）；每套试卷采用混合形式，包含11个案例题组（共44道选择题）和11个论述型案例分析（constructed-response case studies，共44道论述题/CRQs）。

尽管正式CFA考试中论述题的具体数量和分值权重会有所变化，但这些模拟试题遵循了标准且具有代表性的结构。

华尔街彻夜难眠！Gemini 3屠榜金融「最难考试」，AI砸了「金饭碗」？图13

（注：案例文本以蓝色标注，问题以红色呈现，选项以绿色显示，所有示例均为示意性内容而非真实考题）

一级考试选择题示例：聚焦道德与职业行为准则，通过利益冲突情境考查考生对合规判断的掌握。
二级考试选择题：围绕股权投资实务，测试对IPO牵头行核心职责的理解与辨析能力。
三级考试论述题示例：设定财务报告分析情境，要求结合通胀环境变化，判断并说明外币报表折算方法的适用性。
三级考试选择题示例：涉及私募市场估值，需计算债券市值，并综合评估违约风险与清偿顺位对投资价值的影响。
三级考试论述题示例：探讨资产配置理论，比较两种资本资产定价模型（CAPM）的应用前提与估计精度，论证其适用差异。

结果显示：Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均依据既定标准通过了所有级别考核，部分成绩甚至接近满分。

华尔街彻夜难眠！Gemini 3屠榜金融「最难考试」，AI砸了「金饭碗」？图14

Gemini与GPT-5双雄领跑

在一级考试（基础多选题）中，Gemini 3.0 Pro以97.6%的惊人准确率创下历史新高。GPT-5紧随其后，斩获96.1%，Gemini 2.5 Pro也拿到了95.7%的高分。即便是测试中表现「垫底」的DeepSeek-V3.1，准确率也高达90.9%。

来到侧重应用与分析（案例研究）的二级考试，GPT-5反超夺魁，准确率达94.3%。Gemini 3.0 Pro和Gemini 2.5 Pro分别以93.2%和92.6%紧随其后。

研究人员惊叹道，这些模型在此阶段的表现「近乎完美」。不过，「道德规范」（Ethics）板块依然是AI的软肋。数据显示，即便最强模型，在二级考试的道德类题目中也有17%到21%的相对错误率。

到了最复杂的三级考试（包含选择题与开放式问答），Gemini 2.5 Pro在选择题部分拔得头筹，准确率为86.4%。但在更考验生成能力的「论述题」环节，Gemini 3.0 Pro展现了统治力，得分率高达92.0%，相比前代模型的82.8%有了质的飞跃。

华尔街彻夜难眠！Gemini 3屠榜金融「最难考试」，AI砸了「金饭碗」？图16

为了对开放式问答环节进行评分，研究团队使用了o4-mini模型来实现自动化批改。

研究人员坦言，这种做法可能会引入测量误差，并产生某种「篇幅偏见」（verbosity bias），即回答越长，得分往往越高。因此，这些测试结果只能视为基于模型的估算值。

通过标准沿用了过往合格标准：

一级考试要求单科不低于 60%，总分不低于 70%；

二级考试要求单科不低于 50%，总分不低于 60%；

三级考试则要求在选择题和论述题两部分中，平均得分率至少达到 63%。

研究人员指出，测试结果表明「推理模型的专业能力已超越初级至中级金融分析师的要求，未来甚至可能达到资深分析师的水准」。

如果说此前的大语言模型已经掌握了一级和二级考试中那些「既定的规范化知识」（codified knowledge），那么最新一代模型正在习得三级考试所必需的复杂「综合研判能力」（synthesis skills）。

当然，惯常的局限性依然存在。基准测试，尤其是选择题形式，只能作为评估模型能力和潜在经济价值的参考，犹如管中窥豹。

尽管如此，短短两年间从「不及格」到「近乎满分」的巨大飞跃，足以凸显 AI 在专业领域的进化速度之快。

AI通关CFA了，然后呢？

当机器能轻松考下你引以为傲的证书，能代写你的报告，能处理你的数据，甚至很快在分析能力上都能把你甩在身后时，你该怎么办？

媒体行业创业者兼出版人Matthias Bastian认为，会考试 ≠ 能干活：

考场得意，不代表职场如意。通过考试并不意味着模型能胜任金融分析师的日常琐碎工作（daily grind），比如与客户面谈、评估复杂的市场情绪，以及在信息不全的情况下做出关键决策。
研究还特别提到，模型在「道德伦理」类题目上依然最吃力，因为这类问题往往需要深度的情境理解和价值判断。毕竟，考试考察的是孤立的知识点，而非在复杂多变的现实世界中灵活运用知识的能力。
此外，研究人员也无法完全排除「数据污染」的可能性。虽然测试使用的是最新的付费受版权保护材料，但相关考题可能早已通过公共数据集中的改写或变体内容，渗透进了模型的训练数据中。这意味着，模型可能仅仅是「背过」了答案，而非真正通过逻辑推理得出了结果。