国产AI高考708分，这款模型靠什么成为「屏蔽生」？

编辑｜杨文

这两天，各地高考陆续放榜，大模型「陪考」成绩单也新鲜出炉。

高考结束后，多家媒体对国内外主流大模型进行横向测试，有全科综合，有单科专项，多维度交叉比拼。

先看综合成绩。羊城晚报教育发展研究院拉来 8 位 AI 考生全科作答，由 2 名资深教师独立盲评，总分按历史类和物理类分科方式统计。

结果显示，物理类总分上，Claude Opus 4.8 与讯飞星火X2 以 708 分并列第一；历史类总分突破 700 分的，则只有讯飞星火X2，两类均达到广东屏蔽生水平。

从总分维度看，头部模型之间的得分差距并不悬殊，最终排名更多取决于全科表现的稳定性。

ChatGPT 5.5 Pro 和 Claude Opus 4.8 在长文本输出和议论文论述上均无明显短板，但在历史类总分上未能跻身前两位，说明均衡表现本身也有层级差异。

讯飞星火X2 在两类总分中均取得领先，评测报告给出的解释是，其优势来自语言理解、数理推理和综合分析等不同任务之间的相对均衡，没有单一科目形成明显拉动。

再看单科专项。

新京报选取 2026 年新高考 I 卷数学题，对 6 款推理型大模型进行专项测试，讯飞星火以 148 分居首，Kimi 145 分、DeepSeek 144 分、智谱 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新闻则是组织 9 款大模型写上海卷高考作文，经两位教师独立盲评取平均分。星火 65.5 分居首，Gemini 64.5 分、豆包 64 分紧随其后。

英文作文这边，《观察者网》测了 12 款大模型，讯飞星火和 ChatGPT 5.5 Pro 并列进入第一梯队。

为什么讯飞星火是最会考试的大模型？

高考是中国最标准化的知识与思维测试，其评分逻辑有一个通用大模型容易忽略的维度，也就是过程规范性。

以数学为例。数学阅卷不只看最终答案，步骤是否完整、推导是否符合教材规范，同样直接影响得分。

根据此次评测，部分模型在长链条推理中出现步骤跳跃，有的引入超纲解法，虽能得出正确答案，但面临过程分被扣除的风险。讯飞星火X2 在这类题目中解题步骤更规范，过程分、结果分和推理清晰度三个维度保持了较好的一致性。尤其是在几何性质解析上思路清晰、解法简洁，部分题目还主动给出两种解题路径，「数形结合能力明显优于其他模型」。

物理、化学、生物三科得分差异，主要取决于模型能否将读题、推理和规范作答完整串联，讯飞星火X2 在三科中各环节衔接顺畅，失分点相对较少。

语文作文上，ChatGPT 5.5 Pro 与 Claude Opus 4.8 长于框架搭建和逻辑推进，文章结构成熟完整，这或许与它们在大规模英语语料上的训练积累直接相关。讯飞星火X2 各模块得分相对均衡，评师对其作文的评价集中在时代立意、逻辑完整性和论据新颖性上。

大模型的能力边界，在很大程度上由训练数据的质量和结构决定。

通用大模型的训练语料以互联网公开文本为主，覆盖面广，但教育场景的核心数据，比如学生的分步骤作答过程、错误类型分布、教师的批注与评分依据等在公开网络上极为稀缺。这类数据存在于真实的课堂和考场中，获取它需要进入学校场景，建立长期的数据采集渠道。

科大讯飞从 2004 年起布局教育产品，AI 技术目前深度应用于全国 6 万余所小学和中学，在真实课堂教学场景中完成了亿万次与师生的交互，积累了大量高标注密度且专业合规的学情数据。这个数据基础，是近年才进入教育赛道的公司短期内难以复制的。

2012 年，搭载科大讯飞评测技术的产品还首次服务广东中高考英语听说考试，自此，讯飞开始积累机器评测结果与人工评分之间的对齐数据。这个过程持续 14 年，形成的不只是数据量，还有对各学科评分标准随高考改革演变的持续跟踪。

在模型训练层面，讯飞将有经验教师的评判逻辑结构化后注入模型，形成「教学思维链」驱动的教育深度推理大模型。

具体来说，是把教师判断答案好坏的思考路径，包括如何识别错误步骤、如何判断作文立意层级，转化为可训练的数据格式，让模型学习评判标准本身。

这也解释了为什么一些通用大模型在知识覆盖上并不弱，却在分步推导和主观题评分上仍有明显差距，这缺的不是知识，是对评判标准本身的理解。在垂直场景的模型竞争中，高质量领域数据的稀缺性，往往比模型参数规模更具决定性。

考场之外，才是真正的硬仗

大模型在标准化测试中表现好，和它能在日常教学场景里稳定运行，是两码事。

高考是一次性的结构化任务，评分标准明确，最终结果可以直接用分数呈现。课堂教学却是持续、高度情境化的过程，涉及教师操作习惯、学生个体差异和学校基础设施等大量非技术变量。

这也是为什么「高考满分」对教育 AI 来说是一个值得讲的故事，却不是一个可以单独成立的商业壁垒。

真正的壁垒在于落地。教育场景的复杂性决定了，任何试图进入这个领域的技术产品，都必须同时解决三个维度的问题：技术能不能用、教师愿不愿意用、学校能不能持续运转起来。三者缺一，都会让模型能力在真实场景中大打折扣。

为了应对这种复杂性，讯飞选择的落地路径是软硬件一体化，通过自研硬件终端控制数据入口和使用环境，将大模型能力嵌入教学的三个核心场景。

图源：科大讯飞智慧教育公众号

课堂端，「同窗 AI 黑板」让 AI 参与课堂互动过程，可将数学公式动态可视化、用 3D 工具呈现立体几何，也可以扮演历史人物与学生展开对话，把原本单向的内容播放变成双向的推理引导。课后端，「星火智能批阅机」将作业反馈从判断对错推进到定位错误步骤，识别错因出现在哪一环、属于哪类认知偏差，据此生成个性化训练方案。家庭端，AI 学习机则将个性化辅导延伸至课外，错因分析能读懂孩子解题逻辑，还能跨年级溯源、消除知识深层薄弱点，对症剖析通过互动问答对孩子进行思路点拨，帮助其精准定位卡壳点，引导学生逐步推导解题过程。

这一路径选择，也有其现实逻辑。纯软件方案高度依赖学校已有终端，兼容性参差不齐，落地变量难以控制；自研硬件能够保证使用环境的一致性，数据采集也更为可控。每一个终端都是一个采集节点，学生的作答过程、错误类型、教师的评判行为，都在真实使用中持续沉淀。数据反哺模型训练，模型优化产品，产品扩大部署，部署带来更多数据，由此形成闭环。

从行业角度看，教育 AI 的竞争正在进入第二阶段。第一阶段比的是模型能不能答对题，头部模型在标准化考试中的表现已经说明，答题能力本身不再是主要门槛；第二阶段比的是产品能不能真正嵌入教学流程、形成稳定的使用习惯，并在此过程中积累起有价值的场景数据。后者的门槛远高于前者，不仅需要技术能力，还需要对教育场景长期、深度的理解与投入。

讯飞在教育领域深耕 22 年，数据积累是其优势的重要来源，但并非全部。星火X2 是基于全国产算力自主训练的大模型，其在此次评测中的表现，同样有赖于算法架构的持续优化和推理能力的迭代提升。在多个学科维度保持均衡，背后是模型在理解、推理、表达等核心能力上的协同进步。

AI 真正该做的，是让好教育不再是「特权」

大模型在高考中斩获高分，难免引发一种焦虑：AI 会不会取代教师？这个问题本身，或许暗含对教育本质的误读。

高考测量的是知识掌握与基础推理，是可以被量化、被评分的部分。而真正的教育要培养的，是思辨、共情、创造与价值判断，这些构成完整人格的能力，从来不是一张试卷能够装下的，也不是任何模型可以替代的。

从这个意义上说，AI 的高分成绩单引发的真正追问，不是机器能否超越人类，而是这项技术能否触及教育资源长期失衡的现实。

长期以来，优质教育资源高度集中，个性化辅导是少数学生才能获得的条件。AI 的介入，有可能让每个孩子都拥有一个能够识别其学习盲区、因材施教的学习伙伴，让高水平的教育支持不再只属于特定学校和特定家庭。

这或许才是 AI 考出高分真正值得期待的意义。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com