
这两天,各地高考陆续放榜,大模型「陪考」成绩单也新鲜出炉。
高考结束后,多家媒体对国内外主流大模型进行横向测试,有全科综合,有单科专项,多维度交叉比拼。
先看综合成绩。羊城晚报教育发展研究院拉来 8 位 AI 考生全科作答,由 2 名资深教师独立盲评,总分按历史类和物理类分科方式统计。
结果显示,物理类总分上,Claude Opus 4.8 与讯飞星火X2 以 708 分并列第一;历史类总分突破 700 分的,则只有讯飞星火X2,两类均达到广东屏蔽生水平。

从总分维度看,头部模型之间的得分差距并不悬殊,最终排名更多取决于全科表现的稳定性。
ChatGPT 5.5 Pro 和 Claude Opus 4.8 在长文本输出和议论文论述上均无明显短板,但在历史类总分上未能跻身前两位,说明均衡表现本身也有层级差异。
讯飞星火X2 在两类总分中均取得领先,评测报告给出的解释是,其优势来自语言理解、数理推理和综合分析等不同任务之间的相对均衡,没有单一科目形成明显拉动。
再看单科专项。
新京报选取 2026 年新高考 I 卷数学题,对 6 款推理型大模型进行专项测试,讯飞星火以 148 分居首,Kimi 145 分、DeepSeek 144 分、智谱 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新闻则是组织 9 款大模型写上海卷高考作文,经两位教师独立盲评取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分紧随其后。

英文作文这边,《观察者网》测了 12 款大模型,讯飞星火和 ChatGPT 5.5 Pro 并列进入第一梯队。

为什么讯飞星火是最会考试的大模型?
高考是中国最标准化的知识与思维测试,其评分逻辑有一个通用大模型容易忽略的维度,也就是过程规范性。
以数学为例。数学阅卷不只看最终答案,步骤是否完整、推导是否符合教材规范,同样直接影响得分。
根据此次评测,部分模型在长链条推理中出现步骤跳跃,有的引入超纲解法,虽能得出正确答案,但面临过程分被扣除的风险。讯飞星火X2 在这类题目中解题步骤更规范,过程分、结果分和推理清晰度三个维度保持了较好的一致性。尤其是在几何性质解析上思路清晰、解法简洁,部分题目还主动给出两种解题路径,「数形结合能力明显优于其他模型」。
物理、化学、生物三科得分差异,主要取决于模型能否将读题、推理和规范作答完整串联,讯飞星火X2 在三科中各环节衔接顺畅,失分点相对较少。
语文作文上,ChatGPT 5.5 Pro 与 Claude Opus 4.8 长于框架搭建和逻辑推进,文章结构成熟完整,这或许与它们在大规模英语语料上的训练积累直接相关。讯飞星火X2 各模块得分相对均衡,评师对其作文的评价集中在时代立意、逻辑完整性和论据新颖性上。
大模型的能力边界,在很大程度上由训练数据的质量和结构决定。
通用大模型的训练语料以互联网公开文本为主,覆盖面广,但教育场景的核心数据,比如学生的分步骤作答过程、错误类型分布、教师的批注与评分依据等在公开网络上极为稀缺。这类数据存在于真实的课堂和考场中,获取它需要进入学校场景,建立长期的数据采集渠道。
科大讯飞从 2004 年起布局教育产品,AI 技术目前深度应用于全国 6 万余所小学和中学,在真实课堂教学场景中完成了亿万次与师生的交互,积累了大量高标注密度且专业合规的学情数据。这个数据基础,是近年才进入教育赛道的公司短期内难以复制的。
2012 年,搭载科大讯飞评测技术的产品还首次服务广东中高考英语听说考试,自此,讯飞开始积累机器评测结果与人工评分之间的对齐数据。这个过程持续 14 年,形成的不只是数据量,还有对各学科评分标准随高考改革演变的持续跟踪。
在模型训练层面,讯飞将有经验教师的评判逻辑结构化后注入模型,形成「教学思维链」驱动的教育深度推理大模型。
具体来说,是把教师判断答案好坏的思考路径,包括如何识别错误步骤、如何判断作文立意层级,转化为可训练的数据格式,让模型学习评判标准本身。
这也解释了为什么一些通用大模型在知识覆盖上并不弱,却在分步推导和主观题评分上仍有明显差距,这缺的不是知识,是对评判标准本身的理解。在垂直场景的模型竞争中,高质量领域数据的稀缺性,往往比模型参数规模更具决定性。
考场之外,才是真正的硬仗
大模型在标准化测试中表现好,和它能在日常教学场景里稳定运行,是两码事。
高考是一次性的结构化任务,评分标准明确,最终结果可以直接用分数呈现。课堂教学却是持续、高度情境化的过程,涉及教师操作习惯、学生个体差异和学校基础设施等大量非技术变量。
这也是为什么「高考满分」对教育 AI 来说是一个值得讲的故事,却不是一个可以单独成立的商业壁垒。
真正的壁垒在于落地。教育场景的复杂性决定了,任何试图进入这个领域的技术产品,都必须同时解决三个维度的问题:技术能不能用、教师愿不愿意用、学校能不能持续运转起来。三者缺一,都会让模型能力在真实场景中大打折扣。
为了应对这种复杂性,讯飞选择的落地路径是软硬件一体化,通过自研硬件终端控制数据入口和使用环境,将大模型能力嵌入教学的三个核心场景。

图源:科大讯飞智慧教育公众号
课堂端,「同窗 AI 黑板」让 AI 参与课堂互动过程,可将数学公式动态可视化、用 3D 工具呈现立体几何,也可以扮演历史人物与学生展开对话,把原本单向的内容播放变成双向的推理引导。课后端,「星火智能批阅机」将作业反馈从判断对错推进到定位错误步骤,识别错因出现在哪一环、属于哪类认知偏差,据此生成个性化训练方案。家庭端,AI 学习机则将个性化辅导延伸至课外,错因分析能读懂孩子解题逻辑,还能跨年级溯源、消除知识深层薄弱点,对症剖析通过互动问答对孩子进行思路点拨,帮助其精准定位卡壳点,引导学生逐步推导解题过程。
这一路径选择,也有其现实逻辑。纯软件方案高度依赖学校已有终端,兼容性参差不齐,落地变量难以控制;自研硬件能够保证使用环境的一致性,数据采集也更为可控。每一个终端都是一个采集节点,学生的作答过程、错误类型、教师的评判行为,都在真实使用中持续沉淀。数据反哺模型训练,模型优化产品,产品扩大部署,部署带来更多数据,由此形成闭环。
从行业角度看,教育 AI 的竞争正在进入第二阶段。第一阶段比的是模型能不能答对题,头部模型在标准化考试中的表现已经说明,答题能力本身不再是主要门槛;第二阶段比的是产品能不能真正嵌入教学流程、形成稳定的使用习惯,并在此过程中积累起有价值的场景数据。后者的门槛远高于前者,不仅需要技术能力,还需要对教育场景长期、深度的理解与投入。
讯飞在教育领域深耕 22 年,数据积累是其优势的重要来源,但并非全部。星火X2 是基于全国产算力自主训练的大模型,其在此次评测中的表现,同样有赖于算法架构的持续优化和推理能力的迭代提升。在多个学科维度保持均衡,背后是模型在理解、推理、表达等核心能力上的协同进步。
AI 真正该做的,是让好教育不再是「特权」
大模型在高考中斩获高分,难免引发一种焦虑:AI 会不会取代教师?这个问题本身,或许暗含对教育本质的误读。
高考测量的是知识掌握与基础推理,是可以被量化、被评分的部分。而真正的教育要培养的,是思辨、共情、创造与价值判断,这些构成完整人格的能力,从来不是一张试卷能够装下的,也不是任何模型可以替代的。
从这个意义上说,AI 的高分成绩单引发的真正追问,不是机器能否超越人类,而是这项技术能否触及教育资源长期失衡的现实。
长期以来,优质教育资源高度集中,个性化辅导是少数学生才能获得的条件。AI 的介入,有可能让每个孩子都拥有一个能够识别其学习盲区、因材施教的学习伙伴,让高水平的教育支持不再只属于特定学校和特定家庭。
这或许才是 AI 考出高分真正值得期待的意义。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com