教辅机构用AI出题靠谱吗？教培人士：大幅提高了出题效率，但必须由人工严加审核

海报由AI生成

近日，一款教辅平台的物理题以“学生跳楼自由落地”为场景案例，引发广泛关注和热议。

题目为，"生命可以轮回，高考只有一次。有不少学生受地球引力影响而不慎做自由落体运动。现有一质量为60kg的普通高中生从11层自由而下，不计空气阻力，求其下落平均速度。”

如此不合常理的题目，为何会出现平台上？

有人推测，涉事题目极有可能是AI出的，也有认为是通过用户上传到平台的（如手动输入、拍照上传等）。

“题目本身具有教育属性，应该是积极的、健康的。这样违背道德的题目出现在教材中，会给学生价值观带来直接影响。”有学生家长表达了担忧。

用AI出题，已成为教培行业普遍现象？

业内人士向搜狐科技介绍，AI融入内容生产流程已是行业趋势，尤其在学科辅导、语言学习等领域。传统人工出题往往需要数小时乃至数天打磨，而 AI 能在短时间内批量生成，满足教培行业多场景、大批量的出题需求。

效率提高了，但AI出的题靠谱吗？

多位教培从业者给出的答案一致：“虽然可用，但还远不如人类。”行业普遍认为，AI出题常有“看似合理，实则错误”的硬伤，也暗藏伦理道德风险。

从实例看，AI出题的“脑洞”确实难让人放心。某平台AI生成的语文试题曾将“纤夫的爱”误写为“千夫的爱”，让学生一头雾水。杭州某中学历史题也曾出现“汉武帝参加南京青奥会”的荒诞表述。

一家教培平台学习机系统负责人李明（化名）也强调，人工审核至关重要。“AI已融入教育内容生产流程，大幅提升了生产效率，但必须配合严格的真人质检。部分关键环节甚至会设置三轮审核，投入的人力与精力成本非常高。”

除了 AI 生成，另一解释是题目源自用户上传 —— 比如用户手动输入或拍照识图时，相关内容被纳入题库留存。

大模型面对这类不合规题目未及时拒答，反而将其存入题库，本质上暴露出 AI 在伦理推理能力与价值对齐机制上的短板。这一问题并非孤立，而是主流大模型架构与训练范式的内在特性，由技术路径局限、训练数据偏差、文化价值多样性等多重因素交织形成的系统性挑战。

正如Meta首席AI科学家杨立昆所言，“当前主流模型通过强化学习从人类反馈中优化行为，但这种机制仅能捕捉表层行为模式，很大程度无法理解深层伦理原则。”

这也正是大模型下一阶段需要突破的核心瓶颈，而多项最新研究也印证了这一点：无论是价值对齐机制的不完善性，还是伦理规范本身的解释性模糊，都让 AI 在复杂道德情境中容易出现偏差。

事件发酵后，多家平台已开展系统排查与优化。搜狐科技对多款热门模型的实测显示，目前这些产品均能精准识别违背道德规范的题目并拒答，或推荐合规的相关学习题目。

多家市场研究机构分析，全球人工智能教育市场正处在一个关键节点，行业正从实验过渡到成规模的实施阶段。

据预测，2025年全球人工智能教育市场规模将达70亿美元以上，并预计在2030至2034年间，年复合增长率超35%。

人工智能为教育行业注入了高效便捷的动力燃剂，但回归教育的本质是“育人”而非“器利”。只有创新与规范约束并行，才能铺就一条有温度的教育革新之路。