AI Scientist生成的论文被指「剽窃」，回应称「未引用相关研究」，AI自动化科研还靠谱吗？

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑丨coisini

作为全球首个用于自动化科学研究和开放式发现的 AI 系统，Sakana AI 的 AI Scientist 自 2024 年 8 月一发布就一直备受关注。AI Scientist 使用大型语言模型（LLM）生成创意，自主编写并运行代码，最后将研究成果以明确标注 AI 生成的论文形式呈现。

今年早些时候，Sakana AI 还宣布 AI Scientist-v2 生成的论文几乎达到了被 AI 顶会接收的水平。这对于自动化科研来说的确是个好消息，但如果它生成的论文被指「剽窃」呢？

据《Nature》报道，今年 1 月，韩国科学技术院 AI 研究员 Byeongjun Park 收到一封电子邮件，两位印度研究人员告诉他：一篇 AI 生成的论文未经注明就使用了他某篇论文的研究方法。

这篇 AI 生成的论文正是由 AI Scientist 生成，该论文虽未正式发表，但已作为 AI Scientist 生成的系列论文之一发布在网络上。

AI Scientist 生成论文地址：https://github.com/SakanaAI/AI-Scientist/blob/9dffdc445c2596ffa871b5588377e9f12558febc/example_papers/dual_expert_denoiser.pdf

Park 发现，AI Scientist 生成的这篇论文并未直接抄袭他的研究成果。该论文为扩散模型提出新架构，而 Park 的论文主要研究改进这类模型的训练方式。

Park等人研究论文地址：https://arxiv.org/pdf/2403.09176

但 Park 认为，两者确实存在方法上的相似性：「核心方法论与我论文的相似程度令人震惊。」

给 Park 发送邮件的 Tarun Gupta 和 Danish Pruthi 是印度科学学院的计算机科学家。他们表示，这个问题的影响范围远不止 Park 的论文。

今年 2 月，Gupta 和 Pruthi 报告称，根据他们咨询的外部专家意见，发现了多篇 AI 生成的论文存在未经注明就使用他人观点的现象，尽管论文没有直接复制词句。他们指出，这相当于软件工具剽窃他人观点 —— 尽管软件工具创造者并无恶意。

Gupta 和 Pruthi 表示：「大型语言模型生成的研究观点表面具有创新性，但实则通过难以溯源的方式巧妙剽窃，使其原创性难以验证。」

今年 7 月，他们的研究成果《All That Glitters is Not Novel: Plagiarism in Al Generated Research》还获得了 ACL 2025 杰出论文奖，可见学术顶会对该问题的重视。

获奖论文地址：https://arxiv.org/pdf/2502.16487

怎样算「剽窃」？

柏林应用科技大学剽窃研究专家 Debora Weber-Wulff 表示：「『观点剽窃』问题在人工撰写的论文中已然存在，但很少被讨论，预计 AI 生成论文会使情况恶化。」但她指出，与常见的复制或改写语句不同，观点复用难以证实。

值得注意的是，Gupta 和 Pruthi 怀疑：即便是善意的 AI 应用也可能使用他人的方法或观点。

2024 年，由斯坦福大学计算机科学家 Chenglei Si 团队牵头了一项研究，要求人类和 LLM 就计算机科学主题生成「新颖的研究观点」。尽管该研究包含新颖性检查并邀请人类评审员评估观点，但 Gupta 和 Pruthi 认为，部分 AI 生成观点「挪用」了已有成果 —— 根本谈不上「新颖」。

为了深入验证这一担忧，Gupta 和 Pruthi 选取了 Chenglei Si 团队公开的 4 份 AI 生成研究方案与 Sakana AI 发布的 10 篇 AI 生成论文，采用 Chenglei Si 团队的方法论自行生成 36 份新方案，并邀请 13 位领域专家采用 5 分制评估 AI 作品与现有论文的方法重合度：

5 分：方法完全复刻
4 分：混合匹配两至三篇已有成果
3 分和 2 分：较轻程度重合
1 分：无实质重合

他们还邀请被专家识别出重合的原论文作者就重合度发表见解。

综合评估结果显示，有 12 篇达到 4 分和 5 分水平，相当于 24% 的剽窃比例；若计入原作者未回复的案例，该数字将升至 18 篇（36%）。

Gupta 和 Pruthi 还指出，在 Sakana AI 今年宣布通过顶级机器学习会议 ICLR 研讨会同行评审阶段的 AI 生成论文中，同样发现了类似的重合现象。

论文地址：https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment

Sakana AI 回应

面对质疑，AI Scientist 开发团队对 Gupta 和 Pruthi 的研究进行了强烈反驳。据《Nature》报道，开发团队在邮件中写道：「剽窃指控纯属虚假、毫无根据、不准确、极端且应被忽视。」

针对被指控的两篇论文，开发团队辩称即便方法存在部分关联，但 AI Scientist 生成的论文与已有研究具有不同假设，且应用于不同领域。

开发团队还表示，专家为 Gupta 和 Pruthi 找到的参考文献只是 AI 生成论文本应引用的文献而已，并强调：「他们真正应该报告的是某些未被引用的相关研究（人类作者也可能会出现这种情况）。

对于被指控的两篇论文，开发团队称 AI Scientist 若能引用相关研究会更好。

实际上，也有研究人员不认同 Gupta 和 Pruthi 的观点。专攻扩散模型的佐治亚理工学院机器学习研究员 Ben Hoover 告诉《Nature》，按照 5 分制，他会给 AI Scientist 生成的论文与 Park 的论文重合度打 3 分，并指出 AI Scientist 生成的论文的质量远低于 Park 的研究，本应予以引用，但「不至于认定为剽窃」。

AI Scientist 开发团队还辩称：「『剽窃』这个词应该且确实用于极端故意的欺诈行为，Gupta 和 Pruthi 严重偏离了学界对『剽窃』的既定认知。

或许，我们不应该停留在对「剽窃」一词的争辩上，更加值得思考的是：AI 能否在成熟理念之上展开真正的创新，进而颠覆科研范式？

对此，你怎么看？

参考内容：https://www.nature.com/articles/d41586-025-02616-5

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。