谷歌AI新里程碑：一个能「做研究」的系统诞生了，用LLM+树搜索编写专家级软件

机器之心报道

编辑：冷猫

大模型在科研领域越来越高效了。

昨天，谷歌发表了一篇重磅文章，提出了一个能够帮助科研人员编写「专家级」科研软件的 AI 系统。

该系统融合了大语言模型和传统树搜索，能够自动编写和优化科研任务中所需的软件程序，能够获取多种渠道的现有知识，整合并且重组这些知识来构建一个新的研究思路。

谷歌生成，该系统不仅稳定达到专家水平，还常常超越人类。在基因组学、公共健康、数值分析等多个领域，这套系统的表现甚至超过了顶尖研究团队和国家级集成系统。

论文标题：An AI system to help scientists write expert-level empirical software
论文链接：https://www.alphaxiv.org/abs/2509.06503v1

如此这般，科研人员在各个领域的研究中都能够使用这一 AI 系统来构建全新的研究思路和实证程序，能够更高效地进行科学研究。

AI 在科研领域的应用一直以自动化的特性为主，能够辅助科研人员进行可行性验证，完成一些重复的高强度工作，减少科研人员在重复验证、调试程序等工作上浪费的时间，更能够激发科研人员的创新思维。

谷歌的这个系统能够实现研究思路的整合与重组，在科研任务中能够创建一些新的策略，构建更高效的模型，让 AI 系统介入科研领域的创新过程，从一次性代码生成的工具，转变为由量化目标指导的迭代、搜索驱动的软件演进。

不过也有网友表达了 AI 深入科研领域的担忧：

谷歌这一次的 AI 系统仍然具有很大的局限性，系统的构建目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题，虽覆盖了广泛的科研领域，但未提及那些不可量化评估的任务表现。

值得一提的是，前谷歌搜索成员 Deedy Das 分享了这个工作，而他最感兴趣的是论文附录中的 Prompt。

论文中使用的指令：「请创建一种算法，结合两种策略的优点，形成一种真正出色的混合策略，并且其得分要高于任一单独策略。」说明优秀的结果并不总需要非常复杂的 Prompt 指令。

论文详细内容如下：

本研究引入了一个 AI 系统，该系统能自动为科学计算任务创建专家级的实证软件。该系统结合了大型语言模型和树搜索算法，以迭代地生成、评估和完善科学软件解决方案。其核心创新在于，LLM 不仅用于一次性代码生成，而是作为系统搜索过程中一个智能的「变异」引擎，能够整合并重组科学文献中的研究思路。

图 1: (a) 系统架构：展示了可评分问题与研究思路如何输入到大语言模型（LLM），由其生成代码，并在沙盒环境中进行评估，结果以树搜索结构进行组织。(b) 性能对比：不同方法的成功率比较，结果显示结合专家指导的树搜索（TS）取得了最高成功率。(c) 研究思路来源：包括专家知识、学术论文，以及 AI 生成的重组方案。

问题与方法

本系统的目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题。这类任务涵盖了从基因组学到流行病学再到图像分析等广泛的科学计算应用。

该方法论围绕三个核心组件协同工作：

1. 基于 LLM 的代码变异

不同于从零生成代码，LLM 会持续重写并优化已有的候选代码。系统利用 LLM 对编程逻辑和领域上下文的理解，结合研究思路和性能反馈，进行智能化修改和改进。

2. 树搜索导航

代码生成过程被嵌入到树搜索算法中，以系统化方式探索庞大的软件解空间。搜索过程在「利用」（集中改进已有的优质解）和「探索」（寻找全新方法）之间取得平衡，使用了一种受 AlphaZero 启发的 PUCT 算法变体。

3. 研究思路的融合

该系统的一大特色是能够通过多种渠道引入外部知识：

直接注入来自科学论文和教材的研究思路
利用如 Gemini Deep Research 等工具生成 LLM 研究见解
程序化地重组已有成功方案，形成混合策略

该系统在 Kaggle playground 竞赛中开发与迭代，因其具有快速迭代周期和清晰的人类表现基准，成为理想的测试平台。

跨科学领域的主要成果

基因组学：单细胞 RNA 测序

在从单细胞 RNA 测序数据中去除技术批次效应同时保留生物学信号的挑战性任务中，该系统发现了 40 种新方法，其性能优于 OpenProblems 排行榜上所有已发表的方法。性能最佳的方法 BBKNN (TS) 通过将 ComBat 校正的 PCA 嵌入与批次平衡 K 近邻相结合，比现有最佳方法（ComBat）提高了 14%。

图 2：树搜索进展图，显示了迭代过程中性能的提高，并在突破点处标注了关键算法创新。该系统发现了优化批次感知图构建和实现 ComBat 基因表达校正的方法。

地理空间分析：卫星图像分割

在使用 DLRSD 数据集进行卫星图像的密集像素级语义分割时，该系统的前三名解决方案显著优于最近的学术论文，平均交并比分数大于 0.80。这些解决方案基于现有架构（UNet++、SegFormer），但优化了它们与强大的预训练编码器和广泛数据增强策略的集成。

图 3：卫星图像分割结果示例，显示原始图像（顶行）、真实掩模（中行）和系统预测（底行）。系统成功分割了包括机场、跑道、飞机和基础设施在内的各种特征。

神经科学：全脑神经活动预测

在斑马鱼大脑中建模超过 70,000 个神经元的活动（ZAPBench）时，系统生成的最佳模型在多步预测方面优于所有基线，并且训练速度比竞争视频模型快几个数量级。该系统成功地将生物物理神经元模拟器（Jaxley）整合到高性能解决方案中。

时间序列预测

在涵盖 28 个不同时间序列数据集的 GIFT-Eval 基准测试中，该系统在多个数据集上的性能优于排行榜。值得注意的是，它从头开始创建了一个统一的预测库，该库能自适应地配置到不同的数据集，并将时间序列分解为各个组成部分。

图 4：系统发现的成功预测方法的分布。梯度提升方法（GBM）和集成方法在各种预测任务中是最常成功的策略。

数值分析：复杂积分

对于评估具有无限限度的振荡积分（其中 scipy.integrate.quad () 等标准算法完全失效）时，演化出的代码正确评估了 19 个留出积分中的 17 个，误差在 3% 分数误差之内。该解决方案实现了复杂的数学启发式方法，包括域划分和欧拉变换以加速级数。

技术创新：研究思路与重组

一个关键的创新是研究思路的系统集成及其智能重组。该系统可以分析不同方法的核心原理，并合成创建混合方法的指令。

图 5：方法重组结果分析，显示原始方法与其组合版本之间的性能比较。绿色条表示成功的改进，红色条表示性能下降，而蓝色表示原始方法的性能。

总结

这项研究表明，AI 不仅能够实现自动化，还能在多个科学领域系统性地超越人类在科研软件开发中的表现。系统在生物信息学、流行病学、地理空间分析、神经科学和数值分析等领域中，持续取得专家级，甚至超越人类水准的成果，显示出其广泛的适用性。

该方法标志着科研软件开发范式的转变：从「一次性代码生成」走向「以可量化科学目标为导向」的迭代式、搜索驱动的软件进化。通过将开发周期从「数周甚至数月」缩短至「数小时或数天」，这一系统有效解决了科研中的关键瓶颈问题，有潜力加速所有以可量化指标衡量的计算研究。

系统在大规模解空间中进行系统化探索，融合多元研究思路，并能大海捞针般的找出高质量解决方案。这种能力预示着它可能从根本上改变科研软件的开发方式：

既能让更多研究者平等获取先进的分析工具，也能不断拓展科学探索在计算能力上的边界。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com