谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件

机器之心 2025-09-10 16:14
机器之心报道

编辑:冷猫

大模型在科研领域越来越高效了。


昨天,谷歌发表了一篇重磅文章,提出了一个能够帮助科研人员编写「专家级」科研软件的 AI 系统。


该系统融合了大语言模型传统树搜索,能够自动编写和优化科研任务中所需的软件程序,能够获取多种渠道的现有知识,整合并且重组这些知识来构建一个新的研究思路。


谷歌生成,该系统不仅稳定达到专家水平,还常常超越人类。在基因组学、公共健康、数值分析等多个领域,这套系统的表现甚至超过了顶尖研究团队和国家级集成系统。


资讯配图



如此这般,科研人员在各个领域的研究中都能够使用这一 AI 系统来构建全新的研究思路和实证程序,能够更高效地进行科学研究。


资讯配图


AI 在科研领域的应用一直以自动化的特性为主,能够辅助科研人员进行可行性验证,完成一些重复的高强度工作,减少科研人员在重复验证、调试程序等工作上浪费的时间,更能够激发科研人员的创新思维。


谷歌的这个系统能够实现研究思路的整合与重组,在科研任务中能够创建一些新的策略,构建更高效的模型,让 AI 系统介入科研领域的创新过程,从一次性代码生成的工具,转变为由量化目标指导的迭代、搜索驱动的软件演进。


不过也有网友表达了 AI 深入科研领域的担忧:


资讯配图


谷歌这一次的 AI 系统仍然具有很大的局限性,系统的构建目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题,虽覆盖了广泛的科研领域,但未提及那些不可量化评估的任务表现。


值得一提的是,前谷歌搜索成员 Deedy Das 分享了这个工作,而他最感兴趣的是论文附录中的 Prompt。


资讯配图


资讯配图


论文中使用的指令:「请创建一种算法,结合两种策略的优点,形成一种真正出色的混合策略,并且其得分要高于任一单独策略。」说明优秀的结果并不总需要非常复杂的 Prompt 指令。


论文详细内容如下:


本研究引入了一个 AI 系统,该系统能自动为科学计算任务创建专家级的实证软件。该系统结合了大型语言模型和树搜索算法,以迭代地生成、评估和完善科学软件解决方案。其核心创新在于,LLM 不仅用于一次性代码生成,而是作为系统搜索过程中一个智能的「变异」引擎,能够整合并重组科学文献中的研究思路。


资讯配图

图 1:  (a) 系统架构:展示了可评分问题与研究思路如何输入到大语言模型(LLM),由其生成代码,并在沙盒环境中进行评估,结果以树搜索结构进行组织。(b) 性能对比:不同方法的成功率比较,结果显示结合专家指导的树搜索(TS)取得了最高成功率。(c) 研究思路来源:包括专家知识、学术论文,以及 AI 生成的重组方案。


问题与方法


本系统的目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题。这类任务涵盖了从基因组学到流行病学再到图像分析等广泛的科学计算应用。


该方法论围绕三个核心组件协同工作:


1. 基于 LLM 的代码变异


不同于从零生成代码,LLM 会持续重写并优化已有的候选代码。系统利用 LLM 对编程逻辑和领域上下文的理解,结合研究思路和性能反馈,进行智能化修改和改进。


2. 树搜索导航


代码生成过程被嵌入到树搜索算法中,以系统化方式探索庞大的软件解空间。搜索过程在「利用」(集中改进已有的优质解)和「探索」(寻找全新方法)之间取得平衡,使用了一种受 AlphaZero 启发的 PUCT 算法变体。


3. 研究思路的融合


该系统的一大特色是能够通过多种渠道引入外部知识:



该系统在 Kaggle playground 竞赛中开发与迭代,因其具有快速迭代周期和清晰的人类表现基准,成为理想的测试平台。


跨科学领域的主要成果


基因组学:单细胞 RNA 测序


在从单细胞 RNA 测序数据中去除技术批次效应同时保留生物学信号的挑战性任务中,该系统发现了 40 种新方法,其性能优于 OpenProblems 排行榜上所有已发表的方法。性能最佳的方法 BBKNN (TS) 通过将 ComBat 校正的 PCA 嵌入与批次平衡 K 近邻相结合,比现有最佳方法(ComBat)提高了 14%。


资讯配图

图 2:树搜索进展图,显示了迭代过程中性能的提高,并在突破点处标注了关键算法创新。该系统发现了优化批次感知图构建和实现 ComBat 基因表达校正的方法。


地理空间分析:卫星图像分割


在使用 DLRSD 数据集进行卫星图像的密集像素级语义分割时,该系统的前三名解决方案显著优于最近的学术论文,平均交并比分数大于 0.80。这些解决方案基于现有架构(UNet++、SegFormer),但优化了它们与强大的预训练编码器和广泛数据增强策略的集成。


资讯配图

图 3:卫星图像分割结果示例,显示原始图像(顶行)、真实掩模(中行)和系统预测(底行)。系统成功分割了包括机场、跑道、飞机和基础设施在内的各种特征。


神经科学:全脑神经活动预测


在斑马鱼大脑中建模超过 70,000 个神经元的活动(ZAPBench)时,系统生成的最佳模型在多步预测方面优于所有基线,并且训练速度比竞争视频模型快几个数量级。该系统成功地将生物物理神经元模拟器(Jaxley)整合到高性能解决方案中。


时间序列预测


在涵盖 28 个不同时间序列数据集的 GIFT-Eval 基准测试中,该系统在多个数据集上的性能优于排行榜。值得注意的是,它从头开始创建了一个统一的预测库,该库能自适应地配置到不同的数据集,并将时间序列分解为各个组成部分。


资讯配图

图 4:系统发现的成功预测方法的分布。梯度提升方法(GBM)和集成方法在各种预测任务中是最常成功的策略。


数值分析:复杂积分


对于评估具有无限限度的振荡积分(其中 scipy.integrate.quad () 等标准算法完全失效)时,演化出的代码正确评估了 19 个留出积分中的 17 个,误差在 3% 分数误差之内。该解决方案实现了复杂的数学启发式方法,包括域划分和欧拉变换以加速级数。


技术创新:研究思路与重组


一个关键的创新是研究思路的系统集成及其智能重组。该系统可以分析不同方法的核心原理,并合成创建混合方法的指令。


资讯配图

图 5:方法重组结果分析,显示原始方法与其组合版本之间的性能比较。绿色条表示成功的改进,红色条表示性能下降,而蓝色表示原始方法的性能。


总结


这项研究表明,AI 不仅能够实现自动化,还能在多个科学领域系统性地超越人类在科研软件开发中的表现。系统在生物信息学、流行病学、地理空间分析、神经科学和数值分析等领域中,持续取得专家级,甚至超越人类水准的成果,显示出其广泛的适用性。


该方法标志着科研软件开发范式的转变:从「一次性代码生成」走向「以可量化科学目标为导向」的迭代式、搜索驱动的软件进化。通过将开发周期从「数周甚至数月」缩短至「数小时或数天」,这一系统有效解决了科研中的关键瓶颈问题,有潜力加速所有以可量化指标衡量的计算研究。


系统在大规模解空间中进行系统化探索,融合多元研究思路,并能大海捞针般的找出高质量解决方案。这种能力预示着它可能从根本上改变科研软件的开发方式:


既能让更多研究者平等获取先进的分析工具,也能不断拓展科学探索在计算能力上的边界。


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 软件
more
AI能像人类一样评估社交情境
隼瞻科技亮相2025中国 RISC-V 生态大会,解锁端侧AI专用处理器敏捷开发新范式
继英伟达之后,ASML也投资了这家AI初创企业
00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
传统BI已死,AI智能体袭来?
科技快讯 | 追觅宣布成立天文 BU,有望推首款智能天文望远镜;iPhone Air 韩国官网没有捏合手势动画...
AI胡说八道这事,终于有人管了?
CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
一家低调的工业AI公司,用TPT跨越生成式AI鸿沟|甲子光年
AI男友年收2亿美金、老人对屏落泪:8大“灵魂捕手”正在偷走10亿人的心
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号