科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述

ScienceAI 2025-09-04 12:08

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

资讯配图


资讯配图

作者 | 论文团队

编辑 | ScienceAI

过去几年,大语言模型(LLM)的浪潮席卷学术界与产业界。在科研场景中,它们正从 “工具” 演变为 “合作者”,科学大语言模型(Sci-LLMs)的进展尤为瞩目。

然而,科学数据的多模态、跨尺度、强领域语义与不确定性,以及科学知识本身的层次化结构,对 Sci-LLMs 提出了远超通用领域的新要求。当前的研究仍处于碎片化状态,缺乏对全学科领域的科学数据与模型演进路径的系统性梳理。一个系统性的梳理与前瞻性设计已成为整个领域的迫切需求。

为填补这一空白,上海人工智能实验室联合全球 20 余家顶尖高校与研究机构,全面调研了 1000 + 文献,系统梳理了 600 + 重要数据集与 SOTA 模型,重磅发布了对 Sci-LLMs 的全面综述 《A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers》,系统梳理了 Sci-LLMs 的发展历程、数据基础、模型演进、模型评测体系与智能体前沿,并提出了未来智能体助力科学发现生态的路线图

资讯配图

一、科研界的 “爆炸时刻”:论文数量曲线说明了一切

近年来,人工智能在科学探索(AI for Science)领域的应用呈现爆发式增长,科学大语言模型正以前所未有的深度和广度变革着知识的表示、整合与应用方式,在物理、化学、材料、生命科学、天文、地球科学等多个自然科学领域展现出惊人的潜力,重新定义着科学研究的方式。如下图,综述简要展示了在主要预印本平台上,涉及 “language model” 及其与科学领域结合(联合检索学科关键词)的论文发表趋势。左图显示 arXiv 与 PubMed 上的快速增长,右图则呈现 bioRxiv、medRxiv 和 ChemRxiv 的加速态势,体现出跨学科兴趣的不断升温。

资讯配图

图 1:科学大模型相关论文数量快速增长(2018–2025)。

二、四次范式转移:解码 Sci-LLMs 进化路径

综述首先指出,2018–2025 年,数据驱动的 Sci-LLMs 已经历四次关键范式转移,其能力边界得到不断拓展,逐步迈向更高阶的科研应用阶段。

1. 迁移学习阶段(2018–2020)

2. 规模化阶段(2020–2022)

3. 指令对齐阶段(2022–2024)

4. 科学智能体阶段(2023–至今)

资讯配图

图 2:Sci-LLMs 的范式演化(2018–2025)。

三、科学领域总览:贯通六大科学领域

这篇综述不仅覆盖了六大科学领域(物理、化学、材料科学、生命科学、天文学、地球科学),还揭示了它们在 数据尺度上的层层递进。

这种从微观到宏观的尺度演进,正是 Sci-LLMs 预训练数据设计的逻辑:模型需要同时理解分子动力学的精细结构,也要能把握天体演化和气候变化的宏大趋势。

资讯配图

图 3:综述所涵盖的六大科学领域(物理、化学、材料科学、生命科学、地球科学、天文学)及各领域中的代表性子方向。

四、科学模型荟萃:通才 vs 专才、文本 vs 多模态

1. 通才 vs 专才 vs “通专融合”

通才型 Sci-LLMs 致力于构建跨学科的知识底座,典型代表是 Intern-S1。它通过在海量、跨学科的科学语料(涵盖论文、教科书、百科、习题等)上进行大规模预训练,具备广博而系统的科学知识储备。与此相对,专才型 Sci-LLMs 则更像是针对单一学科定制的 “手术刀”,依靠在特定领域(如高能物理、化学、生命科学等)的专业数据集上进行深度训练,成为该学科的专家,例如专注高能物理的 Xiwu,以及面向化学的 ChemLLM。

与两者相比,Intern-S1 的独特优势在于通专融合:它既继承了通才模型的跨学科广度,能够在复杂问题中调用多领域知识;又通过针对重点学科的优化实现了专才模型的深度,具备解决专业领域难题的能力。凭借这一双重特性,Intern-S1 不仅能作为科学研究的通用助手,还能够在特定学科场景下展现接近专家级的推理与回答水平。

资讯配图

图 4:按六大科学领域分类的代表性 Sci-LLMs 时间概览(2019 年至 2025 年中)。

2. 文本 vs 多模态

综述的统计分析指出:当前约四分之三的科学大语言模型是纯文本 LLM ,而多模态 LLM 仅占四分之一。这一方面反映了科学知识的主要载体 —— 学术论文和教科书等 —— 仍以文本为主;另一方面也暴露了高质量、细粒度的多模态监督数据的稀缺性。这种对文本的过度依赖造成了一个核心困境:模型学习到的更多是对科学的 “描述”,而非从第一性原理和实验证据中习得的科学研究本身。为了弥合这一鸿沟,未来的趋势必然是向多模态生态系统演进,尤其是在天文学、气候科学等高度依赖异构信号融合的领域,能够综合处理图像、光谱、时间序列和文本等多模态数据将是 Sci-LLMs 发展的关键 。

资讯配图

图 5:  Sci-LLMs 和 Sci-MLLMs 分布统计:(a) Sci-LLMs 与 Sci-MLLMs 的数量对比;(b) 基础模型家族分布和 (c) 参数规模分布。

五、深入数据生态:270+ 训练集 & 210+ 评测集的全景地图

1. 统一视角:从数据分类到知识层级

综述指出,构建强大的 Sci-LLMs 必须首先理解科学数据与知识的内在结构。为此,论文提出了两大数据分级框架:

资讯配图

图 6:科学领域数据可视化。

资讯配图

图 7:科学数据的层级划分和动态交互。

2. 数据质量 “四要素”、现状分析与结构性痛点

综述强调,高质量的数据是 Sci-LLMs 成功的关键,并提出了评估科学数据 “AI-ready” 质量的四要素,与当前数据生态存在的不足,以及其背后的系统性痛点。

a)质量四要素:

b)当前数据生态的不足:

c)系统性问题:

3. 预训练数据:按学科拆解 “AI-ready” 数据侧重点

预训练数据是科学大语言模型(Sci-LLMs)的核心基础,它决定了模型能否在复杂科学场景中具备理解、推理和生成的能力。本章首先回顾了当前模型在预训练数据上的总体分布:例如 Yi 模型结合了网页、代码、论文和问答等多源数据,而 LLaMA 的预训练语料约 1.4TB,涵盖 CommonCrawl、GitHub、Wikipedia 与学术资源(见图 8a)。

相比之下,Intern-S1 在总语料中专门划分出约 2.5 万亿 tokens(占比 45.8%)用于科学领域,覆盖物理、化学、材料科学、生命科学、天文学和地球科学六大板块,为后续的领域拆解奠定了基础。作者强调,科学语料的广度与真实性直接影响模型能否在科学场景中进行理解、推理与生成。

资讯配图

图 8:LLaMA, Yi, GPT-3 和 Intern-S1 的预训练数据集分布。

在回顾整体的语料构成之后,综述进一步从学科尺度深入分析了科学大语言模型预训练数据的特点与挑战。

物理学的数据多来自理想化仿真与理论推导,如偏微分方程与动力学模拟,但与真实观测之间存在显著差距,因此亟需解决 simulation-to-observation gap,使模型既能学习物理定律,又能适应实验噪声和仪器特性。

化学预训练以分子结构和性质数据为核心,包括 SMILES 表示、量子化学计算结果与反应数据库等,虽然结构化程度高,但实验标注成本昂贵,限制了语料规模,因此提升分子表征的多样性与覆盖度是关键。

材料科学主要依赖大型材料数据库(如 Materials Project、NOMAD、OQMD),涵盖晶体结构、能带、力学与热学性质,但由于元数据与计算条件不一致,跨数据库融合存在障碍,未来需要标准化与跨模态的统一表示。

生命科学覆盖基因、蛋白质序列、多组学数据、医学影像与电子病历等,数据量庞大却因隐私与伦理问题常常不完整或滞后,现有方法多通过去标识化、合成数据与多模态整合来缓解。

天文学的科学数据包括光谱、射电观测、星系影像与宇宙学模拟,然而不同仪器在分辨率、带宽与校准上的差异,使得跨模态和跨设备对齐成为挑战。

地球科学的数据则最为稀缺,主要依赖论文与教材 PDF 的解析,以及有限的遥感影像和气候变量场,但其高度异质性导致文本解析和图像对齐的代价很高,未来的发展趋势是通过多源融合与自动标注来扩展规模。

资讯配图

图 9:预训练数据集的词云图。图中展示了模态(左)和类型(右)的相对分布,词语大小与出现频率成正比。

4. 后训练数据:面向科研任务的能力对齐

在完成大规模预训练后,科学大语言模型还需要进一步 后训练(post-training),以便从 “具备科学常识” 走向 “能够真正解决科学问题”。与预训练强调 广覆盖与大规模 不同,后训练更关注 高质量、任务导向与学科特色 的数据。本章从多个科学领域系统介绍了后训练数据的构建现状与难点,并指出当前后训练数据呈现四大趋势:

资讯配图

图 10:现有 Sci-LLMs/Sci-MLLMs 后训练语料的来源分布。

资讯配图

图 11:后训练数据集的词云图。图中展示了模态(左)和类型(右)的相对分布,词语大小与出现频率成正比。

六、评测升级:从 “考试” 到 “科研流程” 的方法论跃迁

测评数据是连接 预训练 / 后训练 与 真实科研应用 的关键环节。与通用 LLM 测评(如 MMLU、MMMU)不同,Sci-LLMs 的测评更强调:

1. 测评数据现状分析

(1) 物理学

(2) 化学

(3) 材料科学

(4) 生命科学

(5) 天文学

(6) 地球科学

资讯配图

图 12:现有 Sci-LLMs/Sci-MLLMs 评测语料的来源分布。

资讯配图

图 13:评测数据集的词云图。图中展示了模态(左)和类型(右)的相对分布,词语大小与出现频率成正比。

2. 测评体系变迁

综述指出,Sci-LLMs 的评测正经历从 “静态考试型测试” 到 “动态、过程导向型测评” 的转变。早期评测多采用 MMLU 、ScienceQA 等 “考试” 型基准,但最新研究发现,顶尖模型在这些基准上取得高分,但在真正考验前沿、跨领域科学推理的测试(如 HLE、SFE)上表现会急剧下降。这催生了评测范式的三大升级:

资讯配图

图 14:Sci-LLMs 评测方式的演变过程。

3. 测评数据的挑战和发展趋势

尽管近年来已经出现了面向不同学科的评测基准,但整体来看,科学测评数据依然存在明显不足。这些不足不仅体现在学科覆盖的不均衡上,也体现在模态、真实性与动态性等维度的缺失,使得现有评估体系难以全面衡量模型在真实科研场景中的表现。

针对上述问题,研究者们也提出了新的发展方向,尝试让测评体系更接近科学实践的真实需求。趋势既包括评测范式的转变,也涵盖多模态与跨学科的拓展,最终目标是建立起动态而全面的科学智能评估框架。

七、从 “模型” 到 “智能体”:闭环科研工作流

资讯配图

图 15:从数据基础设施到智能体辅助的科学发现:科学 AI 的三阶段演进。

综述最后展望了 Sci-LLMs 的下一代形态 —— 科学智能体(Scientific Agent)。不同于被动回答问题的模型,科学智能体是能够被赋予高级目标(如 “为某疾病寻找候选药物”)后,自主进行任务分解、规划、工具调用、虚拟实验和结果分析的自治系统。

综述指出,实现这一目标的核心在于构建一个闭环的 “智能体 - 数据” 生态系统。在这个系统中,智能体通过与外部工具(数据库、模拟器、甚至自动化实验室)交互来主动获取和生成新的实验数据;这些 “AI-ready” 的数据再反哺数据生态,用于迭代和优化智能体自身,形成一个能够自我进化的良性循环。综述详细探讨了实现这一闭环所需的关键技术,包括多智能体协作、工具使用和自进化机制。

八、总结

这篇综述为我们描绘了一幅壮阔的科学 AI 演进蓝图,其核心贡献在于:

正如文中所指出的,Sci-LLMs 正从单纯的 “知识模型” 向 “推理引擎” 和 “科研伙伴” 演进,解决好其在数据基础和智能体层面的核心挑战,将是未来研究的重中之重。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
半导体行业,哪些岗位最容易被 AI 替代?
OpenAI盯上苹果开发者生态,吞了家AI编程公司
初创加速计划 | NVIDIA 助力汤元科技,借助 Cosmos 推动物理 AI 与智能驾驶数据生成
全栈势能 深耕产业|WAVE SUMMIT 产业论坛邀你与领先企业共探AI落地新路径
「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
热点关注丨AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」
IFA25终极前瞻:中国品牌狂秀硬科技,AI的风将吹到德国?
【报告】AI专题二:2025年可信人工智能行业治理调研报告(附PDF下载)
融资130亿,估值1.3万亿,硅谷AI新贵Anthropic凭什么比波音还贵?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号