要讲科学大模型,最绕不开的就是AI for Science这个话题,这就不得不提到2024年的诺贝尔化学奖。2024年,诺贝尔化学奖公布将其一半颁给计算蛋白质设计方面的研究者David Baker,另一半则授予了共同开发了AlphaFold的谷歌DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)和John Jumper。AlphaFold,特别是其在2020年发布的AlphaFold2版本,利用深度学习和人工智能技术,以前所未有的准确性和速度预测蛋白质的三维结构。这使得原本需要数月甚至数年才能完成的蛋白质结构解析工作,现在可以在几小时甚至几分钟内完成,并且准确度可以媲美甚至在某些情况下超越传统方法。AI可以通过分析数百万个已知的蛋白质结构和序列数据库进行训练,从而能够从仅有的氨基酸序列推断出蛋白质的折叠方式。其实在此之前,AI for Science就已经引起学术和行业的关注。2019-2023年间,全球AI for Science论文发表年均增长率为27.2%,各学科领域论文发表均呈现逐年递增趋势,其中生命科学、物理学和化学等领域发表的人工智能应用论文数量最多。中美两国是当前AI for Science研究大国,近5年间,中国论文发表超过10万篇,居全球第一。但24年诺贝尔化学奖的公布,再次证明了人工智能技术在推动科学进步方面所扮演的关键角色,尤其是通过像AlphaFold这样的突破性应用,不仅加快了科学研究的步伐,还拓宽了我们对生命科学、物理学和化学等领域内复杂问题的理解。随着全球范围内AI for Science的热度持续升温,越来越多的研究者和机构开始探索如何利用人工智能来解决更多基础科学难题。在这一背景下,『书生』科学多模态大模型Intern-S1应运而生。值得关注的是,在开源策略层面,上海AI实验室比谷歌DeepMind更“豪爽”。Intern-S1发布即开源。除了基础模型外,上海AI实验室还一口气开源了大模型研发与应用所需的全链路工具体系,并已构建拥有数十万活跃开发者的开源社区。谷歌DeepMind AlphaFold3从发布到开放相隔长达半年,且仅为部分开放:模型权重需申请获取,商业用途受限。 02.主打多模态和通专融合,化学、材料、地球科学全面超越Grok-4
相较于同类科学大模型,Intern-S1有2个突出的特别之处,那就是多模态和“通专融合”。据了解,在综合多模态通用能力评估中,Intern-S1的得分和国内外一流模型不相上下,能同时较好地理解文本和图像内容。该评估为多项通用任务评测基准均分,这样的结果说明它在不同场景任务中,既有稳定的表现,也能适应复杂情况。而在由多个领域专业评测集组成的科学能力测试里,Intern-S1的表现超过了Grok 4等最新的闭源模型。这些评测涉及物理、化学、材料、生物等领域的复杂专业任务,进一步证实了Intern-S1在科研场景中具备较强的逻辑性和准确性。Intern-S1是怎么在多模态领域答出这样的高分答卷的?陈恺告诉智东西,原来,Intern-S1新增了动态Tokenizer和时序信号编码器,实现了支持多种复杂科学模态数据处理的功能,所以才能够实现材料科学与生物制药、天文巡天、天体碰撞、地震台网记录的地震波形等多类科学模态进行深度融合。此外,Intern-S1通过架构上的创新,对科学模态数据的理解和处理效率有了明显提高。比如,它对化学分子式的压缩率比DeepSeek-R1要高出70%以上。在一系列基于科学模态的专业任务中,Intern-S1不仅用的算力更少,表现也更出色。之前市场中的科学大模型,或者说专业领域的行业大模型,通常都会强调自己过硬的专业能力,而在Intern-S1发布会上,“通专融合”这个词出现频率很高。当被问到上海AI实验室专注走“通专融合”技术路线的原因时,陈恺解释称:“通专融合的技术路线,能让模型在通用能力保持的同时做到专业能力精进,把垂类能力构建成本大幅降低。”智东西了解到,一方面,Intern-S1会借助大量通用科学数据来拓宽自身的知识范围;另一方面,它还会训练多个专业模型,生成那些容易理解、逻辑清晰的科学数据,并且通过为特定领域定制的专业验证智能体来把控这些数据的质量。这种闭环的运作方式不断为其基座模型提供支持,让Intern-S1既能拥有强大的通用推理能力,又具备多项专业能力,从而实现了“一个模型就能解决多项专业任务”这一科学智能领域的突破。跳出技术角度,陈恺特别补充,科学领域的前沿突破,往往需要不同专业能力的交叉融合迁移,通专融合能更好促进未来科学发现。陈恺还介绍,Intern-S1的研发团队在训练系统和算法两方面一起下功夫搞创新,成功让大型多模态MoE(混合专家)模型在FP8精度下,能高效又稳定地进行强化学习训练,而且训练成本比最近公开的其他MoE模型低了10倍。从系统层面来看,Intern-S1用了训推分离的RL方案,靠自己研发的推理引擎来进行FP8精度的大规模异步推理,效率很高;还通过数据并行均衡策略,减轻了长思维链解码时出现的长尾问题。训练的时候用了分块式FP8训练,效率提升不少,这套训练系统之后也会开源。再看算法方面,基于Intern·Bootcamp搭建的大规模多任务交互环境,研发团队提出了“Mixture of Rewards”混合奖励学习算法,能把多种奖励和反馈信号融合到一起,听起来有点像“因材施教”。比如在容易验证的任务上,就用RLVR模式来训练,通过规则、验证器或者交互环境来提供奖励信号;而像对话、写作这类不好验证的任务,就用奖励模型给出的奖励信号来一起训练。 03.能查科研数据,还能联机实验设备,科学发现平台同步推出