黄仁勋说的Physical AI，被这家中国跨界选手带进了生命科学实验室

一水发自凹非寺
量子位 | 公众号 QbitAI

当AI公司还在读论文，Bio公司已经让AI做完了实验。

没错，又一热门AI赛道，被国产玩家率先跑通了——

AI for Bio，生命科学领域。

时至今日，这个赛道几乎挤满了最不缺算力的一批硅谷玩家：

OpenAI发GPT-Rosalind，专攻药物发现和基因组学；谷歌推Co-Scientist和ERA，把多Agent系统塞进科学推理流程；Anthropic上线面向科研流程的Claude Science工作台。

虽然大家想的都是让大模型读完论文后，写个「完美」的实验方案，再真正走进实验室，但奈何现实很骨感：

真正让AI接管实验室并跑通实验的？约等于无。

就拿最接近终点的OpenAI和Ginkgo Bioworks的合作来说，GPT-5在那个项目里负责的是实验设计和参数探索，真正在实验台上执行的Catalyst protocols，全部由Ginkgo的人类工程师编写。

换句话说，强如OpenAI，模型也没有真正接触到「做实验」这一层。

△图源：OpenAI官网

不过现在，全球第一个补上这关键一步的来了。

华大智造子公司涌生智能×上海人工智能实验室，联合发布两项新成果：

ProtoPilot：一款由真实实验室场景驱动的自进化多智能体系统；
BioLab Bench：生命科学领域首个从用户需求到设备可执行的全流程Agent评测体系。

从自然语言实验意图到湿实验物理执行，完整闭环，真实验证。

这一次，让AI「真正走进实验室」的不是哪家AI巨头，是一家跨界做AI的中国Bio公司。

这事估计连老黄都没想到：

年初他在CES上说，「Physical AI的ChatGPT时刻」到了，说的是机器人和自动驾驶。

但是现在，第一个在生命科学实验室交出Physical AI答卷的，来自深圳。

AI for Bio，到底卡在哪了

为什么硅谷这帮最不缺算力的玩家，集体卡在了实验室门口？

要回答这个问题，其实只需要弄清楚一件事：

从模型到实验室，这中间到底缺了什么？顶尖模型在手，怎么就跨不过这道坎呢？

让我们从AI for Bio这个赛道的真实进展说起。

过去几年，AI在生命科学领域的应用多聚焦于「理解」和「分析」。

文献阅读、知识问答、序列比对、蛋白质结构预测，模型确实博学，但它本质上是个坐在屏幕后面的助理。

它能帮你理解世界，但还没真正进入世界。

Agent时代来了之后，事情开始变了。AI不再只满足于回答问题，它开始「设计和行动」。

应此潮流，以OpenAI、Anthropic为代表的前沿AI玩家，开始把目光投向更下游、更主动的方向：

假设生成、实验设计、参数空间探索、药物发现、蛋白工程、自动化实验。

听起来是不是已经很接近「让AI进实验室干活」了？

但现实情况是——还差得很远。

当下AI for Bio最真实的现状就一句话：能出方案，出不了结果。

能力达到博士级水平的顶尖AI，确实能写出一段看起来专业的实验方案，但写得好≠跑得通。

△图片由AI生成

这中间几乎隔着一整条转换链。ProtoPilot的论文拆得很清楚：

一个实验意图要变成湿实验台上的真实操作，需要穿过五层——科学意图、Protocol（方案设计）、SOP（标准操作流程）、设备代码，再到物理执行和反馈修正。

而每一层都要解决不同的模糊性，比如Protocol要表达生物逻辑、样本谱系和质控结构；SOP要把逻辑落到可操作的体积、浓度、耗材和温控条件上；设备代码要绑定deck布局、孔位映射、液体处理动作和厂商SDK指令……

就这一套下来，只要有任一环节出错，实验就可能失败。

所以，当AI for Bio的竞争从「模型能不能回答生命科学问题」转向「模型能不能走完从屏幕到实验台的全链路」时，行业真正缺的也就浮出水面了。

一块是「铲子」，能接住模型输出、连接专家、设备和湿实验反馈的Bio Agent Harness。

没有这个，方案再漂亮也只能停在屏幕上。

一块是「尺子」，能评价Bio Agent真实实验链路能力的benchmark。

不是考它做选择题，是看它生成的流程能不能在真实设备上跑得通。

现在公开的benchmark，比如ProtocolQA，考的还是阅读理解。

需要提醒，这两件事都不是坐在屏幕前就能凭空设计出来的，它们必须来自真实实验室：

真实任务、真实设备、真实约束、真实失败和真实专家判断。

所以现在你明白，为啥两家国产团队选择联手了吧（doge）：

坐拥全栈生命科学设备、自动化实验平台、AI4Science经验和丰富真实实验场景的涌生智能，把最难被复制的「物理底座」和「场景底座」带了进来。

它不仅提供湿实验验证能力，更从真实用户需求、实验室约束和自动化执行逻辑出发，参与定义什么样的Protocol才算可用、可评、可执行。

上海人工智能实验室则基于其在大模型训练、评测标准和Agent框架上的积累，提供生成实验Protocol的模型基础，并与涌生智能共同构建Design2Protocol和Protocol2Code的benchmark、评分标准与评测工具。

两边一合，沉淀出了ProtoPilot和BioLab Bench。

Bio Agent，第一次真正走向了可评测、可执行、可迭代的真实实验闭环。

ProtoPilot和BioLab Bench，如何填补行业空白

ProtoPilot和BioLab Bench，具体如何填补行业空白？

我也去仔细扒了扒论文。

ProtoPilot：第三方测评超越OpenAI最强旗舰GPT-5.6 Sol

先说多智能体系统ProtoPilot。

目前AI for Bio赛道上，能打通Design2Protocol、Protocol2Code、设备执行与湿实验反馈验证的系统仍然极少，大多还停留在分段优化阶段，而ProtoPilot是少数已经实现全链路贯通的代表之一。

怎么个「全链路贯通」？举个例子：

当你用自然语言对ProtoPilot说「构建8个GLuc突变体」，它就能把这句话拆解成科学合理的Protocol，识别可用设备，转化为可执行的工作流代码，下发到物理设备执行，并根据湿实验反馈持续修正和进化。

注意，这不是聊天机器人，也不是单一设备的脚本生成器。

ProtoPilot背后是多个Agent在协同发力：

Orchestrator Agent统筹全局工作流状态，Protocol Expert Agent生成实验方案和SOP，Coding Agent将方案转化为设备可执行代码。三个Agent各司其职，逐层推进。

通过这种行业主流的「多Agent协同工作」方案，它成功解决了三个过去卡死行业的「老大难」。

第一个，需求模糊。

做过实验的都知道，很多时候你脑子里的实验意图往往只有个大概方向。

怎么将这种模糊意图转化为下一步具体行动？这便是Orchestrator Agent首先登场的原因。

Orchestrator本质上干的是实验室主管的活：

先把你的大目标拆成几个模块，每个模块单独细化成可操作的SOP，做完一个确认没问题再做下一个，最后拼成完整流程。

这样做的好处是，不会一上来就从头写到尾，写到后面发现前面的参数跟后面打架。

第二个，写得好≠跑得通。

Protocol写得再漂亮，真实执行还涉及孔位、体积、slot、耗材、温控、设备SDK、安全边界，一堆硬约束。

ProtoPilot的Protocol2Code环节，就是专门来啃这块硬骨头的。

怎么啃？Coding Agent拿到SOP之后，会根据你实验室里实际用的设备，把每一步操作翻译成那台机器听得懂的SDK指令。同一个「移液100μL」的动作，在MGI Prepall/AlphaTool上怎么写、在OpenTrons上怎么写、deck怎么排、孔位怎么映射，它都替你对齐。

翻译完还不算完，内置的验证器会逐条检查代码的安全性和可执行性，过不了gate的直接打回重写。

第三个，没有反馈闭环。

模型生成完方案就撒手不管了，错了也不知道错在哪，下次还犯。

ProtoPilot不一样，失败原因、专家判断、实验结果统统回流到系统，形成运行时技能学习。

换句话说，它越用越强。

就这几招下去，ProtoPilot能交出下面这份硬核成绩单，我是真不意外了。

做实验第一步，你得真懂实验。

别的不说，行业公认「试金石」ProtocolQA总得挑战一下吧。

ProtocolQA由AI4S领域的顶级机构FutureHouse推出，是专门考察AI对实验流程理解与故障排查能力的第三方独立benchmark。OpenAI家目前最顶的GPT-5.6 Sol的系统卡中也收录了该benchmark结果。

结果呢？

在开放式问答上，GPT-5.6 Sol得分43.5%，距离人类专家54%还有明显差距；而ProtoPilot拿到了52.38%，已经逼近专家水平。

在非开放式问答上， ProtoPilot更是取得了85.18%的成绩，已经超越专家水平。

在行业公认的第三方考卷上，跑赢OpenAI目前最强的旗舰模型，ProtoPilot的实力不言自明。

P.S. 归根到底，这背后其实是两条完全不同的技术路线在较量，先埋个钩子，后面详细揭晓。

有了这个大脑，方案生成自然能打。

在Protocol任务上，ProtoPilot综合评分94.7（满分100），在所有8个评估维度上几乎全线领跑。参数合理性98.9、方法学一致性97.7、内容完整性98.4，全部碾压通用大模型和专用Bio Agent。

盲评中，三位独立湿实验科学家在不知道系统身份的情况下，70.6%的情况将ProtoPilot排在第一，90.2%的情况将ProtoPilot排在前三。

从下图也能一眼看出，ProtoPilot生成的方案普遍更受科学家喜爱。

更关键的是，这个大脑能搞定最难的事。到了L3（最高复杂度）任务这一档，差距变得极其夸张：

ProtoPilot的通过率依然有60%，而作为行业标杆的OpenTrons-AI直接归零。

如下图右侧的紫色柱子，OpenTrons-AI只能在自家设备使用，且完成不了复杂任务。

但光有脑子还不够，还得手脚利索。

考查代码转化和设备执行（图b）。Protocol2Code代码质量中位数95.5，Gate Pass Rate达到96.6%。

什么概念？第二LabScript-AI的通过率是64.6%，Grok-4.3只有35%，GPT-5.5只有17.7%，再往下基本是个位数。

跨设备迁移更猛（图c）。在MGI AlphaTool、Hamilton STAR、OpenTrons OT-2、Tecan EVO四个主流平台上，Gate Pass Rate波动仅5.9个百分点（pp）。作为对比，LabScript-AI的波动则高达47.1个百分点。

这里有个特别有意思的细节：

在OpenTrons OT-2上，ProtoPilot通过率88.24%，而OpenTrons官方自己的AI只有32.35%。

也就是说，ProtoPilot不仅在技术上实现了通用，而且赢了别人接近三倍。

BioLab Bench：首个从实验意图到设备执行的全链路评测体系

说完了选手，再说考场。

现有的第三方benchmark，比如刚才提到的ProtocolQA，考的还是实验理解和知识问答。

但AI for Bio真正要回答的问题，从来不是「你懂不懂实验」，而是「你能不能把实验跑出来」。

这就是BioLab Bench要填的坑，它衡量的核心只有一件事：

系统能不能在真实自动化设备上跑得通。

具体而言，BioLab Bench作为该领域首个覆盖从用户需求到设备可执行的全流程Agent评测体系，覆盖理解用户实验意图→Design2Protocol→Protocol2SOP→SOP2Code→设备code→真实实验执行链路。

任务范围从基础操作到复杂多步骤流程，按L1到L3难度分层。

和传统的生物benchmark的区别在哪？

以前的考试是做阅读理解，看你懂不懂实验原理，而BioLab Bench考的是真上手——

从实验意图到方案、SOP、设备代码，一路到真实执行，全链路打通。

而且它还能跨平台检验。

同一个任务，换到不同自动化设备上，看Agent能不能适配。

说到底，ProtocolQA这类测评考的是「知不知」，BioLab Bench考的是「做不做得到」。

不是纸面分数，是实验台上跑出来的闭环

系统有了，考场也有了，剩下的问题只有一个：在真实实验台上，能不能跑出结果来？

忙着「搭桥修路」这么久，总得让人看到实际成果。

ProtoPilot用四组递进难度的湿实验给出了回答。（P.S. 湿实验指真实实验台操作，和纯计算模拟相对应）

第一组是最基础的活儿，在96孔板里接菌培养。

没什么花哨的，就是看机器能不能按照指令把菌液加到每个孔里、能不能养出东西来。

结果96个孔全部生长，OD600读数稳稳当当。基础操作，过关。

第二组加了点难度，做了24个菌落PCR。

简单说就是挑菌、扩增、跑胶，看能不能拿到对的条带。

24个克隆，全部扩增出预期条带。机器移液、温控、试剂分配，都没掉链子。

第三组是真正的分子克隆，质粒构建和定点突变。

说白了就是把一段目标基因装到质粒载体上，再精确地改掉其中某个碱基。

这里面涉及酶切、连接、转化、测序验证，每一步都得精准。

而ProtoPilot做的两个质粒，GLuc-WT和RLuc-WT，全部拿到Sanger测序确认。

往下再做酶的突变体质粒的构建，成功构建出15个sanger测序通过的突变体。

当然最能体现水平的还是第四组，基于PCA方法的DNA组装。

所谓PCA法的DNA组装，意思是你手头没有现成的完整DNA片段，而是要从一组短寡核苷酸开始，把目标序列一步步「组装」出来：设计引物、合成寡核苷酸、搭桥组装、纠错、扩增，再连到载体上、转化进细胞。

整条路七个步骤串下来，一步卡住全盘重来。

在菌落PCR实验一共挑选了96个候选克隆，93个阳性，初筛阳性率达96.9%，而Sanger测序结果也证明4条目标DNA序列全部构建成功。

（

左右滑动

）

更关键的是，这个系统还会自我修正。

论文里记录了一个细节：

第一轮PCA组装转化，培养皿上的菌长糊了，几乎没有可挑的单克隆。

系统自己分析了失败原因，判断是抗性筛选出了问题，然后重新生成修正方案。

结果第二轮跑下来，成功出现了许多可挑取的单克隆菌落，最终成功拿到了测序确认的DNA产物。

显然，这就不是纸面分数了。

这是从需求理解、流程生成、自动化执行、结果验证到异常修正的完整闭环，在真实实验台上真刀真枪跑出来的。

一家跨界AI的中国Bio公司，比Claude更先交卷了

系统跑通了，数据打完了，湿实验也验过了。

问题只剩下一个：为什么交出这份答卷的，是一家中国Bio公司？

答案想必你已经猜到了，因为做AI for Bio，最稀缺的从来不是模型，是场景和设施。

AI发展到现在，这个判断几乎成了各行各业的共识。

放在AI for Bio赛道，真实设备、真实湿实验、真实失败、真实约束……这些理论上归属于「生命科学实验室Physical AI」的部分，才是一个玩家所拥有的最大护城河。

模型可以买、可以训，但真实道路只能自己修。

正是在这样的背景下，涌生智能这家公司的出现也就不那么让人意外了：

一家从设备侧生长出来的AI公司，天然比从模型侧空降的玩家，更懂物理世界的语法。

△图片由AI生成

涌生智能，是今年3月由华大智造成立的子公司，专注AI4S领域，聚焦搭建面向生命科学的干湿闭环基础设施。

掌舵人杨梦，华大智造首席AI官，涌生智能CEO，是华大智造AI战略的核心推动者。

在此之前，他带队在Nature子刊发过EvoPlay（用强化学习设计功能蛋白的AI智能体）和PrimeGen（干湿协同多智能体系统），还主导开发了AI全栈接入的闪速测序仪E25 Flash。

因此这个团队做ProtoPilot这件事，并非从零起步，而是在多年AI+Bio实战经验上的一次集中爆发。

当然了，一家成立仅几个月的公司能快速拿出新成果，底气无疑离不开其母公司华大智造。

华大智造是全球率先集齐「全读长测序（SEQ ALL）+智能自动化（GLI）+多组学（OMICS）」三大技术板块的生命科技上游企业，手握PrepALL、AlphaTool、AIO一体机等Agent-ready智能实验自动化产品，截至2025年末已积累全球超3800家用户，以及十余年生命科学设备的工程化经验。

当这些设备能被代码驱动，Agent才长出了手；当SOP数字化、机器可读，Agent才听得懂实验的语言；当湿实验结果能被采集、回流成数字信号，Agent才睁开了眼睛。

所以，一切都很清楚了：

涌生智能赢就赢在，他们不是从外部给实验室装一个AI，是从实验室内部长出AI。

这是一条和硅谷完全不同的路线。

头部AI公司选择scale compute，用更大的算力推高通用模型能力；

而涌生智能则从真实实验世界出发，基于国产开源模型，结合自研Bio Agent Harness架构，通过真实实验数据回流与Agent协同驱动系统进化，将任务执行、设备约束、专家反馈与湿实验结果统一纳入训练闭环。

路线不同，结果说话。