港中文、哈佛等联合推出脑科学的小龙虾——NeuroClaw

港中文、哈佛等联合推出脑科学的小龙虾——NeuroClaw图1

如果一位神经科学家想验证某种精神疾病与脑功能连接的关联，他需要经历多少障碍？首先是数据：结构磁共振成像、功能磁共振成像、弥散磁共振成像和脑电图格式各异，有的来自临床DICOM设备，有的已经是NIfTI文件。其次是工具：FSL、FreeSurfer、fMRIPrep、QSIPrep，每一个都有复杂的依赖关系和版本要求。最后是可复现性：同样的分析脚本，在一台工作站上能运行，换到服务器上就可能因为某个Python包的版本差异而崩溃。更棘手的是，这些错误往往潜伏在多阶段流程的深处，直到最后一步才暴露。

这并非夸张。神经影像学（Neuroimaging）研究长期面临一个尴尬的悖论：数据越来越丰富，方法越来越先进，但从原始数据到可靠结论的路径却越来越脆弱。近日，香港中文大学、西北大学、利哈伊大学、麻省总医院及哈佛大学的联合团队在预印本平台arXiv发表论文，提出了NeuroClaw，一个面向神经影像学的多智能体（multi-agent）研究助手。它试图回答的问题是：能否让智能体人工智能（Agentic AI）直接操作原始扫描数据，自动完成从格式转换、预处理到统计建模的全流程，并且保证结果可执行、可验证、可复现？

与此同时，团队还发布了NeuroBench，一个包含100个任务的标准化基准测试，用于衡量智能体在真实神经影像工作流中的执行能力。

神经影像学的"可复现性危机"

研究人员表示"神经影像学数据驱动了疾病预测、表型分析和脑网络研究等下游任务，但将这些信号转化为稳健且可复现的科学发现，在实践中始终困难。"测试-重测信度（test-retest reliability）受限，可复现性在不同扫描时段、不同设备、不同分析选择和不同样本量之间波动显著，这已是该领域的共识。

深度学习系统如DeepPrep确实提升了预处理的速度和规模，但可靠性研究持续记录任务态fMRI、静息态fMRI和纵向设计中的不稳定性。更深层的问题在于，复杂的依赖关系、脆弱的运行时环境和缺乏标准化验证流程，常常使有前景的方法无法转化为可执行、可复现的研究工作流。

在神经影像学中，即使微小的元数据不一致或环境漂移也可能使下游分析失效。现有框架往往生成看似合理但科学上不可用的输出，无法支持从原始数据准备到模型反馈和方案调整的自动化实验发现闭环。

NeuroClaw：让智能体"读懂"原始扫描数据

面对这些难题，香港中文大学等多家研究机构联合推出了面向神经科学工作者的小龙虾——NeuroClaw。它的核心目标只有一个：让多智能体系统能够直接操作原始神经影像数据，跨越格式、模态和长阶段流程的障碍，将设计和迭代从物理世界搬进数字世界，同时保证执行透明和结果可审计。

图1：NeuroClaw系统框架与NeuroBench评估概览。

NeuroClaw的设计围绕三个实际优势展开。

第一，原始数据感知的工作流编排。系统根据数据集语义和BIDS元数据来规划分析步骤。例如，当用户指定HCP Young Adult数据集时，对应的'hcp-skill'会自动构建跨sMRI、fMRI和dMRI的多模态处理计划，并将每个阶段委派给相应的模态技能。这种基于数据语义的决策减少了异构计算环境中的歧义，避免了级联错误。

第二，环境感知的实验执行与Harness工程。NeuroClaw管理Python环境、Docker容器、GPU配置和神经影像工具链（FSL、FreeSurfer、fMRIPrep），用户无需手动配置运行时。更重要的是，系统引入了Harness工程约束：检查点执行、结构化验证和审计日志。每次实验遵循分解-初始化-执行-验证协议，生成环境清单、结构化日志、每阶段检查点和最终审计报告。运行时组件还包括漂移日志、基于校验和的工件验证以及容器隔离。

第三，三层技能架构。NeuroClaw将能力组织为接口层（Interface Layer）、子智能体层（Subagent Layer）和基础层（Base Layer）。接口层解释用户意图并规划调用；子智能体层通过四种技能类型实现领域编排——工具技能（Tool Skills）封装外部软件，模态技能（Modality Skills）封装fMRI、sMRI和dMRI的预处理流程，模型技能（Model Skills）处理表型预测和统计分析，数据集技能（Dataset Skills）协调ADNI、HCP Young Adult和UK Biobank等队列的端到端多模态工作流；基础层执行原子操作，如文件转换、DICOM-to-NIfTI变换、元数据验证和单命令执行。

所有技能依赖被结构化为有向无环图（Directed Acyclic Graph, DAG）。这种设计强制执行单向信息流，防止循环依赖，并支持通过最小遍历实现高效调用。

仿真和现实对上了？

NeuroClaw最直观的展示，是它能处理什么样的数据模态和队列。

对于sMRI，系统处理DICOM-to-NIfTI转换、BIDS组织、颅骨剥离、组织分割、皮层表面重建和基于感兴趣区域（Region of Interest, ROI）的统计提取。对于fMRI，支持预处理和去噪流程、混淆回归、ROI时间序列提取、连通性分析和一级到组级的广义线性模型（General Linear Model, GLM）报告。对于dMRI，管理预处理、张量拟合、微观结构指标计算、纤维束成像和连接组构建。对于EEG，提供标准预处理、伪影去除、频谱特征提取和特征表生成。

在数据集特定工作流方面，ADNI处理包括数据暂存、BIDS合规重组、模态感知预处理和ROI特征生成；HCP处理协调长程多模态流程，管理阶段依赖并保持一致的中间工件；UK Biobank支持基于已有本地衍生表和特征矩阵的脑聚焦下游分析。

然而，能做这些固然好，但更务实的价值在于：生成训练数据和工作流模板，然后迁移到真实研究任务中。NeuroClaw的Harness层通过预期工件检查、缺失文件检测、NaN/Inf筛选、质量控制验证和结构化JSONL审计日志，实现了跨执行的标准化后验验证。

NeuroBench：虚拟实验，解决真实世界的难题

为了量化NeuroClaw的实际效果，研究团队引入了NeuroBench。该基准包含100个手动设计的任务（T001-T100），由经验丰富的神经影像研究者设计，确保科学有效性和实践相关性。

图2：NeuroBench评估模块与流程概览。

任务分为四个模块：基础数据与环境准备、神经科学工具利用、多模态神经影像处理、端到端研究工作流。涵盖BIDS验证、格式转换、ANTs配准、FSL预处理、FreeSurfer皮层重建、fMRIPrep、QSIPrep、基于种子的连通性、ICA-FIX去噪、一级任务态fMRI GLM和ROI统计等。

评分采用三层结构：基于大语言模型的质量评分、运行时和效率统计、有无技能设置的配对比较。每个任务由固定的GPT-5.4评判员在三个维度上按1-10分评估：计划完整性（P）、工具与技能使用合理性（R）、命令或代码正确性（C）。加权得分计算公式为S₁₀ = 0.30·P + 0.40·R + 0.30·C，再转换为百分制S₁₀₀ = 10·S₁₀。

实验结果清晰呈现了技能框架的价值。在NeuroClaw设置下，Claude-Opus-4.6获得72.10%的综合得分，Claude-Sonnet-4.6为70.39%，GPT-5.4为67.69%。所有10个基线模型在NeuroClaw框架内运行时均有提升，平均绝对增益4.74 分。MiniMax-M2.7提升最大，绝对增益12.97 分，归一化增益g = 0.1998；Qwen3-plus绝对增益7.73 分，g = 0.1558；Claude-Sonnet-4.6绝对增益5.02 分，g = 0.1450。

图3：各模型在NeuroBench上于有技能和无技能设置下的性能对比。

然而，当前评估协议可能低估了技能使用的实际效果。在神经影像工作流中，对缺失依赖、环境配置和数据就绪状态的显式推理通常是必要的，但在当前评分标准下，这种谨慎推理可能被评判员部分判定为与狭窄任务要求无关。因此，表1中的增益应被保守解读。

表1：NeuroClaw技能使用在NeuroBench上的性能增益

未来：从"能运行"到"可信赖"

NeuroClaw的出现，填补了一个明显但长期被忽视的空白：神经影像研究领域缺乏面向可执行性和可复现性的智能体设计工具。

过去二十年，神经影像从单维分析进化到多模态融合，从手动处理进化到深度学习辅助。但再往前，跨模态、跨队列、跨环境的自动化实验闭环始终缺乏基础设施支撑，进化不动了。

NeuroClaw的逻辑是：借助智能体系统预先对复杂神经影像工作流进行编排、执行和验证，避免在真实环境中反复试错，从而缩短研究周期。在这个框架里"生长"出想要的分析流程，看它如何处理数据，然后拿去真实世界运行。

当然，它还有局限。当前NeuroBench任务虽然多样，但仅代表真实世界神经影像复杂性的一个子集。扩展任务难度、纳入更大环境随机性和覆盖更多临床人群是未来方向。此外，本研究不声称达到最先进水平，也不提出临床或监管主张，这些问题需要更大规模的评估、前瞻性临床试验和领域特定监督。

从转化角度看，强劲的基准性能应被解读为基础设施就绪，而非临床就绪。从可靠执行到安全部署，需要前瞻性验证、持续专家监督、失效模式表征和任务特定治理框架。

当智能体能够直接"触摸"原始神经影像数据，神经科学研究的执行和交互能力将迎来一次重要的拓展。未来的实验室，或许真的能像有经验的技师一样，用自己的"数字之手"去处理和分析大脑扫描数据。

参考：

https://cuhk-aim-group.github.io/NeuroClaw/index.html

https://arxiv.org/pdf/2604.24696

脑机接口社区是国内首家脑机接口(BCI)产业服务平台。主要为企业、科研团队、投资机构和从业者提供以下服务：

宣传报道：图文、短视频、直播形式报道企业动态、技术解读、产品介绍等内容，提升曝光和行业影响力。

资源对接：根据需求匹配资本、供应链、临床机构、渠道方等资源，完成真实对接，促进合作。

成果转化：协助技术团队寻找产业方、投资人及落地场景，推动技术到产品的转化。

活动策划执行：承接线上线下路演、沙龙、论坛等活动的策划与执行。

其他定制需求：包括报告定制、市场调研、人才招聘支持等个性化服务。