技能增强型AI代理在医学研究分析中的应用:一项NSCLC转录组生物标志物任务中的探索性多模型人类评估

arXiv cs.AI 论文

摘要

本探索性研究在NSCLC生物标志物任务中使用多模型人类评估,评估将AI代理与医学研究技能包相结合是否能提高转录组研究分析输出的质量(与原生AI相比)。结果显示有方向性但无统计显著性的改善,强调了进行更大规模、更稳健评估的必要性。

arXiv:2606.11830v1 Announce Type: new 摘要:背景。大型语言模型和AI代理越来越多地用于支持生物医学研究,但原生模型输出可能会遗漏关键分析步骤、误用方法或夸大结论。我们评估了自主访问医学研究技能包是否与更高质量的AI生成的转录组研究分析输出相关(与没有技能的原生AI相比)。方法。我们使用一项非小细胞肺癌免疫治疗生物标志物任务进行了探索性多模型人类评估。测试了六个模型主干。评估包括21个匿名输出:9个原生AI输出和12个通过以OpenClaw为代表的AI代理实现生成的技能增强输出。四位非专家生物医学评审员和两位盲法专家评估了每个输出,每位评审员类型提供两次评分。主要结局是专家评定的整体质量。结果。技能增强输出在专家整体质量上显示出方向性高于原生AI输出(均值5.50 vs 5.11;差值=0.39;自举法95\%置信区间,-0.04至0.90;Welch检验p=0.156)。非专家评审员质量显示相同方向(均值4.72 vs 4.47;差值=0.26;自举法95\%置信区间,-0.25至0.80;Welch检验p=0.373)。专家一致性有限(单次评分的组内相关系数=-0.15),且模型特异性效应为描述性且异质性。结论。自主技能访问在此探索性样本中显示出方向性质量信号,但该信号小于专家评分噪声,不应解释为确证性证据。这些发现主要推动了在更强可靠性控制、平台复制和生物学有效性评估下对技能增强AI代理进行更大规模评估的必要性。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:49

# 技能增强的AI智能体在医学研究分析中的应用:一项基于非小细胞肺癌转录组生物标志物任务的探索性多模型人类评估
来源:https://arxiv.org/html/2606.11830
钱宇尧1,∗, 孙飞1,∗, 黄柏程1,∗, 陈伟1, 蒋佳瑞1, 权澍1, 陈逸飞1, 徐伟杰1, 李波1, 苏丽萍1, 吴若琼1, 洪湖海1, 王惠美1,†  
1AIPOCH PTE. LTD., 新加坡  
∗这些作者作为共同第一作者贡献相等。  
†通讯作者:王惠美。

###### 摘要

**背景**。大语言模型和AI智能体越来越多地被用于支持生物医学研究,但原生模型输出可能会遗漏关键分析步骤、误用方法或夸大结论。我们评估了自主访问医学研究技能包是否与更高质量的AI生成转录组研究分析输出(相较于没有技能支持的原生AI)相关联。

**方法**。我们开展了一项探索性多模型人类评估,使用非小细胞肺癌免疫治疗生物标志物任务。测试了六个模型骨干。评估包含21个匿名化输出:9个原生AI输出和12个通过以OpenClaw为代表的AI智能体实现生成的技能增强输出。四名非专业生物医学评审员和两名盲法专家对每个输出进行了评估,每个评审员类型提供两次评分。主要结局是专家评定的整体质量。

**结果**。技能增强输出在专家整体质量方面显示出方向性更高的趋势(均值5.50 vs 5.11;差异=0.39;bootstrap 95% CI,-0.04至0.90;Welch检验p=0.156)。非专家评审员质量呈现相同方向(均值4.72 vs 4.47;差异=0.26;bootstrap 95% CI,-0.25至0.80;Welch检验p=0.373)。专家一致性有限(单次评分ICC=-0.15),模型特定效应为描述性且异质性。

**结论**。在该探索性样本中,自主技能访问显示出方向性的质量信号,但该信号小于专家评级的噪声,不应视为确证性证据。这些发现主要推动了更大规模的评估,以考察技能增强的AI智能体,需具备更强的可靠性控制、平台复现和生物学有效性评估。

## 1 引言

大语言模型(LLMs)和人工智能(AI)智能体正越来越多地被探索作为生物医学研究的辅助工具,包括文献解读、研究规划、统计推理和数据分析。先前的工作表明,大型基础模型能够编码临床相关知识,并在医学问答任务上表现竞争力,而关于通用医学AI的更广泛讨论已强调它们支持复杂生物医学工作流的潜力 [1,2]。然而,原生LLM输出仍然容易受到信息遗漏、方法选择不当、验证逻辑薄弱和过度自信的声明的影响。

工具使用和智能体编排已成为提高可靠性的策略。针对应用程序编程接口(API)和工具使用的基准测试与系统,如API-Bank [3]、Gorilla [4]、ToolLLM [5] 和 TaskBench [6],强调模型性能不仅应通过语言生成来评估,还应通过模型是否能够选择和执行合适的工具来评估。最近基于技能的智能体研究已将注意力转向可重用技能、技能路由、依赖感知检索和工作流级基准测试 [7-12]。然而,关于可重用医学研究技能是否能在不同模型骨干上改善下游人工评估的研究分析质量,尤其是在必须整合证据选择、终点设计、验证逻辑和声明校准的生物医学工作流中,我们知之甚少。

医学研究是一个对技能编排要求很高的领域,因为一个可用的输出必须连接证据、方案设计、数据集选择、终点定义、预处理、统计分析、验证、生物学解释和明确的局限性。转录组生物标志物研究是一个合适的压力测试:它需要公共数据集选择、队列设计、表达矩阵预处理、差异表达分析、通路富集、免疫微环境分析、特征选择、建模和验证。在非小细胞肺癌(NSCLC)免疫治疗研究中,候选生物标志物也必须谨慎解释,因为样本量、终点不匹配、过拟合和有限的生物学合理性可能显著削弱下游声明。

本研究评估了自主访问医学研究技能包是否与更高质量的AI生成研究分析输出(相较于仅使用原生AI)相关联。贡献有三方面:首先,它为技能增强的AI智能体提供了一个经过人类评估的生物医学使用案例;其次,它将下游研究分析质量与传统的工具使用或路由准确性基准区分开来;第三,它考察了描述性的模型特定异质性,同时明确将发现视为假设生成。

## 2 方法

### 2.1 研究设计

这是一项探索性的、多模型、人类评估的原生AI与技能增强AI智能体的比较。原生AI策略使用无法访问医学研究技能生成的模型输出。技能增强策略使用具有医学研究技能包访问权限和自主技能路由的AI智能体。OpenClaw被用作技能增强实现的代表性AI智能体平台。该研究评估生成的研究分析输出的质量,而非最终手稿或临床验证的生物标志物。

### 2.2 模型骨干

包含六个模型骨干:GPT-5.4、Claude Sonnet 4.6、GLM-5.1、DeepSeek-V4 Pro、Kimi K2.6 和 MiniMax-M2.7。模型是实用性地选择,以覆盖研究团队在多个提供商和部署生态系统中可用的广泛使用的前沿或接近前沿系统;它们并非旨在代表所有可用LLMs的系统性样本。最终评估数据集包含21个输出:9个原生AI输出和12个技能增强输出。最终评估过程中生成的重复输出被保留,以反映智能体工作流的真实世界可变性。

### 2.3 生成协议

所有模型骨干均在相同的任务提示和预期输出要求下进行评估。原生AI策略接收任务时无法访问医学研究技能包。技能增强策略在具有自主访问技能包的AI智能体环境中使用相同任务。如果输出产生了可评审的研究分析材料,包括完整报告、阶段摘要或输出文件,则保留这些输出。部分或非标准输出如果仍然可评审则不予排除,因为该研究旨在评估真实世界的智能体输出质量,而非仅理想的完成运行。专有模型解码参数在运行环境中并未统一暴露;因此,分析报告的是评估的模型骨干和生成的输出,而非声称模型采样设置的精确低级可重复性。补充材料提供了确切的任务提示、输出纳入规则、评估输出计数(表S1 (https://arxiv.org/html/2606.11830#A3.T1))、评分锚点(表S2 (https://arxiv.org/html/2606.11830#A4.T2))和分析工件(表S3 (https://arxiv.org/html/2606.11830#A5.T3))。

### 2.4 统一研究任务

所有模型都收到了相同的研究任务:使用公共转录组数据构建一个多基因特征,用于预测非小细胞肺癌(NSCLC)的免疫治疗反应,并探索程序性细胞死亡(PCD)机制(包括铁死亡、铜死亡和焦亡)在免疫治疗耐药中的作用。预期输出是一个研究分析计划和数据分析工作流,其复杂程度相当于相应年份影响因子(IF)约为5的期刊文章。此短语用于设定任务复杂性和预期完整性;并非旨在预测期刊接收、实际发表质量或任何期刊的未来影响因子。所需组件包括公共数据集选择、队列设计、终点定义、预处理、差异表达分析、候选基因筛选、模型构建、验证策略、免疫微环境分析、机制解释、关键图表和人工评审要点。

### 2.5 技能包

医学研究技能包来源于 awesome-med-research-skills 仓库,位于 AIPOCH 医学研究技能集合 (https://github.com/aipoch/medical-research-skills/tree/main/awesome-med-research-skills)。它包括证据洞察、方案设计和数据分析技能。评估的技能是程序指导模块和面向执行的分析模块的混合体。数据分析能力包括表达矩阵归一化、批次效应校正、差异表达分析、基因本体论/京都基因与基因组百科全书(GO/KEGG)富集、基因集富集分析(GSEA)、基因集变异分析(GSVA)、CIBERSORT或单样本GSEA(ssGSEA)免疫浸润分析、使用表达数据估算恶性肿瘤基质细胞和免疫细胞(ESTIMATE)评分、最小绝对收缩和选择算子(LASSO)或弹性网特征选择、机器学习建模、受试者工作特征(ROC)分析、外部验证、校准、决策曲线分析、适用时的生存分析、蛋白质-蛋白质相互作用(PPI)网络、转录因子(TF)-靶标网络、数据允许时的竞争性内源RNA(ceRNA)或长非编码RNA(lncRNA)网络、聚类、降维、样本相关性分析以及在统计上适当情况下的加权基因共表达网络分析(WGCNA)。这些模块应被理解为广泛的生物信息学和生物医学研究工作流模块,而非针对NSCLC程序性细胞死亡的疾病或机制特异性模块。在执行基准工作流中,下载的公共数据集在下游分析前会检查是否与肺癌或NSCLC相关,但专门的铁死亡、铜死亡或焦亡特异性基因集整理在部署的技能环境中未独立验证。因此,程序性细胞死亡的解释依赖于模型对可用通用富集或通路分析技能的检索、推理和使用。学术写作技能不属于评估任务的一部分。该研究未验证每个生成输出所提议的程序性细胞死亡基因集或生物标志物是否具有生物学有效性。

### 2.6 输出匿名化

所有输出在评审前均进行了匿名化处理。模型名称、模型系列、生成策略标签、平台配置和明显的实验线索均被移除。每个输出被分配一个随机匿名标识符。匿名ID、模型和生成策略之间的映射单独存储,评审员无法获取。

### 2.7 人类评估

四名非专业生物医学评审员评估了清晰度、完整性、感知可信度、可用性、工作流连贯性和感知风险。这些评审员具有生物医学或医学研究背景,但不被视为NSCLC转录组学或生物统计学的专业裁决者。每个输出接受两次非专业评审。非专业质量得分计算为涵盖内容清晰度、方法完整性、感知可信度、可行性和实际可用性的7点李克特量表项目的均值,得分越高表示感知质量越好。非专业工作流得分根据评估技能选择、步骤排序、上下游连续性和多个分析组件整合的项目计算。非专业风险感知根据评估潜在方法错误、统计过度解读、不当技能使用和需要人工评审的项目计算;得分越高表示感知风险越大。对于质量和工作流项目,量表锚点为1=非常差或强烈不同意,4=中立或部分可接受,7=优秀或强烈同意。对于感知风险项目,1表示非常低的感知风险,7表示非常高的感知风险。

两名盲法专家独立评审了所有输出。专家评分使用7点李克特量表项目,涵盖研究问题清晰度、证据和研究空白、目标、队列和终点设计、转录组预处理、差异表达和富集策略、免疫分析、生物标志物构建、建模和验证、统计和生物信息学适当性、工作流整合、风险和局限性陈述、可行性和整体质量。主要结局是专家评定的整体质量。评审员评估匿名输出,无法访问模型名称、生成策略或平台配置。

### 2.8 统计分析

分析的主要单位是匿名化输出,取每个评审员类型可用的两次评分的平均值。按生成策略汇总得分,使用均值、标准差、中位数、四分位数和范围。使用Welch t检验和Mann-Whitney U检验评估原生AI和技能增强输出之间的策略级比较,并计算技能减去原生差异均值的非参数bootstrap 95%置信区间(CI)。模型级技能减去原生差异通过平均每个模型-策略组合内的输出,然后从技能增强得分中减去模型的原生AI得分来计算。这些模型级对比被视为描述性,因为几个单元格包含一个原生AI输出和两个技能增强输出。重复输出作为单独生成的工件保留,但模型级汇总用于减少对重复运行依赖的过度解释。评分者间一致性使用专家评分的双向绝对一致类内相关系数(ICC)和探索性非专家评分的单向随机效应ICC评估,因为非专家评分未完全由评审员交叉。未对五个策略级结局汇总或六个模型级描述性对比进行多重性调整。所有分析均为探索性。

## 3 结果

### 3.1 数据集与质量控制

评估数据集包含21个匿名化输出:9个原生AI输出和12个技能增强输出。每个输出接受两次非专业评审和两次专家评审。没有非专业评审记录未通过注意力或阅读确认检查(图1 (https://arxiv.org/html/2606.11830#S3.F1))。

参见图注 图1:评估数据集质量控制流程。该图总结了包含的匿名化输出、生成策略分布、人类评分量级以及非专业评审质量控制检查。

### 3.2 按生成策略的总体比较

专家整体质量在方向上,技能增强输出高于原生AI输出(均值5.50 vs 5.11;技能减去原生差异=0.39;bootstrap 95% CI,-0.04至0.90;Cohen’s d=0.73;Welch p=0.156;Mann-Whitney p=0.150)。非专家评审员质量呈现相同方向

相似文章

MedSkillAudit:医学研究智能体技能领域专用审计框架

Hugging Face Daily Papers

本文介绍了MedSkillAudit,这是一个领域专用审计框架,用于在部署前评估医学研究智能体技能的安全性和质量。研究表明,该系统在评估一致性方面达到可靠水平,优于或相当于人类专家审查。

神经科学数据到发现流程中AI代理评估的案例研究

arXiv cs.AI

本文提出了一项实证研究,评估通用编码代理在果蝇光遗传学数据到发现流程中的表现。研究发现,虽然代理能够自动化单个阶段,但在需要科学判断和资源管理的端到端任务中表现不佳。

AutoMedBench:迈向基于智能体AI模型的医学自动研究

Hugging Face Daily Papers

AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。

关注工具故障:实现医疗代理的协同工具增益

arXiv cs.AI

本文针对医疗AI代理中的工具故障问题,提出了一种基于GRPO的强化学习框架,利用实例级选择、分歧感知协同学习和熵引导采样来纠正错误的工具共识,并在七个医疗基准测试中提高了可靠性。