2026年6月8日 科学:为生物学中的智能体铺平道路

Anthropic Research 论文

摘要

Anthropic研究员Laura Luebbert认为,生物数据基础设施需要为AI智能体重新设计,她通过一个案例研究指出,即使是强大的模型也无法可靠地从NCBI Virus检索序列数据,直到添加了确定性检索层。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/08 18:17

# 为生物学中的智能代理铺平道路 来源:https://www.anthropic.com/research/agents-in-biology 作者:Laura Luebbert。基于 Ferdous Nasri、Sarah Gurev、Patrick Varilly、Krithik Ramesh、Nuala A. O’Leary、Jonah Cool、Bernhard Y. Renard、Pardis Sabeti 和 Laura Luebbert 的研究(https://arxiv.org/pdf/2606.06749)。 *在这篇文章中,Laura Luebbert 认为我们需要让生物数据基础设施对智能代理更加友好。作为案例研究,她和团队让科学研究代理(Claude、Biomni、Edison Analysis、GPT)从 NCBI Virus 中检索序列数据——这是一个病毒学家用于监测和诊断检测开发等任务的数据库。即使是最强的模型,也无法一致地达到构建可靠数据集所需的准确度。但在她和团队加入 `gget virus`(一个确定性检索层)后,准确度提升到了接近 100%。对于科学代理而言,更广泛的经验是:确定性检索工具(目前)对于提高代理工作流的可靠性至关重要,而生物数据库在设计时需要将代理视为规模化用户来考虑。* 使用 AI 代理在生物数据基础设施中导航,就像驾驶汽车穿过一座在汽车发明之前就设计好的旧城市:基础设施可能很美观,甚至考虑周全,但到处都是狭窄蜿蜒的街道,现代车辆难以通行(独特的文件格式、分散的数据库、一次性的检索脚本)¹。你可以通过添加交通标志、停车场和偶尔拓宽的道路来改造这座城市,但基本布局仍然难以导航,因为它是为另一种交通方式设计的。相比之下,软件基础设施基本上是为汽车(代理)的需求而建造的:铺好的道路、清晰的车道、标准化的信号,以及为从起点到终点快速行驶而设计的系统(版本控制、文档完善的 API 和包管理器)。 因此,编码代理的进展比生物代理快得多。软件通常提供结构化的数字工作流和可靠的接口,而计算生物学中用于数据检索和验证的基础设施往往脆弱、异构且依赖流程。我们用来导航这些基础设施的工具必然是定制的,并且针对特定领域或假说进行了调整。此外,软件提供可测试的输出,能够快速编译和验证(例如,通过生成一个通过项目测试的补丁来解决 GitHub 问题),而生物学很少提供简单、可验证且有意义的奖励。 因此,生物代理的瓶颈不仅在于推理能力,还在于缺乏用于查询生物数据的广泛确定性执行层。科学家可以表达他们的意图(例如,找到所有具有这个结构域的人类激酶并获取它们的结构),但代理往往缺乏可靠的方式来访问包含所需信息的数据库。 在生物学和科学工作流中,即使是微小的错误也可能导致严重后果。例如,从错误的基因组构建版本中检索坐标,可能会使下游的生物学解释无效。类似地,无意中混合 RefSeq 和 GenBank 记录、将部分基因组视为完整基因组、混淆分段病毒的片段名称、或因元数据字段不一致而遗漏相关记录,都会带来问题。研究的美妙之处和挑战在于,细节往往至关重要。 就像驾车穿过意大利的山城一样,如果街道太窄、转弯太急,而且路线依赖于本地知识,那么无论汽车多强大都无济于事。如果我们希望代理帮助科学发现——从疫情应对到药物设计再到生物建模——我们需要构建它们能够像人类一样可靠导航的生物数据基础设施。 ### **卡帕西关于网页开发的演讲告诉我们,用 AI 代理做生物学意味着什么** 这种代理需求与人类构建工具之间的不匹配并非生物学独有。只要代理被插入到仅为人使用而设计的环境中,就会出现同样的摩擦。 几个月前,Andrej Karpathy 做了一个关于 AI 时代软件的演讲(https://www.youtube.com/watch?v=LCEmiRjPEtQ),并抱怨了一些听起来非常熟悉的事情。他用 vibe coding 做了一个小型的网络应用,但当他试图让它成为真正的产品时(身份验证、支付、部署),他在浏览器仪表盘中点来点去,浪费了一周时间。 正如他总结的那样:“代码是最简单的部分!大部分工作是在浏览器中点击东西。”文档一直告诉他“去这个 URL,点击这个下拉菜单”。他的结论是,没有人应该这样做。相反,我们必须为代理构建。 Karpathy 在软件代理世界中体验到了一些新东西,而生物学研究人员已经为这个问题挣扎了很久:试图让智能系统在围绕异构信息、隐式约定和人类在浏览器中点击的环境中进行操作所带来的痛苦。 ## **案例研究:病毒学中的点击税** 早在 AI 代理出现之前,计算生物学家和遗传学家就已经开始为传统的计算生物学生产工具,从而逐步解决这个问题。像 Biopython、BioPerl、BioJulia、Entrez Direct、BioMart、gget 以及许多其他工作流库,都是为了将生物数据从浏览器界面转移到研究人员可以直接计算的地方。 问题是,生物数据并不存在于一个具有单一接口的单一数据库中。它是一个杂乱的道路网络,每条道路都有自己独特的标识符、约定、格式、过滤逻辑和程序化访问程度。有些数据可以直接通过编程访问。其他的则不然。 特别是病毒学,是较为困难的领域之一。从疫苗和诊断检测设计到为蛋白质模型构建训练数据的研究工作流,通常从 NCBI Virus 检索序列开始——这是一个包含来自 GenBank、RefSeq 以及国际 INSDC 生态系统(包括 Pathoplexus)的病毒序列记录的集合,背后有一个可搜索的网页界面。作为为病毒爆发监测构建工具的研究人员,我们亲身了解在这些检索背后隐藏着多少专家知识。在病毒学实验室中,针对 NCBI Virus 的数据集策管指令通常被传阅为一系列复杂的过滤器列表,用户必须在网页界面中手动重现这些过滤器:这正是 Karpathy 抱怨的那种在浏览器中点击的工作流。 当前刚果民主共和国由本迪布焦病毒引起的埃博拉疫情,是一个鲜明的例子,说明简化的病毒数据访问可能会产生现实世界中生死攸关的后果。2026 年 5 月 14 日,刚果民主共和国金沙萨的国家生物医学研究所分析了 13 份血液样本,并于次日确认其中 8 份为本迪布焦病毒病²,此后宣布爆发埃博拉疫情。到 5 月 29 日,世界卫生组织报告刚果民主共和国已有超过 1000 例确诊和疑似病例,包括 200 多人死亡。研究人员还生成了第一批近乎完整的疫情基因组,有助于确定此次疫情是由一次新的溢出事件引起的。 这些基因组给公共卫生官员带来了三个紧迫的问题。首先,这种疫情病毒与之前看到的埃博拉病毒有多大差异?其次,现有的诊断检测是否仍能检测到它?第三,现有的治疗方法是否仍能保护患者?回答这些问题需要将新的基因组与通过 NCBI Virus 和 Pathoplexus(同步到 NCBI Virus)获得的现有埃博拉基因组进行比较。但这不是一件容易自动化的事情,分析的第一步涉及手动点击网页界面、手动重现复杂的过滤器,并希望得到的数据集是完整和正确的。 这个工作流难以自动化的原因在于,NCBI Virus 的许多过滤逻辑*仅*存在于这个网页界面中。这对人类来说很烦人,对代理来说则是灾难性的。如果一位研究人员想要所有 2025 年发布的、含有表面糖蛋白的 SARS-CoV-2 序列,一位经验丰富的病毒学家可能只需要在浏览器中点几下。但通过编程方式,可能需要一个几百行的脚本,将多个 API(REST、Datasets、E-utilities)粘合在一起,逐页检索结果、协调标识符、下载几百 GB 的数据,然后在本地过滤后丢弃大部分数据。 即使一个资源有 API,由于各种原因,它仍然可能难以被代理可靠地使用,例如:如果 API 没有暴露与网页界面相同的过滤语义,如果元数据字段文档不完整或标准化不一致,如果不同来源的标识符发生变化,或者“正确答案”依赖于专家人类知道但机器必须推断的约定。 ### **当代理无论如何尝试时会怎样** 为了更好地理解将代理连接到数据库的挑战,我们开发了一个测试,评估最先进的科学研究代理(Claude、Biomni、Edison Analysis、GPT)在利用现有基础设施从 NCBI Virus 检索病毒序列时的能力。我们的基准测试 VirBench 包含 120 个真实的病毒序列查询,涵盖 40 种病原体,并附有手动验证的真实数据计数。这些查询反映了病毒监测、诊断检测设计和蛋白质模型训练数据构建中出现的任务。例如,一个查询要求代理“从 NCBI 中检索分类 ID 为 3052462(扎伊尔埃博拉病毒)的病毒序列,满足以下条件:宿主生物体:人类,样本采集地理区域:非洲,采集日期在 2014 年 1 月 1 日之后(含),采集日期在 2014 年 6 月 20 日之前(含),最小序列长度:15200 个碱基,最大模糊字符数(N):1900,排除实验室传代样本。” 当代理被要求自行解决这些查询时,不同系统的性能差异很大,并且在更新的前沿模型中有了显著改善。然而,即使是最强的模型也无法一致地达到构建可靠数据集所需的准确性和可重复性。Claude Sonnet 4、Claude Opus 4.7、Biomni、Edison Analysis、GPT-5.2-pro 和 GPT-5.5³ 的平均准确率范围从 16.9% 到 91.3%。对于这些数据检索任务,标准实际上是 100%:在某些情况下,一条缺失或错误的记录可能决定诊断检测是否覆盖流行的多样性,或者推断疫情爆发的时间是早了几周还是晚了几周。此外,同样的模型在三次回答同一个问题时,经常产生截然不同的答案,这破坏了可靠科学工作流所需的准确性和可重复性。对于上面提到的埃博拉病毒查询示例,Sonnet 4⁴ 在一次运行中返回了 106 条序列(预期:266 条),第二次运行返回了 15 条,第三次运行返回了 5 条,尽管每次收到的提示完全相同。 诸如此类的不一致性会对下游分析产生影响。我们使用上面显示的查询来检索埃博拉病毒序列并构建系统发育树,这是重建疫情中病毒样本之间关系的标准分析。我们可以从系统发育树中获得的一个重要量值是最近共同祖先的估计时间。这是推断出的疫情根源日期,可能会改变关于病毒起源时间地点以及病毒传播时间的结论。在这种情况下,从手动策管的 NCBI Virus 序列集构建的树恢复了 2014 年 1 月的最近共同祖先时间,与先前报告(https://www.science.org/doi/epdf/10.1126/science.1259657)(95% 最高后验密度区间为 1 月 27 日至 3 月 14 日)一致,针对的是 2014 年埃博拉病毒疫情。相比之下,Sonnet 4 检索的三个序列集中的两个明显不完整,其中一棵树将推断的最近共同祖先时间推回到了 1922 年。剩余的数据集(运行 1)表面上看起来合理,但未能检索到几内亚的序列,并将估计的最近共同祖先时间推移到了 2014 年 4 月,改变了推断的疫情时间线。 显示扎伊尔埃博拉病毒系统发育树的图表 使用 Delphy(https://www.biorxiv.org/content/10.1101/2025.03.25.645253)推断的 2014 年西非疫情中扎伊尔埃博拉病毒的系统发育树。分支末端按采样国家着色;灰色表示缺失或错误检索的国家元数据。红色虚线标记每棵树估计的最近共同祖先时间。左上角的树是从通过 NCBI 网页界面手动检索的序列构建的,而运行 1-3 是由 Sonnet 4 代理使用网络搜索和代码执行工具组装的数据集生成的。分析和可视化由 Gage Moreno 完成。 NCBI Virus 检索尝试之间的变异性也会影响关于治疗方法的结论。我们检索了埃博拉病毒糖蛋白序列,以检查由 maftivimab 和 MBP134 结合的表位——这些是针对扎伊尔埃博拉病毒开发的抗体疗法,也是世界卫生组织在当前埃博拉疫情中推荐的优先治疗候选药物(https://www.who.int/news/item/28-05-2026-experts-convened-by-who-advise-on-candidate-treatments-and-vaccines-for-ebola-disease-caused-by-bundibugyo-virus)。我们询问在相关的扎伊尔埃博拉病毒序列中,这些抗体靶向的区域之前是否出现过突变。这种分析可以让研究人员了解随着病毒的进化,治疗方法是否还能继续保护患者。如果基础序列不完整或获取不正确,可能会影响他们的结论。在我们的示例中,Sonnet 4 在第一次尝试中检索到的序列接近通过手动 NCBI 查询获得的结果。在重复运行中,它错过了大部分突变残基。而在第三次运行中,它突出了另一组不同的残基,对这些目标区域的变异性产生了三种不同的印象。⁵ 现有的扎伊尔埃博拉病毒突变描述 现有的扎伊尔埃博拉病毒在其糖蛋白上的突变以红色显示,较深的阴影表示更高的突变频率。球体表示抗体疗法 maftivimab 和 MBP134 的已知足迹。最左边的可视化图是从手动策管的 NCBI 数据集构建的,而运行 1-3 是由 Sonnet 4 代理使用网络搜索和代码执行工具组装的数据集生成的。显示的 PDB 结构是 7TN9。分析和可视化由 Sarah Gurev 完成。 这两个例子都说明了科学中的一个更广泛模式:看起来像微小检索选择的细节可能会改变生物学结论。在这个案例中,病毒序列检索中模型性能的不一致以及故障模式的性质表明,大多数变异性归因于基础设施的缺陷。当代理未能检索到大型结果集时,它们会低估计数;当过滤器应用不当时,它们会高估计数。例如,与预期计数的最大偏差出现在拥有大量可用记录的病毒上,包括甲型流感、HIV-1 和 SARS-CoV-2,在这些情况下,检索途中停止以及不正确的下游过滤会严重扭曲最终数据集。它们还在元数据字段上遇到困难,这些字段的含义取决于上下文、约定或信息存储的位置。随着查询变得更加复杂——尤其是超过三到四个同时使用的过滤器时——性能会下降。 最终,代理通常理解我们要求它们执行的任务,但缺乏可靠执行的基础设施。

相似文章

为生物学领域的未来AI风险做准备

OpenAI Blog

OpenAI发布了一套管理高级AI模型在生物领域的两用风险的综合方案,通过专家协作、模型训练、检测系统和安全控制等策略,既能推动有益的科学发现,又能防止其被滥用于生物武器开发。