2026年4月29日科学评估Claude的生物信息学研究能力：基于BioMysteryBench

Anthropic Research 论文

anthropic claude bioinformatics benchmarking ai-research evaluation

摘要

Anthropic研究人员利用BioMysteryBench评估了Claude的生物信息学能力，发现当前模型的表现与人类专家相当，在某些复杂生物学问题上甚至优于人类专家。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:20

# 用 BioMysteryBench 评估 Claude 的生物信息学研究能力来源：https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench *在本篇文章中，发现团队的研究员 Brianna 分享了一项近期生物信息学基准测试的结果。* 几乎就在大语言模型能够进行对话的同时，人们开始询问它们与人类专家相比表现如何。模型能否通过律师资格考试？能否回答医学执照考试问题，或解决奥林匹克数学竞赛题？这类**基准测试**——即由人工审核、用于评估模型能力的自包含问题集——如今已成为 AI 开发者之间竞争的来源，被写入模型发布系统卡中，并在众多[在线](https://huggingface.co/spaces/lmarena-ai/arena-leaderboard)[排行榜](https://artificialanalysis.ai/)[平台](https://epoch.ai/benchmarks)上持续追踪。抛开竞争不谈，基准测试帮助我们解决一个重要问题：模型是否足够能力和可靠，能够支持甚至产出专业水平的工作。科学家们正在利用模型[编写分析流程代码、提出假设、从数据中得出结论](https://www.anthropic.com/news/accelerating-scientific-research)，长期目标是[加速创新与发现](https://darioamodei.com/essay/machines-of-loving-grace#1-biology-and-health)。但 AI 目前在科学领域究竟有多熟练，Claude 及其他模型的提升速度又如何？为回答这一问题，研究界已构建多个基准测试。[MMLU-Pro](https://arxiv.org/abs/2406.01574) 测试专家级知识和推理问题。[GPQA](https://arxiv.org/abs/2311.12022) 提出生物学、物理学和化学领域的研究生级别、"Google 无法直接解答"的问题。[LAB-Bench](https://arxiv.org/abs/2407.10362) 测试生物学特定的知识工作——阅读文献、解读图表、推理实验方案。尽管这些基准测试诞生于"聊天机器人"时代，但它们延续到了智能体和工具使用时代，并加入了更困难的科学推理评估，如 [FrontierScience](https://arxiv.org/abs/2601.21165) 和 [Humanity's Last Exam](https://arxiv.org/abs/2501.14249)，因为知识和推理仍然是衡量科学能力的关键指标。然而，许多现实世界的科学任务要求的远不止这些。它们需要阅读论文、查询数据库、运行实验、编程和分析。既然模型现在能够完成其中的许多工作，基准测试也随之演进来反映这些工作流程。[BLADE](https://blade-bench.github.io/) 为模型提供一个数据集和一个开放式任务，检查模型是否采取了与人类科学家相似的分析步骤。[BixBench](https://arxiv.org/abs/2503.00096) 使用生物学数据集，根据模型的结论是否与科学家一致来评分。在 [InSciGym](https://arxiv.org/abs/2507.02083) 中，模型被置于一个模拟生物实验室中，必须设计并运行自己的实验来揭示隐藏机制。这些基准测试让我们更接近于衡量科学能力，但它们尚未真正测试模型能否为定义研究的混乱、开放式问题设计创造性解决方案。这正是我们开发 BioMysteryBench 的原因——这是一个生物信息学基准测试，要求 Claude 分析真实世界数据集，同时应对评估复杂且嘈杂的生物系统所固有的挑战。我们发现，Claude 在生物学领域的科学能力随着代际更新迅速提升，当前模型表现与人类专家相当，而最新代际解决了许多人类专家组无法解决的问题，有时采用截然不同的策略。 ## 科学具有挑战性，评估科学亦然医生有执业医师考试，律师有律师资格考试，但成为科学家却没有标准化测试。同样的问题也出现在 AI 身上。尽管我们多么希望将这些模型用于科学，但尚未有智能体科学基准测试像 [SWE-bench](https://arxiv.org/abs/2310.06770) 之于软件工程那样成为行业标准。我们认为，这是因为科学研究，特别是生物学，具有几个使其尤其难以通过基准测试评估的特性。 ### 1. 在生物学中，存在许多不同的"正确"做法如果回答研究问题只有一种正确方式，博士生几个月就能拿到学位，企业研发部门将不复存在，科学展览海报也不需要"方法"部分。科学家如何解决问题取决于他们的技能和背景、可用资源以及研究品味。考虑一个看似直接却让代谢研究人员困惑多年的问题：为什么有些 2 型糖尿病患者对口服药物二甲双胍有反应，而另一些没有？要回答这个问题，你可以对反应者和非反应者进行全基因组关联研究（GWAS）寻找预测性遗传变异，或者对两组人的肠道微生物组进行测序，因为二甲双胍部分由肠道细菌代谢。两个方向都是合理的，而如何推进往往只取决于专业知识和资源。 [BixBench](https://arxiv.org/abs/2503.00096) 通过根据结论而非方法给模型评分来很好地处理这一问题。代价在于，这些结论是由一位科学家得出的，他在过程中做出了一系列可能塑造答案本身的主观选择。而这又有其自身的陷阱…… ### 2. 个体研究决策高度主观，在嘈杂数据集中可能导致截然不同的结论即使在选定的研究方向内，个体决策也可能高度主观：一位科学家可能认可某个决策，而另一位研究者可能有严重异议。问问任何一位从同行评审中收到过矛盾建议的沮丧作者就知道了！更困难的是，生物学数据集往往足够嘈杂，研究决策的微小差异就可能导致对数据得出完全不同的结论。在长达十年的二甲双胍反应预测因子搜寻中，研究设计的细微差异导致了关于二甲双胍反应的截然不同的结论。2011 年的一篇论文[报告了一个预测二甲双胍反应的变异](https://www.nature.com/articles/ng.735)，该变异在两个队列中复现，且有涉及 AMPK 激活的合理机制。一年后，糖尿病预防项目[在同一变异的前糖尿病患者中测试，结果一无所获](https://pmc.ncbi.nlm.nih.gov/articles/PMC3425006/)。最后，2012 年的一项荟萃分析汇集了五个队列，[再次认定 2011 年论文的效应是真实的，但比最初报告的要温和](https://pubmed.ncbi.nlm.nih.gov/22453232/)。 [SciGym](https://arxiv.org/abs/2507.02083) 处理这种歧义的巧妙方式是选择具有明确答案的任务。因为底层生物网络是模拟器，所以确实存在一个"地面真相"，而且噪声是受控的，而非从混乱的生物系统中继承而来。然而，模拟实验室中的表现与真实数据上的表现有多接近，仍不清楚。 ### 3. 存在许多人类尚无法回答的生物学问题模型可能产生最大影响的研究任务，正是那些人类单独尚无法解决的任务。而最终，这些正是我们希望能够在上面评估模型的任务。例如，二甲双胍的作用机制是什么？在其开发三十年后，该领域仍不确定其主要靶点。发现它，或找到更便宜、更稳定的二甲双胍类似物，将具有重大意义。机器学习长期以来一直在处理人类表现不佳的问题，如序列预测和蛋白质建模，依靠的是实验数据而非专家直觉。[ProteinGym](https://www.biorxiv.org/content/10.1101/2023.12.07.570727v1.full) 使用深度突变扫描实验作为地面真相来评分模型的突变效应预测，而长期运行的 [CASP](https://predictioncenter.org/) 竞赛根据未发表的晶体结构评估蛋白质折叠。两者都基于专家不会相信自己能复现的实验测量。然而，这些基准测试围绕狭窄的任务集构建，无法捕捉我们实际想要衡量的生物信息学工作的广度。 ## 用 BioMysteryBench 在可验证的生物学任务上基准测试模型因为没有基准测试能完美处理上述三个挑战，我们开发了 BioMysteryBench。BioMysteryBench 使用混乱的真实世界生物信息学数据，同时不让这种数据固有的复杂性和挑战腐蚀评估质量。 BioMysteryBench 包含来自生物信息学各领域的 99 个问题，由领域专家编写。专家们被要求收集数据集，并基于数据的可控、客观属性创建问题，而非基于不可验证的科学结论。通过从实验或临床发现中推导答案，可以开发问题而不要求它们必须为人类可解。尽管这些问题由已验证的地面真相创建，它们仍具有研究科学家想要回答的任务的相同特征。Claude 被要求回答每个问题，并被置于一个容器中，配备最少数量的标准生物信息学工具、通过 pip 和 conda 安装额外工具的能力，以及访问标准生物信息学数据库（如 NCBI 和 Ensembl）以下载参考基因组等额外资源的权限。 BioMysteryBench 具有四个独特属性，使其成为特别强大的科学基准测试，并应对上述挑战： 1. **它是方法无关的，允许研究自由和创造力。** Claude 被给予相对无限制的下载工具和访问数据库的权限，使其能够选择多样化的策略来解决问题。此外，轨迹根据其最终答案评分，而非模型到达答案的路径。这使 BioMysteryBench 摆脱了任何单个研究者的主观选择——模型因得出正确的生物学结论而获得奖励，无论它们选择了哪条分析路径。 2. **问题具有客观的、地面真相的答案。** 答案不是从科学家的结论（受上述挑战影响）中得出，而是从数据的可控属性或正交验证的元数据中得出。例如，"这个晶体结构属于什么生物体？"有客观答案，"根据 RNA-seq 数据，人类患者感染了哪种病毒物种？"是样本的一个元数据属性，该属性通过 PCR 检测验证。 3. **它允许"超人类"问题生成。** 通过从数据的可控属性中衍生问题，BioMysteryBench 不依赖于人类能够解决问题。特别是，BioMysteryBench 包含少数一些问题——尽管具有客观的、地面真相的解决方案——人类发现难以或无法独自解决。 ## 示例问题在开发此评估时，问题主要源自原始或最少处理的 DNA 或 RNA 测序数据，因为这是许多生物学处理流程的起点（WGS、scRNA-seq、甲基化、ChIP-seq、宏基因组学、Hi-C），还包括几个来自蛋白质组学和代谢组学的问题。开发者提出的问题包括： - *这个单细胞 RNA-seq 数据集的人类细胞类型来自哪个器官？* - *根据 RNA-seq 数据，与对照样本相比，实验样本中哪个基因被敲除了？* - *从 WGS 序列来看，哪个样本是样本 X 的母亲，哪个样本是父亲？* - *哪些 bigWig 文件来自 ChIP 样本，哪些来自 input 对照？* - *给定来自未知细胞类型的 H3K27ac ChIP-seq 峰，鉴定细胞类型。* 为最小化本质上不可解的问题，同时仍为可能 AI 可解的问题留出空间，我们要求每个问题作者提交一个验证笔记本，证明信号确实存在于数据中（即使从头发现可能很困难）。可以将其视为高中代数原理：验证答案比推导答案容易得多。 ## 人类基线 ### 人类可解对于每个问题，我们要求最多五名领域专家从头回答。一旦至少一名人类正确回答了问题，我们就认为它是人类可解的。BioMysteryBench 包含 76 个这样的任务。 > 人类可解问题准确率图表 > > 图 1：76 个人类可解问题每个问题 5 次试验的平均准确率。误差条通过问题内的自助采样计算。有时 Claude 模仿人类策略。也许是因为人类已经找到了接近最优的方法，或因为该方法在预训练数据中有充分表示。其他时候，Claude 采取了完全不同的路径，说明解决这些问题没有严格正确的方式，模型可能拥有与我们不同的真正偏好。上面的例子展示了一个特别有趣的策略：虽然我们的人类专家使用算法或数据库来识别和注释数据集属性，但 Claude 凭直觉识别某些模式或序列。诚然，这种巧妙的抽象并非 AI 独有——例如，第一个真核启动子就是当科学家注意到基因上游序列中"TATA"反复出现时发现的。这种**直觉**一直难以构建到传统的生物学机器学习模型中，但 LLM 可能能够以前所未有的规模发现此类模式。 ### 人类困难这让我们留下了一组专家组无法解决的问题。这可能意味着（1）问题设计不当或有缺陷，（2）问题本质上不可解（例如，信号不在数据中），或（3）问题理论上可解但人类缺乏解决所需的知识。在与基准测试者和额外专家进行质量控制后，我们移除了 4 个因（1）导致的问题，剩下 23 个人类困难问题。 > 人类困难问题表现图表 > > 图 2：人类无法解决的问题集上的准确率，每个问题跨 5 个回合平均。误差条通过问题内的自助采样计算。有趣的是，Claude Sonnet 4.6 及更强大的模型能够解决相当比例的人类困难问题，Claude Mythos Preview 最高达到 30% 的解决率。那么 Claude 到底做了什么人类没有做的事？ ## Claude 的策略分析 Opus 4.6 的转录，我们确定了 Claude 相对于人类的两个主要策略：一个是相当 AI 特有的：Claude 庞大的底层知识库包含来自数十万篇论文的结构生物学、分子图谱和荟萃分析信息。另一个策略是我们人类科学家可以学习的：当 Claude 对答案不确定时，它会叠加多种方法并结合不同证据线来得出结论。 ### 博学多识在一些人类困难任务中，Opus 庞大的底层知识库帮助它解决了问题。需要人类专家运行

2026年4月29日科学评估Claude的生物信息学研究能力：基于BioMysteryBench

相似文章

2026年4月30日社会影响人们如何向Claude寻求个人指导

METR评估了Claude Mythos早期版本

2026年4月28日公告 Claude for Creative Work

2026年4月22日经济研究 81,000人告诉我们的人工智能经济学

2026年4月9日政策：实践中的可信智能体

提交意见反馈