2026年4月29日 科学 评估Claude的生物信息学研究能力:基于BioMysteryBench

Anthropic Research 论文

摘要

Anthropic研究人员利用BioMysteryBench评估了Claude的生物信息学能力,发现当前模型的表现与人类专家相当,在某些复杂生物学问题上甚至优于人类专家。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:20

# 用 BioMysteryBench 评估 Claude 的生物信息学研究能力 来源:https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench *在本篇文章中,发现团队的研究员 Brianna 分享了一项近期生物信息学基准测试的结果。* 几乎就在大语言模型能够进行对话的同时,人们开始询问它们与人类专家相比表现如何。模型能否通过律师资格考试?能否回答医学执照考试问题,或解决奥林匹克数学竞赛题?这类**基准测试**——即由人工审核、用于评估模型能力的自包含问题集——如今已成为 AI 开发者之间竞争的来源,被写入模型发布系统卡中,并在众多[在线](https://huggingface.co/spaces/lmarena-ai/arena-leaderboard)[排行榜](https://artificialanalysis.ai/)[平台](https://epoch.ai/benchmarks)上持续追踪。 抛开竞争不谈,基准测试帮助我们解决一个重要问题:模型是否足够能力和可靠,能够支持甚至产出专业水平的工作。科学家们正在利用模型[编写分析流程代码、提出假设、从数据中得出结论](https://www.anthropic.com/news/accelerating-scientific-research),长期目标是[加速创新与发现](https://darioamodei.com/essay/machines-of-loving-grace#1-biology-and-health)。但 AI 目前在科学领域究竟有多熟练,Claude 及其他模型的提升速度又如何? 为回答这一问题,研究界已构建多个基准测试。[MMLU-Pro](https://arxiv.org/abs/2406.01574) 测试专家级知识和推理问题。[GPQA](https://arxiv.org/abs/2311.12022) 提出生物学、物理学和化学领域的研究生级别、"Google 无法直接解答"的问题。[LAB-Bench](https://arxiv.org/abs/2407.10362) 测试生物学特定的知识工作——阅读文献、解读图表、推理实验方案。尽管这些基准测试诞生于"聊天机器人"时代,但它们延续到了智能体和工具使用时代,并加入了更困难的科学推理评估,如 [FrontierScience](https://arxiv.org/abs/2601.21165) 和 [Humanity's Last Exam](https://arxiv.org/abs/2501.14249),因为知识和推理仍然是衡量科学能力的关键指标。 然而,许多现实世界的科学任务要求的远不止这些。它们需要阅读论文、查询数据库、运行实验、编程和分析。既然模型现在能够完成其中的许多工作,基准测试也随之演进来反映这些工作流程。[BLADE](https://blade-bench.github.io/) 为模型提供一个数据集和一个开放式任务,检查模型是否采取了与人类科学家相似的分析步骤。[BixBench](https://arxiv.org/abs/2503.00096) 使用生物学数据集,根据模型的结论是否与科学家一致来评分。在 [InSciGym](https://arxiv.org/abs/2507.02083) 中,模型被置于一个模拟生物实验室中,必须设计并运行自己的实验来揭示隐藏机制。 这些基准测试让我们更接近于衡量科学能力,但它们尚未真正测试模型能否为定义研究的混乱、开放式问题设计创造性解决方案。这正是我们开发 BioMysteryBench 的原因——这是一个生物信息学基准测试,要求 Claude 分析真实世界数据集,同时应对评估复杂且嘈杂的生物系统所固有的挑战。我们发现,Claude 在生物学领域的科学能力随着代际更新迅速提升,当前模型表现与人类专家相当,而最新代际解决了许多人类专家组无法解决的问题,有时采用截然不同的策略。 ## 科学具有挑战性,评估科学亦然 医生有执业医师考试,律师有律师资格考试,但成为科学家却没有标准化测试。同样的问题也出现在 AI 身上。尽管我们多么希望将这些模型用于科学,但尚未有智能体科学基准测试像 [SWE-bench](https://arxiv.org/abs/2310.06770) 之于软件工程那样成为行业标准。我们认为,这是因为科学研究,特别是生物学,具有几个使其尤其难以通过基准测试评估的特性。 ### 1. 在生物学中,存在许多不同的"正确"做法 如果回答研究问题只有一种正确方式,博士生几个月就能拿到学位,企业研发部门将不复存在,科学展览海报也不需要"方法"部分。科学家如何解决问题取决于他们的技能和背景、可用资源以及研究品味。 考虑一个看似直接却让代谢研究人员困惑多年的问题:为什么有些 2 型糖尿病患者对口服药物二甲双胍有反应,而另一些没有?要回答这个问题,你可以对反应者和非反应者进行全基因组关联研究(GWAS)寻找预测性遗传变异,或者对两组人的肠道微生物组进行测序,因为二甲双胍部分由肠道细菌代谢。两个方向都是合理的,而如何推进往往只取决于专业知识和资源。 [BixBench](https://arxiv.org/abs/2503.00096) 通过根据结论而非方法给模型评分来很好地处理这一问题。代价在于,这些结论是由一位科学家得出的,他在过程中做出了一系列可能塑造答案本身的主观选择。而这又有其自身的陷阱…… ### 2. 个体研究决策高度主观,在嘈杂数据集中可能导致截然不同的结论 即使在选定的研究方向内,个体决策也可能高度主观:一位科学家可能认可某个决策,而另一位研究者可能有严重异议。问问任何一位从同行评审中收到过矛盾建议的沮丧作者就知道了!更困难的是,生物学数据集往往足够嘈杂,研究决策的微小差异就可能导致对数据得出完全不同的结论。 在长达十年的二甲双胍反应预测因子搜寻中,研究设计的细微差异导致了关于二甲双胍反应的截然不同的结论。2011 年的一篇论文[报告了一个预测二甲双胍反应的变异](https://www.nature.com/articles/ng.735),该变异在两个队列中复现,且有涉及 AMPK 激活的合理机制。一年后,糖尿病预防项目[在同一变异的前糖尿病患者中测试,结果一无所获](https://pmc.ncbi.nlm.nih.gov/articles/PMC3425006/)。最后,2012 年的一项荟萃分析汇集了五个队列,[再次认定 2011 年论文的效应是真实的,但比最初报告的要温和](https://pubmed.ncbi.nlm.nih.gov/22453232/)。 [SciGym](https://arxiv.org/abs/2507.02083) 处理这种歧义的巧妙方式是选择具有明确答案的任务。因为底层生物网络是模拟器,所以确实存在一个"地面真相",而且噪声是受控的,而非从混乱的生物系统中继承而来。然而,模拟实验室中的表现与真实数据上的表现有多接近,仍不清楚。 ### 3. 存在许多人类尚无法回答的生物学问题 模型可能产生最大影响的研究任务,正是那些人类单独尚无法解决的任务。而最终,这些正是我们希望能够在上面评估模型的任务。例如,二甲双胍的作用机制是什么?在其开发三十年后,该领域仍不确定其主要靶点。发现它,或找到更便宜、更稳定的二甲双胍类似物,将具有重大意义。 机器学习长期以来一直在处理人类表现不佳的问题,如序列预测和蛋白质建模,依靠的是实验数据而非专家直觉。[ProteinGym](https://www.biorxiv.org/content/10.1101/2023.12.07.570727v1.full) 使用深度突变扫描实验作为地面真相来评分模型的突变效应预测,而长期运行的 [CASP](https://predictioncenter.org/) 竞赛根据未发表的晶体结构评估蛋白质折叠。两者都基于专家不会相信自己能复现的实验测量。然而,这些基准测试围绕狭窄的任务集构建,无法捕捉我们实际想要衡量的生物信息学工作的广度。 ## 用 BioMysteryBench 在可验证的生物学任务上基准测试模型 因为没有基准测试能完美处理上述三个挑战,我们开发了 BioMysteryBench。BioMysteryBench 使用混乱的真实世界生物信息学数据,同时不让这种数据固有的复杂性和挑战腐蚀评估质量。 BioMysteryBench 包含来自生物信息学各领域的 99 个问题,由领域专家编写。专家们被要求收集数据集,并基于数据的可控、客观属性创建问题,而非基于不可验证的科学结论。通过从实验或临床发现中推导答案,可以开发问题而不要求它们必须为人类可解。 尽管这些问题由已验证的地面真相创建,它们仍具有研究科学家想要回答的任务的相同特征。Claude 被要求回答每个问题,并被置于一个容器中,配备最少数量的标准生物信息学工具、通过 pip 和 conda 安装额外工具的能力,以及访问标准生物信息学数据库(如 NCBI 和 Ensembl)以下载参考基因组等额外资源的权限。 BioMysteryBench 具有四个独特属性,使其成为特别强大的科学基准测试,并应对上述挑战: 1. **它是方法无关的,允许研究自由和创造力。** Claude 被给予相对无限制的下载工具和访问数据库的权限,使其能够选择多样化的策略来解决问题。此外,轨迹根据其最终答案评分,而非模型到达答案的路径。这使 BioMysteryBench 摆脱了任何单个研究者的主观选择——模型因得出正确的生物学结论而获得奖励,无论它们选择了哪条分析路径。 2. **问题具有客观的、地面真相的答案。** 答案不是从科学家的结论(受上述挑战影响)中得出,而是从数据的可控属性或正交验证的元数据中得出。例如,"这个晶体结构属于什么生物体?"有客观答案,"根据 RNA-seq 数据,人类患者感染了哪种病毒物种?"是样本的一个元数据属性,该属性通过 PCR 检测验证。 3. **它允许"超人类"问题生成。** 通过从数据的可控属性中衍生问题,BioMysteryBench 不依赖于人类能够解决问题。特别是,BioMysteryBench 包含少数一些问题——尽管具有客观的、地面真相的解决方案——人类发现难以或无法独自解决。 ## 示例问题 在开发此评估时,问题主要源自原始或最少处理的 DNA 或 RNA 测序数据,因为这是许多生物学处理流程的起点(WGS、scRNA-seq、甲基化、ChIP-seq、宏基因组学、Hi-C),还包括几个来自蛋白质组学和代谢组学的问题。 开发者提出的问题包括: - *这个单细胞 RNA-seq 数据集的人类细胞类型来自哪个器官?* - *根据 RNA-seq 数据,与对照样本相比,实验样本中哪个基因被敲除了?* - *从 WGS 序列来看,哪个样本是样本 X 的母亲,哪个样本是父亲?* - *哪些 bigWig 文件来自 ChIP 样本,哪些来自 input 对照?* - *给定来自未知细胞类型的 H3K27ac ChIP-seq 峰,鉴定细胞类型。* 为最小化本质上不可解的问题,同时仍为可能 AI 可解的问题留出空间,我们要求每个问题作者提交一个验证笔记本,证明信号确实存在于数据中(即使从头发现可能很困难)。可以将其视为高中代数原理:验证答案比推导答案容易得多。 ## 人类基线 ### 人类可解 对于每个问题,我们要求最多五名领域专家从头回答。一旦至少一名人类正确回答了问题,我们就认为它是人类可解的。BioMysteryBench 包含 76 个这样的任务。 > 人类可解问题准确率图表 > > 图 1:76 个人类可解问题每个问题 5 次试验的平均准确率。误差条通过问题内的自助采样计算。 有时 Claude 模仿人类策略。也许是因为人类已经找到了接近最优的方法,或因为该方法在预训练数据中有充分表示。 其他时候,Claude 采取了完全不同的路径,说明解决这些问题没有严格正确的方式,模型可能拥有与我们不同的真正偏好。 上面的例子展示了一个特别有趣的策略:虽然我们的人类专家使用算法或数据库来识别和注释数据集属性,但 Claude 凭直觉识别某些模式或序列。诚然,这种巧妙的抽象并非 AI 独有——例如,第一个真核启动子就是当科学家注意到基因上游序列中"TATA"反复出现时发现的。这种**直觉**一直难以构建到传统的生物学机器学习模型中,但 LLM 可能能够以前所未有的规模发现此类模式。 ### 人类困难 这让我们留下了一组专家组无法解决的问题。这可能意味着(1)问题设计不当或有缺陷,(2)问题本质上不可解(例如,信号不在数据中),或(3)问题理论上可解但人类缺乏解决所需的知识。在与基准测试者和额外专家进行质量控制后,我们移除了 4 个因(1)导致的问题,剩下 23 个人类困难问题。 > 人类困难问题表现图表 > > 图 2:人类无法解决的问题集上的准确率,每个问题跨 5 个回合平均。误差条通过问题内的自助采样计算。 有趣的是,Claude Sonnet 4.6 及更强大的模型能够解决相当比例的人类困难问题,Claude Mythos Preview 最高达到 30% 的解决率。那么 Claude 到底做了什么人类没有做的事? ## Claude 的策略 分析 Opus 4.6 的转录,我们确定了 Claude 相对于人类的两个主要策略:一个是相当 AI 特有的:Claude 庞大的底层知识库包含来自数十万篇论文的结构生物学、分子图谱和荟萃分析信息。另一个策略是我们人类科学家可以学习的:当 Claude 对答案不确定时,它会叠加多种方法并结合不同证据线来得出结论。 ### 博学多识 在一些人类困难任务中,Opus 庞大的底层知识库帮助它解决了问题。需要人类专家运行

相似文章

2026年4月30日 社会影响人们如何向Claude寻求个人指导

Anthropic Research

Anthropic发布了关于用户如何向Claude寻求个人指导的研究,重点介绍了不同领域中美言奉承率(sycophancy rates)的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考,以更好地保护用户福祉。

METR评估了Claude Mythos早期版本

Reddit r/singularity

METR于2026年3月使用其时间跨度任务套件对Claude Mythos Preview早期版本进行了评估,估计其50%-时间跨度至少为16小时,表明该模型处于当前基准测试可测量的上限水平,同时也指出在更长的时间范围内存在稳定性问题。

2026年4月28日 公告 Claude for Creative Work

Anthropic News

Anthropic 发布了一系列 Claude 连接器,可与 Adobe、Blender 和 Ableton 等主要创意软件集成,为设计、视频和音乐制作提供 AI 辅助工作流。

2026年4月22日 经济研究 81,000人告诉我们的人工智能经济学

Anthropic Research

Anthropic发布了一项针对81,000名Claude用户的调查结果,显示高AI暴露度的劳动者既报告了显著的生产力提升,也增加了对失业风险的担忧。该研究将这些主观的经济恐惧与特定职业中AI使用情况的量化数据进行了关联分析。

2026年4月9日政策:实践中的可信智能体

Anthropic Research

Anthropic 发布了一篇研究文章,详细阐述如何在实践中构建可信的 AI 智能体,概述了核心安全原则以及 Claude Code 和 Claude Cowork 等产品实现。