GENEB：为何基因组模型难以相互比较

arXiv cs.CL 2026/06/04 04:00 论文

genomics benchmarking foundation-models evaluation bioinformatics machine-learning

摘要

GENEB 是一个大规模诊断基准，在统一的探测协议下，跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性，以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题，类似于 MTEB 在 NLP 领域所做的工作。

arXiv:2606.04525v1 发布类型：新论文摘要：由于基准测试碎片化、评估协议不兼容以及特定任务的结果报告方式各异，基因组基础模型的进展难以得到客观评估。这导致不同模型之间关于优越性或泛化能力的声明往往缺乏可比性。我们提出 GENEB，一个大规模诊断基准，在统一的基于探测（probing）的协议下（包括少样本场景），对 40 个基因组基础模型在涵盖 13 个功能类别的 100 项任务上的冻结表示进行评估。GENEB 支持对模型规模、架构、tokenization 方式和预训练数据进行受控比较，同时明确揭示任务级别的性能权衡。我们的分析表明，综合排行榜存在不稳定性：模型排名因任务类别不同而差异显著，模型规模的提升带来的收益有限且不一致，架构选择与预训练数据的匹配程度往往比参数量更为重要。这些结果凸显了当前评估实践的局限性，并将 GENEB 定位为基因组机器学习领域进行规范化比较和面向类别的模型选择的参考框架。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:15

# GENEB：为何基因组模型难以比较

来源：https://arxiv.org/html/2606.04525

###### 摘要

由于基准测试分散、评估协议不兼容以及针对特定任务的报告方式，基因组基础模型的进展难以评估。因此，模型之间关于优越性或通用性的声明往往缺乏直接可比性。我们提出了 GENEB——一个大规模诊断基准，在统一的探测（probing）协议下（包括少样本机制）对 40 个基因组基础模型进行评估，涵盖 13 个功能类别的 100 项任务。GENEB 能够对模型规模、架构、分词方式和预训练数据进行受控比较，同时明确揭示任务层面的权衡关系。我们的分析表明，综合排行榜并不稳定：不同任务类别下模型排名差异显著，规模扩大带来的收益有限且不一致，而架构与预训练的对齐程度往往比参数量更为重要。这些结果揭示了当前评估实践的局限性，并将 GENEB 定位为基因组机器学习领域中进行有原则比较和面向类别的模型选择的参考框架。

机器学习，ICML

## 1 引言

过去十年间，基因组机器学习领域迅速扩展，形成了一个由模型、架构和训练范式组成的庞大而异构的生态系统。然而，这一扩展并未伴随着相应的方法论基础设施来支撑模型间的比较。图 1（https://arxiv.org/html/2606.04525#S1.F1）展示了该领域的现状：模型在不同的基准上进行评估，采用不兼容的协议进行比较，并且频繁地在狭窄的设定下被报告为最先进水平，致使不同模型之间的关系以及所报告的改进是否代表真正的进步都难以判断。

参见图注  
**图 1：基因组基础模型的碎片化比较格局。** 每个节点代表一篇已发表的模型论文；有向边表示该论文中明确用作基线或对比的模型。这张稀疏、不连通的图反映了基因组机器学习领域缺乏统一跨模型评估的现状。

这种碎片化使得即便是基本问题也难以回答。当前，对 DNA-GPT（Zhang 等，2023 (https://arxiv.org/html/2606.04525#bib.bib13)）、GenomeOcean（Zhou 等，2025 (https://arxiv.org/html/2606.04525#bib.bib7)）和 Evo（Nguyen 等，2024 (https://arxiv.org/html/2606.04525#bib.bib15)）等广受关注模型之间进行有原则的比较尚不可行：每个模型都在不同的任务集、预处理流程和评估协议下进行评估。同一模型有时在某个背景下被描述为重大突破，在另一个背景下却表现欠佳，这并非证据相互矛盾，而是缺乏共同评估框架所致。

随着基因组基础模型规模和影响力的快速增长，这一问题愈发突出。随着模型规模越来越大、表达能力越来越强，关于优越性和通用性的声明也越来越大胆，然而用于裁定这些声明的方法论基础却未能跟上。其结果是，关于模型能力的断言与通过可重现的跨模型评估所能可靠建立的结论之间，差距日益扩大。

我们提出 **GENEB**，这是一个在统一探测协议下对 40 个基因组基础模型进行评估的大规模基准，涵盖 13 个功能类别的 100 项任务。GENEB 旨在支持受控的系统性比较，并揭示被碎片化评估实践所掩盖的性能权衡；从精神上而言，它在自然语言处理中扮演着类似 MTEB（Muennighoff 等，2023 (https://arxiv.org/html/2606.04525#bib.bib3)）的角色，提供的是一个统一的评估框架，而非单任务排行榜。通过使结果在模型和任务间直接可比，GENEB 为评估基因组机器学习的进展建立了一个共同参考点。

##### 利益冲突声明。

作者声明不存在财务利益冲突。所评估的 40 个模型均非作者或其资助方开发。

## 2 相关工作

基因组基础模型的快速发展产生了一个涵盖多样架构、分词方案和预训练策略的异构格局。

##### 架构。

早期基因组模型主要采用以掩码语言建模训练的 Transformer 编码器（Zhou 等，2024a (https://arxiv.org/html/2606.04525#bib.bib2)；Dalla-Torre 等，2023 (https://arxiv.org/html/2606.04525#bib.bib18)；Fishman 等，2023 (https://arxiv.org/html/2606.04525#bib.bib16)；Sanabria 等，2024 (https://arxiv.org/html/2606.04525#bib.bib6)）。近期研究探索了仅解码器和生成式架构，用于统一序列建模和长上下文处理（Zhang 等，2023 (https://arxiv.org/html/2606.04525#bib.bib13)；Nguyen 等，2024 (https://arxiv.org/html/2606.04525#bib.bib15)；Wu 等，2025 (https://arxiv.org/html/2606.04525#bib.bib5)；Zhou 等，2025 (https://arxiv.org/html/2606.04525#bib.bib7)；Li 等，2025b (https://arxiv.org/html/2606.04525#bib.bib10)）。为降低注意力复杂度，研究者提出了基于长卷积和状态空间模型的替代设计，以及结合多种范式的混合架构（Nguyen 等，2023 (https://arxiv.org/html/2606.04525#bib.bib17)；Schiff 等，2024 (https://arxiv.org/html/2606.04525#bib.bib12)；Liu 等，2025 (https://arxiv.org/html/2606.04525#bib.bib14)；Duan 等，2025 (https://arxiv.org/html/2606.04525#bib.bib8)；Vishniakov 等，2025b (https://arxiv.org/html/2606.04525#bib.bib25)）。

##### 分词与预训练。

分词策略从单核苷酸和 $k$-mer 表示到学习得到的 BPE 词表各不相同，各自在分辨率与效率之间有不同的权衡（Zhou 等，2024a (https://arxiv.org/html/2606.04525#bib.bib2)，2025 (https://arxiv.org/html/2606.04525#bib.bib7)）。预训练数据同样从仅限人类和物种特定的语料库，到宽泛的多物种及领域聚焦数据集不等，此前研究表明，多样性和专业化的潜在收益因任务而异（Dalla-Torre 等，2023 (https://arxiv.org/html/2606.04525#bib.bib18)；Wu 等，2025 (https://arxiv.org/html/2606.04525#bib.bib5)；Avsec 等，2021 (https://arxiv.org/html/2606.04525#bib.bib1)；Zhai 等，2025 (https://arxiv.org/html/2606.04525#bib.bib22)）。

##### 基准测试。

目前已有多个基准对基因组基础模型进行评估，包括 Nucleotide Transformer 任务（Dalla-Torre 等，2023 (https://arxiv.org/html/2606.04525#bib.bib18)）、GUE/GUE+（Zhou 等，2024a (https://arxiv.org/html/2606.04525#bib.bib2)）、Genomic Benchmarks（Gresova 等，2022 (https://arxiv.org/html/2606.04525#bib.bib45)）、BEND（Marin 等，2024 (https://arxiv.org/html/2606.04525#bib.bib21)）以及 DNALongBench（Cheng 等，2025 (https://arxiv.org/html/2606.04525#bib.bib24)）。虽然这些资源涵盖了重要的调控、表观遗传和跨物种任务，但它们在任务设计和评估协议上存在差异，通常只评估有限的模型子集，使得跨论文比较十分困难。

##### 比较性基准研究。

近期研究探索了对基因组基础模型的更广泛比较，但通常只评估少量具有代表性的架构。例如，Wang 等（2025b (https://arxiv.org/html/2606.04525#bib.bib49)）专注于约十个模型家族，且以以人为中心的任务为主。OmniGenBench（Wang 等，2025a (https://arxiv.org/html/2606.04525#bib.bib48)）等基于平台的工作提供了动态排行榜，但目前纳入的基线数量有限且仍在演变，许多近期 DNA 专用模型尚未被评估。

##### GENEB 的定位。

GENEB 通过提供一个大规模、受控的基准来弥补上述不足，覆盖 40 个基因组基础模型在 13 个功能类别的 100 项 DNA 分类任务上的评估。通过在统一探测协议下对所有模型进行完整任务套件的评估，GENEB 支持跨架构、分词方式和预训练数据的匹配比较，并生成完整的性能矩阵，揭示任务相关的权衡关系。我们计划将 GENEB 作为公开基准发布，评估结果托管于 Hugging Face，作为类似 NLP 领域 MTEB（Muennighoff 等，2023 (https://arxiv.org/html/2606.04525#bib.bib3)）的社区参考标准。

##### 扩展相关工作。

关于先前基准、比较研究和架构趋势的详细讨论见附录 A（https://arxiv.org/html/2606.04525#A1）。

## 3 方法论

GENEB 采用基于嵌入的**探测**协议对基因组基础模型（见附录 C (https://arxiv.org/html/2606.04525#A3)，表 4 (https://arxiv.org/html/2606.04525#A3.T4)）进行评估：使用冻结的序列表示配合轻量级分类器进行评估，从而隔离表示质量并支持跨架构和训练机制的受控比较。该基准涵盖多个功能类别的多样化基因组预测任务；完整任务定义见附录 B（https://arxiv.org/html/2606.04525#A2）。

**探测设置。** 对于每项任务，冻结嵌入作为逻辑回归（max\_iter=1000）的特征，并在 1-shot、10-shot 和全数据机制下进行评估（图 5 (https://arxiv.org/html/2606.04525#S4.F5)）。结果在五个固定随机种子 $\{13, 17, 42, 123, 997\}$ 上取平均。非线性探测下模型排名的稳定性已在附录 E.1（https://arxiv.org/html/2606.04525#A5.SS1）中进行了实证验证，正则化强度选择对少样本结论的敏感性分析见附录 E.2（https://arxiv.org/html/2606.04525#A5.SS2）。

**指标与数据。** 我们报告马修斯相关系数（MCC），该指标对类别不平衡具有鲁棒性，是基因组评估的标准指标。超过 $10^5$ 条序列的任务进行子采样。使用 GenomeOcean 嵌入的实证分析表明，MCC 在该规模之后趋于稳定，因此将 $10^5$ 作为实际上限。

## 4 100 项基因组任务的综合性能分析

我们对 40 个 DNA 基础模型在 13 个功能类别的 100 项基因组预测任务上进行了系统分析。我们的目标是在统一评估协议下刻画模型规模（图 2 (https://arxiv.org/html/2606.04525#S4.F2)）、架构、分词方式和预训练数据之间的交互关系，并提取对模型选择具有实际意义的规律。除非另有说明，所有统计数据均指在 GENEB 基准内聚合的 MCC。

参见图注  
**图 2：模型效率的 Pareto 前沿：宏平均 MCC 与参数量的关系。** 每个点代表 40 个基因组基础模型之一，x 轴为对数尺度下的参数量，y 轴为全数据宏平均 MCC。标记大小和颜色均编码宏平均 MCC。虚线标记了性能–规模权衡最优的 Pareto 前沿。$\log(\text{params})$ 与宏平均 MCC 的 Spearman 相关系数为 $\rho = 0.565$（$p < 0.001$）；排除仅针对原核生物的异常值 Evo-1-131k 后，相关系数提升至 $\rho = 0.686$（$p < 0.001$）。虽然规模是综合性能的重要预测因子，但多个大型模型位于前沿之下，表明架构和预训练选择可以抵消显著的规模差距（见第 4 节 (https://arxiv.org/html/2606.04525#S4)，表 1 (https://arxiv.org/html/2606.04525#S4.T1)）。

##### 规模与性能的脱节。

模型规模与综合性能之间存在统计显著且实质性的关联（$\rho = 0.565$，$p < 0.001$；图 2 (https://arxiv.org/html/2606.04525#S4.F2)），排除仅针对原核生物的异常值 Evo-1-131k 后（见下文领域不匹配段落），相关系数进一步提升至 $\rho = 0.686$（$p < 0.001$）。即便存在如此强的综合趋势，模型选择也不能简单归结为参数量的比较：在 36 个领域内模型（排除仅针对原核生物、微生物和植物特定预训练的模型）中，我们发现有 31 个案例中，规模至少小 $5\times$ 的模型在综合 MCC 上超越了更大的模型，该计数在微平均和宏平均下完全相同。一个典型例子是 MutBERT（86M，Transformer 编码器），尽管规模相差 $11.6$ 倍，其宏平均 MCC 仍比 eccDNAMamba（1B，Mamba-SSM）高出 $+0.110$，说明非规模设计选择可以在 GENEB 中抵消显著的规模差距。各类别的规模相关性见表 1 (https://arxiv.org/html/2606.04525#S4.T1)。我们还验证了这些综合统计数据对平均方案选择的鲁棒性：宏平均 MCC（对 13 个类别等权重）与此处报告的微平均排名的 Spearman 相关系数为 $\rho = 0.988$（附录 E.4 (https://arxiv.org/html/2606.04525#A5.SS4)）。

**表 1：各类别规模相关性。** $\log_{10}(\text{参数量})$ 与各功能类别内宏平均 MCC 之间的 Spearman 秩相关系数 $\rho$（$n = 40$ 个模型）。$\rho$ 接近 $+1$ 表示较大模型系统性地优于较小模型；$\rho$ 接近 $0$ 表示规模与性能之间不存在单调关系。$p$ 值检验观测到的 $\rho$ 是否显著异于零；加粗值在 $p < 0.05$ 下显著。各行按 $\rho$ 降序排列。在 13 个类别中，11 个类别的规模效应显著，$\rho$ 范围从 $0.347$（DNA 甲基化）到 $0.579$（组蛋白修饰）。

##### 受控条件下的架构比较。

为隔离架构效应，我们比较预训练语料库（多物种）和分词方式（BPE）相匹配的模型，并重点关注其余配置差异最小化的模型对。在这些受控条件下，Transformer 模型相较于该受控设定中可用的状态空间模型展现出显著优势。具体而言，Omni-DNA-1B（Transformer 解码器）的宏平均 MCC 比 eccDNAMamba（Mamba-SSM）高出 $+0.149$（0.568 对 0.419），GenomeOcean-500M 相较于同一 Mamba 基线也有可比的 $+0.131$ 差距（0.550 对 0.419）。在 Transformer 内部，我们在一个匹配比较中观察到编码器优势：GENA-LM-Large-T2T（Transformer 编码器）在多物种/BPE 匹配条件下比 OmniNA-220M（Transformer 解码器）高出 $+0.127$ MCC（0.552 对 0.425）。这些差距在微平均和宏平均下均成立（附录 E.4 (https://arxiv.org/html/2606.04525#A5.SS4)）。相比之下，编码器与解码器的比较则取决于具体任务和设置。

参见图注  
**图 3：各任务组的模型性能。** 热图显示 40 个基因组基础模型在每个任务组内的全数据平均 MCC，按总体全数据宏平均 MCC 排序。单元格值报告类别级别的平均 MCC，颜色从红色/橙色（较低分数）到绿色（较高分数）渐变。结果揭示了显著的任务级异质性：启动子、编码/非编码和物种分类等类别任务相对较易，而 DNA 甲基化、lncRNA、病毒/噬菌体和调控任务依然具有挑战性。这种类别特异性结构表明，综合模型排名可能掩盖下游行为的重要差异。

参见图注  
**图 4：雷达图**

GENEB：为何基因组模型难以相互比较

相似文章

立场：基因组模型研究必须超越对可解释性方法的偶发性评估

生物医学命名实体识别与实体链接基准测试究竟衡量什么？一个语料库中心的诊断框架

面向基础模型综合评估的细粒度基准生成

精准调试基准：你的模型在调试还是在重写？

有基准却无度量——生成式人工智能应以现实效用为评估标准

提交意见反馈