ShallowBench:评估面向浅口袋靶标的生成式药物设计模型

arXiv cs.LG 论文

摘要

介绍了ShallowBench,一个精心整理的包含5,780个浅口袋蛋白质靶标的基准测试,用于评估针对如KRAS和MYC等具有挑战性的低口袋性靶标的生成式药物设计模型。

arXiv:2606.06717v1 公告类型:新 摘要:尽管生成式AI模型在基于结构的药物设计中展现了显著的成功,但它们主要依赖深部结合口袋,难以针对具有挑战性的低口袋性靶标(如历史上“不可成药”的肿瘤靶标KRAS和MYC)采样有效配体。为了填补这一空白,我们推出了ShallowBench,一个严格整理的自CrossDocked2020提取的5,780个浅口袋靶标的基准测试。通过计算Alpha Shape“盖子”体积与底层蛋白质原子体素体积之间的差异,我们成功分离出低凹度靶标,同时确保足够的结合表面积。对各种最先进生成模型的评估显示,在这些低凹度界面上预测的结合亲和力较弱。因此,ShallowBench为生成生物学模型提供了一个严格的基准,并强调了能够应对这些具有挑战性靶标的新架构创新或损失函数的必要性。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:17

# ShallowBench:在浅口袋靶点上基准测试生成式药物设计模型
来源:https://arxiv.org/html/2606.06717
Saket Reddy Shiwei Liu 伊利诺伊大学厄巴纳-香槟分校 \{saketr3, shiweil2\}@illinois\.edu

###### 摘要

尽管生成式 AI 模型在基于结构的药物设计中展现出显著成功,但它们主要依赖深层结合口袋,难以针对具有挑战性的低口袋性靶点(如历史上“不可成药”的肿瘤靶点 KRAS 和 MYC)进行有效配体采样。为弥补这一空白,我们引入了 ShallowBench,这是一个从 CrossDocked2020 中严格筛选出的基准数据集,包含 5,780 个浅口袋靶点。通过计算 Alpha Shape“盖子”体积与底层蛋白质原子体素体积之间的差值,我们成功分离出低凹陷度且具有足够结合表面积的靶点。评估多种最先进的生成模型后发现,这些模型在这些低凹陷度界面上预测的结合亲和力较弱。因此,ShallowBench 为生成式生物学模型提供了一个严格的基准,并凸显了开发能够应对这些挑战性靶点的新型架构或损失函数的必要性。

## 1 引言

诸如 \(SE\(3\)\) 等变扩散模型和流匹配神经网络等生成模型在基于结构的药物设计(SBDD)中展现出卓越能力(Schneuing 等,2024),成功生成了化学有效且高亲和力的分子。然而,这些模型的成功依赖于存在深度、结构明确的结合口袋。深层空腔提供了清晰的生成约束和广阔的表面积,以实现稳健的范德华相互作用,有效锚定生成的坐标(Corso 等,2023)。

因此,当前 SBDD 范式中的一个重要弱点仍未得到充分解决:即针对浅层或内在无序蛋白质表面的配体生成。许多肿瘤学中最受追捧的治疗靶点,如 KRAS 和 Myc,缺乏传统的高凹陷度结合口袋(Kessler 等,2019;Llombart 和 Mansour,2022)。试图结合这些平坦界面的配体面临更高的体溶剂竞争,并且缺乏结构明确的外壳。此外,训练和评估中的持续偏差加剧了这一问题。标准基准数据集(如 CrossDocked2020(Francoeur 等,2020)和 PDBbind(Liu 等,2015))以深口袋靶点为主。因此,最先进的 SBDD 模型学习了有偏的分布(Gavali,2024)。

由于该领域缺乏专门的、大规模的浅靶点基准,这些模型在平坦表面上的性能退化尚不明确,从而阻碍了能够处理非传统结合位点的架构开发。为填补这一空白,我们引入了 ShallowBench,这是一个专门筛选的基准,旨在严格评估生成式药物设计模型在具有挑战性的低凹陷度蛋白质靶点上的表现。

我们的贡献如下:

- **数据整理与基准集:** 我们开发了一种两步体积法,利用 Alpha Shape“盖子”计算,从 CrossDocked2020 数据集中有效分离出 5,780 个浅口袋靶点,确保低凹陷度同时保持足够的结合表面积。
- **微调数据集:** 我们使用 30% 序列同一性聚类严格划分了训练集(4,995 个靶点)和测试集(785 个靶点),以防止数据泄露,为生成模型的微调提供了宝贵资源。我们已在 Hugging Face 上发布了完整数据集、训练集、测试集和控制数据集。
- **模型评估与基准发现:** 我们在 ShallowBench 上评估了最先进的生成式 SBDD 模型,结果发现所有评估架构的预测结合亲和力系统性下降。我们还揭示了在平坦表面生成配体时,其他指标(如 TargetDiff 的化学有效性)存在退化。这些性能差距表明,需要开发能够应对低凹陷度靶点的新型架构创新。

## 2 背景与相关工作

### 2.1 基于结构的药物设计

随着生成式 AI 的出现,特别是等变扩散模型的引入,基于结构的药物设计(SBDD)取得了巨大进展。这些生成模型在持续生成化学有效且高亲和力配体方面展现出显著成功(Schneuing 等,2024)。然而,当前最先进的方法严重依赖深口袋来生成有效的配体坐标。深层空腔本质上提供了必要的表面积以实现稳健的范德华相互作用,并作为 3D 坐标生成的明确定位点。此外,由于这些模型主要在标准数据集(以高凹陷度位点为主)上进行评估和训练,它们学习了有偏的分布(Gavali,2024)。

### 2.2 低口袋性与浅口袋靶点

虽然深口袋对于计算建模是理想的,但许多备受追捧的治疗靶点具有浅层或内在无序的结合界面。例如,KRAS 是最常突变的癌基因之一,由于缺乏传统的结合空腔,历史上被视为“不可成药”(Kessler 等,2019)。类似地,Myc 在许多人类癌症中发生改变,缺乏明确疏水口袋,而是依靠广阔的平坦表面进行蛋白质-蛋白质相互作用(Llombart 和 Mansour,2022)。

在平坦表面上生成配体面临三个主要挑战:

1. 溶剂暴露:位于平坦表面的配体面临更高的体溶剂竞争。例如,氢键和静电相互作用更容易被周围水分子破坏(Korolev 等,2002)。
2. 稀疏接触面积:平坦界面提供的 3D 约束极少。缺乏深口袋的几何边界,生成模型可能产生“漂浮”离开蛋白质的坐标(Dong 等,2026)。
3. 训练数据偏差:用于训练模型的标准 SBDD 数据集偏向于高凹陷度位点(Gavali,2024)。

### 2.3 现有数据集

对 SBDD 模型的评估目前依赖于标准数据集(如 CrossDocked2020 和 PDBbind),这些数据以深口袋为主,因此可能掩盖生成模型在浅表面上的弱点(Gavali,2024)。现有最接近的浅口袋靶点数据整理工作涉及隐式口袋数据集。例如,PocketMiner 引入了 39 个高度精选和验证的隐式口袋(Meller 等,2023)。类似地,CryptoBench 提供了更广泛的 1,107 个隐式结构(Škrhák 等,2025)。然而,这些数据集主要关注在分子动力学(MD)模拟中打开的口袋,而不是评估针对静态、天然浅层或平坦表面的配体生成。因此,针对静态浅口袋的专用基准仍然是该领域的关键空白。

## 3 数据集整理

图 1:ShallowBench 中浅口袋靶点的数据整理流程。

### 3.1 ShallowBench 整理

为了在现实的浅靶点上评估生成模型,我们整理了专门的基准数据集 ShallowBench,该数据集源自全面的 CrossDocked2020 数据集(Francoeur 等,2020)。整理过程旨在严格分离缺乏深空腔但仍具有足够表面积进行潜在配体结合的蛋白质界面。

对于每个蛋白质-配体复合物,我们首先通过计算天然配体的质心(COM)来定义局部结合环境。我们提取了距离该 COM 半径 \(8.0\text{ Å}\) 内的所有蛋白质原子。任何含有少于 4 个原子的界面将被丢弃以确保有效性。

为了量化靶点口袋的凹陷度,我们开发了两步体积法。首先,我们建立了基线蛋白质原子体积 \(V_{atom}\),方法是将提取的界面坐标映射到体素大小为 \(1.0\text{ Å}\) 的 3D 体素网格上,计算蛋白质原子严格占据的总空间体积。其次,为了测量结合表面上方的空置、可靶向空间,我们在界面坐标上生成一个 Alpha Shape 网格(Bellock,2021),使用 \(\alpha=0.15\)(经过多次测试后经验性地选择作为最佳体积计算参数)。该网格充当模拟的“盖子”包围口袋,提供边界体积 \(V_{lid}\)。然后,靶点表面的凹陷度定义为这两个体积的差值:

\[
\text{Concavity} = V_{lid} - V_{atom}
\]

图 2:深口袋体积与浅口袋体积的比较。

该计算的可视化如图 2 所示。为了选择浅表面,我们施加了严格的上限:\(\text{Concavity} < 500.0\) ų。为了确保选定的浅界面仍具有足够的物理空间进行结合,我们使用较大的 \(2.0\text{ Å}\) 体素网格计算表面积,并应用下界阈值:\(\text{Surface Area} > 50.0\) Ų。这个严格的流水线从最初的 166,500 个总靶点中筛选出 5,780 个浅口袋靶点。整个整理流水线的可视化如图 1 所示。

### 3.2 ShallowBench 分析

表 1:凹陷度与表面积统计

图 3:ShallowBench 中靶点凹陷度与表面积的分布。

表 1 详细列出了 ShallowBench 中靶点凹陷度与表面积的汇总统计,图 3 展示了分布的可视化。

对于凹陷度,数据集的平均值为 361.07,中位数为 385.15,范围从最小值 -0.54 到最大值阈值 500.00。凹陷度分布呈左偏态,反映了数据整理过程,该过程视觉上切掉了较大 CrossDocked 数据集的左尾,成功分离出了低凹陷度靶点。

对于表面积,数据集的平均值为 272.68,中位数为 280.00,范围从最小值 56.00 到最大值 584.00。表面积分布呈钟形曲线。

凹陷度上限 500.00 是在该表面积分布的背景下经验性选择的。500 的阈值确保了低口袋性,同时仍产生图中所示的健康、近似正态的表面积分布。这种健康的分布表明,凹陷度约束成功捕获了一类独特且物理一致的蛋白质界面,尽管缺乏深口袋,但仍保留了足够的空间区域用于潜在的配体结合。

### 3.3 训练/测试序列划分

为了为希望在其模型上微调浅口袋靶点的研究人员提供资源,我们还对 5,780 个整理的靶点进行了训练集和测试集划分。

为了防止同源蛋白质之间的数据泄露,我们基于序列同源性划分靶点。我们利用蛋白质数据库(RCSB)(Liu 等,2015)的 30% 序列同一性聚类来分组所有对应的 PDB ID。通过将整个序列聚类均匀分配到各自的集合中,我们保证了测试集中没有任何靶点与训练集中任何蛋白质的序列相似度超过 30%,从而确保了测试集对从事微调的研究人员来说是严格的。这一过程产生了 4,995 个训练靶点和 785 个测试靶点。

### 3.4 控制数据集

图 4:控制数据集的数据整理流程。

为了建立评估生成模型在浅口袋靶点上性能差异的可靠基线,我们整理了一个结构多样化的控制数据集。我们从标准的 CrossDocked2020 数据集中提取了恰好 5,780 个靶点,确保控制集与 ShallowBench 基准的大小相匹配。

为了最大化结构多样性并防止少数蛋白质家族被过度代表,我们实施了轮询分层抽样技术。使用第 3.3 节中建立的 RCSB 30% 序列同一性聚类,我们首先将每个可用的 CrossDocked2020 复合物映射到其对应的序列聚类。然后,我们初始化一个种子随机化,打乱整体聚类及其内部的构成靶点。通过不断遍历序列聚类,并以持续轮询的方式从每个聚类中采样一个靶点,我们成功收集了 5,780 个唯一的靶点索引。这种分层保证了控制子集的高度异质性,准确反映了 CrossDocked2020 的广泛分布。

在预处理方面,从 CrossDocked LMDB 环境中解析出选定的靶点。模拟 ShallowBench 使用的几何约束,我们通过计算天然配体的 COM 并提取距离该 COM 半径 \(8.0\text{ Å}\) 内的所有底层蛋白质原子来建立局部结合环境。为了保持结构有效性和下游兼容性,我们丢弃了任何含有少于 4 个原子的界面。最终的控制数据集提供了一个严格采样、结构多样化的基线,其格式与 ShallowBench 相同,从而允许对常规口袋与浅口袋性能进行稳健的一对一比较评估。流水线的图示如图 4 所示。

## 4 评估

### 4.1 指标

为了评估当前模型应对浅层拓扑的能力,我们采用了一套稳健的评估指标。我们在整个 5,780 个基准数据集上评估了这些指标;未进行微调。

- **化学有效性:** 我们测量了生成分子中通过基本化合价、芳香性和消毒检查(使用 RDKit 的 `Chem.SanitizeMol`(RDKit 开发团队,2026))的比例。
- **平均 QED:** 我们使用定量估计药物相似性(QED),范围为 0 到 1,来测量生成器是否保持现实的药学特性(Bickerton 等,2012)。
- **Vina 亲和力:** 我们使用了通过 AutoDock Vina 计算的预测结合能(kcal/mol)。

相似文章

SPADE:通过从稀疏数据中学习加速药物发现

arXiv cs.LG

本文介绍了 SPADE,这是一种用于药物发现的新颖算法,能够仅通过约 40 次测试便从稀疏数据中高效识别出高质量配体。与深度学习和贝叶斯优化方法相比,SPADE 展现了更优的样本效率和速度。

介绍 BenchBench(5分钟阅读)

TLDR AI

介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。

面向基础模型综合评估的细粒度基准生成

arXiv cs.LG

一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。

GENEB:为何基因组模型难以相互比较

arXiv cs.CL

GENEB 是一个大规模诊断基准,在统一的探测协议下,跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性,以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题,类似于 MTEB 在 NLP 领域所做的工作。