目标感知的强盗分配用于化学空间中的可扩展代理优化

arXiv cs.LG 2026/06/26 04:00 论文

摘要

介绍了 BoBa，一种基于强盗引导的代理优化框架，通过自适应地在动作空间的分区上分配计算，消除了全库推理，从而实现对超大型化学库的高效虚拟筛选。

arXiv:2606.26657v1 公告类型：新摘要：在昂贵评估下从大规模离散空间中识别高效用候选者是科学界反复出现的挑战，其中基于结构的药物发现是一个突出例子。虽然基于代理的优化可以通过减少昂贵评估的次数来提高样本效率，但现代分子库已包含数十亿到数万亿的化合物，使得全库代理推断本身成为主要的计算瓶颈。我们引入了BOBa，一种基于强盗引导的代理优化框架，通过自适应地在动作空间的分区上分配计算，消除了全库推断。通过将分区视为多臂老虎机中的臂，BOBa将推断和评估集中在经验上有前景的分区上，同时保持原则性的探索。在真实世界的按需合成库上的实验表明，不确定性乐观的强盗算法结合有意义的动作空间分区，对于有效分配推断和评估至关重要。我们的研究结果揭示了筛选性能与代理推断成本之间可调节的权衡，这支持了对当前库的实际优化，并为超大型库虚拟筛选建立了可行的路径。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:21

# 面向目标的Bandit分配用于化学空间中的可扩展代理优化 来源: https://arxiv.org/html/2606.26657 Yuvan Chali, Abhilash Jayaraj, Constance Kraay, Joana Reis, Felix Strieth-Kalthoff, Haribabu Arthanari ###### 摘要 在昂贵评估下从大规模离散空间中识别高效用候选对象是科学领域反复出现的挑战，其中基于结构的药物发现是一个突出例子。虽然基于代理的优化可以通过减少昂贵评估次数来提高样本效率，但现代分子库已达到数十亿到数万亿个化合物，使得全库代理推理本身成为主要计算瓶颈。我们引入了BoBa，一种Bandit引导的代理优化框架，通过自适应地在动作空间的分区之间分配计算来避免全库推理。通过将分区视为多臂Bandit中的臂，BoBa将推理和评估集中在经验上有前景的分区上，同时保持有原则的探索。在真实按需合成库上的实验表明，不确定性乐观的Bandit策略，结合有意义的动作空间分区，对于有效分配推理和评估至关重要。我们的发现揭示了筛选性能与代理推理成本之间可调的权衡，这支持在当前库上的实际优化，并为超大型库虚拟筛选建立了可行的路径。 机器学习，ICML ## 1 引言 药物发现的最早期阶段受限于一个大规模且资源密集的搜索问题：寻找能够强效且选择性地与生物靶点结合，并能推进为治疗先导化合物的分子。这个命中识别阶段仍然是药物发现流程中的主要瓶颈，无论是在成本还是时间方面。计算方法提供了一种快速且廉价的途径来探索多样化的候选集，而算法、计算和超大型化合物库的最新进展重新燃起了对其影响的乐观态度（Lyu等人，2019 (https://arxiv.org/html/2606.26657#bib.bib1)；Gorgulla等人，2020 (https://arxiv.org/html/2606.26657#bib.bib32)；Grygorenko等人，2020 (https://arxiv.org/html/2606.26657#bib.bib45)；Sadybekov等人，2021 (https://arxiv.org/html/2606.26657#bib.bib44)；Eisenhuth等人，2025 (https://arxiv.org/html/2606.26657#bib.bib43)）。重要的是，在药物发现流程的每个后续阶段，成本会急剧增加（Morgan等人，2011 (https://arxiv.org/html/2606.26657#bib.bib21)），这使得早期计算决策的质量异常关键。 药物发现中的计算候选选择本质上是一个离散的、顺序决策问题。虽然可能分子的空间是天文数字般的巨大，估计范围为10^60–10^200（Restrepo, 2022 (https://arxiv.org/html/2606.26657#bib.bib18)），但只有一小部分可以从商业可用的构建块中以合理成本实际合成（Papidocha等人，2026 (https://arxiv.org/html/2606.26657#bib.bib19)）。因此，计算机药物发现操作在大型但有限的合成可及化合物库（Shoichet, 2004 (https://arxiv.org/html/2606.26657#bib.bib20)）上，将命中识别视为在预算约束下对大型但离散动作空间的搜索。 主动学习（Settles, 2012 (https://arxiv.org/html/2606.26657#bib.bib38)）和贝叶斯优化（Garnett等人，2012 (https://arxiv.org/html/2606.26657#bib.bib39), 2015 (https://arxiv.org/html/2606.26657#bib.bib40)；Jiang等人，2018 (https://arxiv.org/html/2606.26657#bib.bib41)；Garnett, 2023 (https://arxiv.org/html/2606.26657#bib.bib35)）已成为导航这些设置的核心工具。虽然历史上使用分子对接（一种基于物理的模拟，估算分子与生物靶点之间的结合亲和力）对库进行全面评估，但随着库大小增长到数十亿分子，这种策略变得过于昂贵。同时，近期研究强调了筛选更大且结构更多样化的库对于提高真实命中率和效价的重要性（Liu等人，2025 (https://arxiv.org/html/2606.26657#bib.bib48)；Lyu等人，2023 (https://arxiv.org/html/2606.26657#bib.bib36)；Gloriam, 2019 (https://arxiv.org/html/2606.26657#bib.bib37)）。这一需求催生了基于代理的优化技术，仅评估一小部分候选物，并使用学习模型指导后续选择（Reker and Schneider, 2015 (https://arxiv.org/html/2606.26657#bib.bib22)；Pyzer-Knapp, 2018 (https://arxiv.org/html/2606.26657#bib.bib33)；Reker, 2019 (https://arxiv.org/html/2606.26657#bib.bib23)；Graff等人，2021 (https://arxiv.org/html/2606.26657#bib.bib2)）。 近年来，我们又见证了一次模式转变。按需合成化学的进展已将可访问库从数十亿扩展到数万亿分子（Enamine Ltd., (https://arxiv.org/html/2606.26657#bib.bib24)；Hoffmann and Gastreich, 2019 (https://arxiv.org/html/2606.26657#bib.bib25)；Warr等人，2022 (https://arxiv.org/html/2606.26657#bib.bib26)；Gorgulla等人，2023 (https://arxiv.org/html/2606.26657#bib.bib4)），改变了计算成本结构。在这些规模下，成本不再仅仅由昂贵的基于物理的评估主导。相反，对候选集本身的推理本身就成为一个瓶颈：即使是代理模型对全库进行一次前向传播也可能变得异常昂贵。这个瓶颈违反了标准主动学习流程的一个核心假设：代理推理相对于评估成本是微不足道的（Frazier, 2018 (https://arxiv.org/html/2606.26657#bib.bib34)；Garnett, 2023 (https://arxiv.org/html/2606.26657#bib.bib35)）。 这种成本层级的转变将分子发现重新定义为在评估和推理双重约束下的大规模离散决策问题。为了应对这一挑战，我们引入了BoBa（贝叶斯优化与Bandits），它通过结合动作空间的结构感知分区、跨分区的Bandit分配以及分区内的代理引导优化，明确考虑了推理成本。通过解耦全局和局部搜索，BoBa能够在不对动作空间进行穷举推理的情况下实现高效候选选择。在真实药物发现数据上的系统基准测试表明：(a) 明确考虑不确定性的Bandit策略（而不是依赖随机探索）以及(b) 化学上合理的动作空间分区至关重要。我们的实证结果展示了优化性能与推理成本之间可调的权衡，这使得完全推理BO的优化效率能够在推理成本大幅降低的情况下得以保持。扩展到大约10^8个分子的实验表明，随着库大小的增长，这种权衡变得越来越有利，并且一个简单的理论分析确定了分区数是控制推理节省与Bandit遗憾之间平衡的关键参数。这些结果奠定了扩展到包含数十亿到数万亿候选物的虚拟库的基础。 ## 2 预备知识 本节介绍本文考虑的优化设置，并回顾贝叶斯优化和多臂Bandit的相关概念。 ### 2.1 虚拟筛选作为大规模离散优化 我们考虑虚拟筛选中的计算候选选择问题。设X = {x_1, ..., x_N}表示一个有限的候选分子库，其中N可能从数百万到数万亿。每个分子x∈X与一个未知的感兴趣属性f(x)∈R相关联，例如对接分数、结合亲和力或实验活性，这些属性只能通过昂贵的评估（例如对接或湿实验室实验）来获取。虚拟筛选的目标是使用尽可能少的评估高效识别f(x)值高的分子，将虚拟筛选视为一个离散优化问题， x^* = arg max_{x∈X} f(x)， 在有限的评估预算T ≪ |X|下。除了评估成本，我们还明确考虑对X进行代理推理的计算成本。在现代按需合成设置中，|X|足够大，以至于使用学习模型对所有候选物进行全面评分本身也是不可行的。因此，我们区分：(i)**评估成本**，在查询f(x)时产生，以及(ii)**推理成本**，在计算X子集的代理预测时产生。这一区别是本文解决的问题设置的核心。 ### 2.2 代理建模与贝叶斯优化 贝叶斯优化通过维护f的概率代理模型来解决黑箱优化（Garnett, 2023 (https://arxiv.org/html/2606.26657#bib.bib35)）。给定数据集D_t = {(x_i, y_i)}_{i=1}^t，其中y_i = f(x_i) + ε_i，代理模型定义了后验预测分布p(f(x)|D_t)，用于构建获取函数a_t(x)，以平衡探索和利用。在离散设置中，BO通常通过选择x_{t+1} = arg max_{x∈X} a_t(x)进行。除非|X|很大，否则这一步骤通常通过在X上全面评估a_t(x)来近似。然而，对于超大型库，这一假设不再成立，因为对X进行代理推理已成为计算瓶颈。这一计算障碍促使算法策略避免全库代理评估，同时保留贝叶斯决策的优势。 ### 2.3 多臂Bandits 多臂Bandits（Robbins, 1952 (https://arxiv.org/html/2606.26657#bib.bib42)；Lattimore and Szepesvári, 2020 (https://arxiv.org/html/2606.26657#bib.bib11)）形式化了在有限资源必须在竞争选项之间分配时的不确定性下的顺序决策。在每个轮次t，代理选择一个臂k∈{1,...,K}，并观察从与该臂相关的未知分布中抽取的随机奖励。Bandit算法自适应地权衡探索和利用，以识别高奖励臂或最大化累积奖励。在本文中，每个臂对应化学空间的一个子空间，观察到的奖励总结了该区域最近评估的效用。 对于以下Bandit策略的讨论，设μ̂_k为臂k的经验平均奖励，n_k为臂k被选择的次数。 ##### ε-贪婪 以概率1-ε选择经验上最好的臂，并以概率ε通过均匀随机选择臂进行探索。虽然简单且计算成本低，但ε-贪婪没有明确考虑不确定性，这可能在臂数较多时导致低效分配。 ##### Softmax采样 以与经验平均奖励成比例的概率随机选择臂， P(k_t = k) ∝ exp(τ μ̂_{k, t-1})， 其中τ>0是逆温度参数，控制分布集中在高奖励臂上的强度。Softmax提供了探索和利用之间的平滑权衡，在均匀采样和贪婪选择之间插值。 ##### 上置信界（UCB1） 基于经验表现和不确定性乐观地选择臂（Auer等人，2002 (https://arxiv.org/html/2606.26657#bib.bib10)）。在轮次t，UCB1选择最大化以下值的臂： μ̂_{k, t-1} + c √(2 log t / n_{k, t-1})， 其中c>0控制探索-利用权衡。正式定义和实现细节见附录A.3 (https://arxiv.org/html/2606.26657#A1.SS3)。 ### 2.4 化学空间的分区方法 设X = {x_1, ..., x_N}表示一个虚拟分子库。当对这些虚拟库进行分区时，我们考虑将X划分为K个不相交的子集{X_1, ..., X_K}。通常，这种分区是在由表示φ(x)∈R^d（可以是学习得到的或工程设计的）诱导的分子特征空间中进行的。 #### 2.4.1 分子特征 ##### 拓扑特征 将分子结构编码为图衍生模式，捕捉原子连通性和子结构（例如路径、环和局部邻域）。它们通常提供稀疏、离散的表示（？指纹？），针对相似性搜索进行了优化。 ##### 物理化学描述符 是工程设计的低维特征，总结从图结构推导的全局分子属性（例如分子量、氢键供体计数、极性或溶解度）。它们提供了可解释、物理上有意义的信号，但可能遗漏细粒度的结构细节。本文使用的完整描述符列表见附录B (https://arxiv.org/html/2606.26657#A2)。 ##### 基础模型嵌入 是由深度神经网络在大规模分子语料库上使用自监督目标预训练产生的密集学习表示。预训练网络可以包括图神经网络和基于SMILES（一种基于字符串的分子图结构编码）的语言模型。本文中，我们关注来自T5Chem模型（Christofidellis等人，2023 (https://arxiv.org/html/2606.26657#bib.bib8)）的嵌入，该模型是T5架构（Raffel等人，2020 (https://arxiv.org/html/2606.26657#bib.bib9)）的化学特定变体，在大型分子结构和文本描述语料库上预训练。先前工作表明，与传统的指纹相比，这些嵌入捕捉了丰富的化学多样性，并提高了分子属性预测和主动学习的性能（Kristiadi等人，2024 (https://arxiv.org/html/2606.26657#bib.bib3)）。 #### 2.4.2 分区技术 ##### 基于特征的分层 使用沿少量手工特征的固定区间确定性分配分子，产生特征空间中的轴对齐区域。这种方法先前已被用于将超大型化学库划分为化学上一致的区域进行虚拟筛选（Gorgulla等人，2023 (https://arxiv.org/html/2606.26657#bib.bib4)）。 ##### k-means聚类 通过将点分配到特征空间中最近的k个学习质心（通过最小化簇内方差优化）来分组数据。 ∑_{k=1}^K ∑_{x∈X_k} ||φ(x) - μ_k||_2^2， 作为基线，我们通过随机排列X并将其划分为K个等大小的箱来构建无结构子空间。这种随机化去除了所有化学结构，同时保持簇大小，隔离了有意义分区的影响。

目标感知的强盗分配用于化学空间中的可扩展代理优化

相似文章

进化搜索中的计算分配：从深度-广度到多臂老虎机

范围感知贝叶斯优化在目标属性窗口内发现多样化设计

通过目标感知源选择重新思考分子OOD泛化

ALSO：面向社交智能体的对抗性在线策略优化

利用超组相对策略优化推动生物分子效用-多样性前沿

提交意见反馈