Project Ariadne: 提示条件驱动的合成规划路线生成

arXiv cs.LG 2026/06/24 04:00 论文

摘要

Ariadne 是一个仅解码器的逆向合成规划路线生成器，它将目标、可选约束和路线构建为提示-补全序列，与传统基于搜索的规划器相比，以更少的计算量实现了更优的性能。

arXiv:2606.24184v1 公告类型：新摘要：逆向合成规划旨在通过多步路线将目标分子连接到市售起始原料。经典规划器通过在搜索过程中迭代应用单步反应模型来构建此类路线；受约束的变体通常需要专门的算法或架构更改。直接路线生成将逆向合成重新定义为序列生成，但现有的直接生成方法仍然针对不同的规划规格训练单独的模型。我们引入了 Ariadne，一个仅解码器的路线生成器，它将目标、可选约束和路线表示在一个提示-补全序列中。在 RetroCast/PaRoutes mkt-cnv-160 基准系列上，一个 24 层检查点遵循路线深度和所需起始材料提示：添加相应的提示字段使 Solv-0 对于深度约束提高了 13.7 个百分点，对于所需叶子约束提高了 31.2 个百分点。Ariadne 还优于双向搜索规划器 DESP，在所需叶子 Top-10 和 Solv-0 上，仅需 24 GPU 分钟，而 DESP 需要 6.8 GPU 小时。在标准重建上，Ariadne 与 DMS Explorer XL 相当，推断时间约为后者的一半。在额外的仅目标基准测试中，Ariadne 最明显的优势在于路线保留重建，而 AiZynthFinder MCTS 在若干 Solv-0 比较中仍然更强。这些结果将序列生成从专业逆向合成模型扩展到提示条件结构路线生成。我们发布代码库和训练脚本以支持进一步的工作，但不引入 Tier-1--3 路线检查器；在模型对实验化学家有用之前，这些检查器仍然是主要瓶颈。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:50

# 项目阿里阿德涅：基于提示条件的合成规划路线生成  
来源：https://arxiv.org/html/2606.24184  
Victor Batista  
耶鲁大学  
[email protected]  

###### 摘要  

逆合成规划旨在通过多步路线将目标分子与市售起始原料连接起来。经典规划器通过在搜索过程中迭代应用单步反应模型来构建此类路线；受约束的变体通常需要专门的算法或架构更改。直接路线生成将逆合成重新定义为序列生成，但现有的直接生成方法仍然针对不同的规划规范训练单独的模型。我们引入了阿里阿德涅（Ariadne），一个仅解码器的路线生成器，它将目标、可选约束和路线表示在一个提示-完成序列中。在 RetroCast/PaRoutes mkt-cnv-160 基准族上，一个 24 层检查点遵循路线深度和所需起始原料提示：添加相应的提示字段使 Solv-0 在深度约束下提高 13.7 个百分点，在所需叶约束下提高 31.2 个百分点。在所需叶 Top-10 和 Solv-0 上，阿里阿德涅也比双向搜索规划器 DESP 有所改进，仅用 24 GPU 分钟对比 6.8 GPU 小时。在标准重建上，阿里阿德涅与 DMS Explorer XL 相当，推理时间约为其一半。在额外的仅目标基准上，阿里阿德涅最明显的增益在于路线保留重建，而 AiZynthFinder MCTS 在多个 Solv-0 比较中仍然更强。这些结果将序列生成从专业逆合成模型扩展到基于提示条件的结构路线生成。我们发布了代码库和训练脚本 (https://github.com/ischemist/project-ariadne) 以支持进一步工作，但不引入 Tier-1-3 路线检查器；在实验化学家能够使用此类模型之前，这些检查器仍然是主要瓶颈。

## 1 引言  

机器学习有望显著加速（如果不是彻底改变的话）通常需要数十年和数十亿美元的药物发现过程。在先导化合物发现和优化阶段，一个持续存在的瓶颈是一个简单的问题：这个分子容易制造吗？[7 (https://arxiv.org/html/2606.24184#bib.bib69)] 尽管已经投入大量精力通过训练合成可及性预测器来直接回答这个问题 [11 (https://arxiv.org/html/2606.24184#bib.bib19),8 (https://arxiv.org/html/2606.24184#bib.bib20),48 (https://arxiv.org/html/2606.24184#bib.bib21),53 (https://arxiv.org/html/2606.24184#bib.bib22)]，但一个新兴的共识是，唯一真正可靠的合成可能性度量是显式构建一个合成计划，将所需目标与一组市售构建块连接起来 [34 (https://arxiv.org/html/2606.24184#bib.bib65),33 (https://arxiv.org/html/2606.24184#bib.bib18)]。这个合成计划可以朝任一方向构建：通过从构建块开始的合成感知前向设计 [23 (https://arxiv.org/html/2606.24184#bib.bib68),20 (https://arxiv.org/html/2606.24184#bib.bib66),41 (https://arxiv.org/html/2606.24184#bib.bib67),30 (https://arxiv.org/html/2606.24184#bib.bib70)]，或通过对目标分子应用逆合成分析 [9 (https://arxiv.org/html/2606.24184#bib.bib23)]。多步逆合成规划的流行方法由两个组件构建：一个单步反应预测器，它迭代地应用于目标分子和产生的前驱体候选，以及一个搜索算法，优先考虑结果搜索空间中最有希望的分支 [40 (https://arxiv.org/html/2606.24184#bib.bib24),22 (https://arxiv.org/html/2606.24184#bib.bib28),38 (https://arxiv.org/html/2606.24184#bib.bib53),56 (https://arxiv.org/html/2606.24184#bib.bib52),6 (https://arxiv.org/html/2606.24184#bib.bib25),14 (https://arxiv.org/html/2606.24184#bib.bib26),62 (https://arxiv.org/html/2606.24184#bib.bib29),57 (https://arxiv.org/html/2606.24184#bib.bib30),18 (https://arxiv.org/html/2606.24184#bib.bib31),27 (https://arxiv.org/html/2606.24184#bib.bib48),65 (https://arxiv.org/html/2606.24184#bib.bib57),66 (https://arxiv.org/html/2606.24184#bib.bib32),50 (https://arxiv.org/html/2606.24184#bib.bib44),16 (https://arxiv.org/html/2606.24184#bib.bib50),5 (https://arxiv.org/html/2606.24184#bib.bib49),64 (https://arxiv.org/html/2606.24184#bib.bib59),36 (https://arxiv.org/html/2606.24184#bib.bib33),1 (https://arxiv.org/html/2606.24184#bib.bib34),55 (https://arxiv.org/html/2606.24184#bib.bib35)]。混合系统保留显式搜索，但添加学习、基于检索或语言模型的指导来引导扩展和剪枝 [19 (https://arxiv.org/html/2606.24184#bib.bib54),37 (https://arxiv.org/html/2606.24184#bib.bib55),26 (https://arxiv.org/html/2606.24184#bib.bib39),61 (https://arxiv.org/html/2606.24184#bib.bib40),31 (https://arxiv.org/html/2606.24184#bib.bib41),4 (https://arxiv.org/html/2606.24184#bib.bib42),60 (https://arxiv.org/html/2606.24184#bib.bib43),44 (https://arxiv.org/html/2606.24184#bib.bib45),12 (https://arxiv.org/html/2606.24184#bib.bib61)]。一种新兴的替代方案是直接生成表示为单个字符串的合成计划 [39 (https://arxiv.org/html/2606.24184#bib.bib27),25 (https://arxiv.org/html/2606.24184#bib.bib36),24 (https://arxiv.org/html/2606.24184#bib.bib56),43 (https://arxiv.org/html/2606.24184#bib.bib1),2 (https://arxiv.org/html/2606.24184#bib.bib62),46 (https://arxiv.org/html/2606.24184#bib.bib37),59 (https://arxiv.org/html/2606.24184#bib.bib46),54 (https://arxiv.org/html/2606.24184#bib.bib47),15 (https://arxiv.org/html/2606.24184#bib.bib38)]。例如，Shee 等人 (https://arxiv.org/html/2606.24184#bib.bib1) 训练了一系列编码器-解码器变换器，将目标化合物的 SMILES 规范“翻译”为多步路线的字符串化（通过深度优先搜索）表示。这些 DirectMultiStep 模型也被扩展到逆合成规划的约束版本，例如找到具有指定起始材料结构或所需路线深度的路线，但每个此类问题都需要训练一个专家模型。在这项工作中，我们将 DirectMultiStep 序列公式从单独训练的编码器-解码器模型扩展到单个仅解码器任务语言，用于路线生成。阿里阿德涅将目标、可选规划约束和路线表示在一个序列中，因此可以在推理时使用不同的任务规范查询同一个检查点。作为一个概念验证，我们研究了仅目标重建以及路线深度和所需起始材料提示。我们在现有的 Solv-N 和 RetroCast 框架内评估这些输出，使用路线重建和约束感知的 Solv-0 来测试生成的路线是否满足基准规范 [33 (https://arxiv.org/html/2606.24184#bib.bib18),13 (https://arxiv.org/html/2606.24184#bib.bib64),32 (https://arxiv.org/html/2606.24184#bib.bib2)]。这些指标评估结构路线计划：反应拓扑、库存终止和提示指定的约束。直接实验使用需要额外的定量规划层，例如反应合理性评估、条件预测、程序生成以及 Solv-N 框架中讨论的更高层可执行性检查 [33 (https://arxiv.org/html/2606.24184#bib.bib18)]。

## 2 预备知识  

### 2.1 定义  

逆合成路线是从目标分子向后到一组提议的起始材料（或叶节点）的一系列反应。本文讨论的所有模型都从其专利衍生的训练数据中继承了歧义性，这些数据可能无法区分核心反应物和辅助试剂，并且可能省略反应条件（例如溶剂、温度）。因此，预测的路线不是完整的实验方案，而是一个高层拓扑计划，其有效性依赖于一个未评估的假设，即存在可行的条件来实现每个转化。

### 2.2 评估  

我们区分生成提示（在解码前提供给阿里阿德涅）和评分任务（定义 RetroCast 在评估期间使用的约束）。这种区别使我们能够询问，例如，仅目标生成在更严格的所需叶任务下如何评分，或者所需叶提示在标准仅目标任务下如何表现。我们报告两组互补的指标。首先，我们报告 Tier-0 有效性，即至少有一条路线所有反应都是 Tier-0 有效的目标比例，以及 Solv-0，即至少有一条 Tier-0 有效路线满足评分任务约束的目标比例 [33 (https://arxiv.org/html/2606.24184#bib.bib18)]。对于 mkt-cnv-160，评分任务约束仅仅是终止于 ASKCOS Buyables 库存中的可市购化合物 [51 (https://arxiv.org/html/2606.24184#bib.bib76),36 (https://arxiv.org/html/2606.24184#bib.bib33)]。对于 mkt-cnv-160-leaf，评分任务约束是库存终止以及路线叶节点中存在指定的起始材料。对于 mkt-cnv-160-depth，它是库存终止以及请求的路线深度。额外的仅目标基准使用相同的 RetroCast 惯例：mkt-基准使用 ASKCOS Buyables 评分，而 ref-基准使用与基准定义一起分发的专利衍生的 PaRoutes 库存评分。在缺乏既定的 Tier-1-3 有效性检查协议的情况下，并遵循将方法开发与新评估指标引入分离的提议 [32 (https://arxiv.org/html/2606.24184#bib.bib2),33 (https://arxiv.org/html/2606.24184#bib.bib18)]，我们报告基准路线重建作为路线质量的代理指标。我们使用标准的 RetroCast 评分实现，并报告 Top-K 准确率，即参考路线是否在前 K 个候选中产生。

### 2.3 数据表示  

阿里阿德涅是一个仅解码器变换器，训练于合成规划任务的字符串化表示。每个训练样本是一个有根的 S-表达式（见图1 (https://arxiv.org/html/2606.24184#S2.F1)），包含两部分：问题规范和解决该问题的路线：  
> (task (spec ...) (route ...))  
其中 spec 包含提示侧信息，route 包含目标路线树。spec 包含一个目标分子，表示为 (query (mol ...))，以及任何可选约束。路线是递归表示的。叶节点写作 (leaf (mol ...))。反应节点写作 (reaction (mol ...) (children ...))，其中 children 是前驱体路线。

图 1 标题：从 DirectMultiStep 到阿里阿德涅的数据表示转变。(a) DirectMultiStep 将多步逆合成视为从目标分子（以及可选附加约束）到合成计划的序列翻译。(b) 在 (a) 和 (c) 中编码的路线骨架结构。(c) 阿里阿德涅将相同问题表示为一个仅解码器任务序列，其中包含提示侧规范和路线侧答案。

通过仅更改 spec 块，同一个路线可以转换成不同的训练序列。在最简单的仅目标模式（记为 T）中，规范仅包含目标分子。在 TL 中，它还包含 route_depth。在 TSd 中，它包含一个所需的起始材料，从路线的最深叶节点中选择。在 TLSd 中，它同时包含路线深度和该所需起始材料。在训练期间，我们还生成 TSe 和 TLSe 序列，其中 required_leaf 字段为路线每个叶节点实例化一次。这里 d 表示最深叶节点，e 表示枚举所有叶节点；TSd 和 TLSd 评估提示从相应的枚举训练变体中选择最深叶节点实例。该字段名为 required_leaves，因为表示支持多个所需起始材料，但本工作所有约束实验使用一个所需起始材料。这些变体让同一个模型在不同信息量下看到相同的路线分布，并自然抵消较长路线的低表示度：较长的路线通常有更多叶节点，因此贡献更多叶条件序列。训练数据还通过排列路线部分中兄弟节点的顺序来扩充任务序列。我们生成三个确定性排列：一个递归排列子节点，一个仅排列根子节点，以及一个排列最深分支节点。我们使用一个小的 S-表达式感知分词器对此表示进行分词。括号和结构标签如 task、spec、query、route、reaction、leaf、children、route_depth 和 required_leaves 是原子 token。然后 SMILES 按字符拆分。在训练期间，提示部分被屏蔽掉损失；模型被训练为在给定规范条件下生成序列的路线侧。

### 2.4 训练数据  

所有阿里阿德涅模型均在 PaRoutes 数据集的 v2026-05-12 规范分割上训练，该数据集由 RetroCast 预处理。RetroCast 提供两个版本：路线保留（route holdout），保证测试集中没有路线以其原始形式出现在训练集中；以及反应保留（reaction holdout），保证在 RetroCast 规范化后，没有测试路线反应出现在任何训练路线中。v2026-05-12-route 等同于原始 DirectMultiStep 工作中使用的训练集。v2026-05-12-reaction 遵循 Xuan-Vu 等人 (https://arxiv.org/html/2606.24184#bib.bib46) 提出的更严格过滤，他们论证基于路线的过滤会导致不公平的数据泄漏。

## 3 结果与讨论  

DirectMultiStep 表明，仅目标和约束逆合成可以写成序列到序列问题，但每个任务变体（例如单向和双向搜索）需要单独的模型。阿里阿德涅将这一想法向前推进一步：目标和可选约束是提示字段，单个路线生成器用合成树完成提示。mkt-cnv-160 基准族为这个接口提供了一个受控测试，因为它保持相同的 160 个目标，仅更改路线约束。基础任务要求终止于 ASKCOS Buyables 库存；深度变体额外固定路线深度；叶变体额外固定一个必须出现在路线叶节点中的起始材料。

### 3.1 一个检查点处理多个规划规范  

表1 (https://arxiv.org/html/2606.24184#S3.T1) 通过固定阿里阿德涅检查点和生成过程同时更改生成提示，分离了约束遵循行为。仅目标 T 行生成无约束候选并根据更严格的深度或叶评分任务进行评分，给出生成已经满足附加要求的基线比率。约束行在解码前在生成提示中包含相应字段。在深度基准上，使用 TL 提示添加请求的深度使 Solv-0 从 76.9% 提高到 90.6%。在所需叶基准上，使用 TSd 提示添加基准指定的所需起始材料使 Solv-0 从 50.0% 提高到 81.2%，Top-10 重建从 26.2% 提高到 37.5%。所需叶基准也提供了与 DESP [61 (https://arxiv.org/html/2606.24184#bib.bib40)] 的直接比较，DESP 是一个为目标加起始材料约束构建的双向搜索规划器。使用 TSd 提示，阿里阿德涅在 24 GPU 分钟内达到 37.5% Top-10 和 81.2% Solv-0。最佳 DESP 设置在 6.8 GPU 小时内达到 17.5% Top-10 和 71.2% Solv-0。配对自举

Project Ariadne: 提示条件驱动的合成规划路线生成

相似文章

ARIADNE：推理时适配器动态选择的无关路由

连接化学家与人工智能：一种专家增强的可解释路线评估框架

有没有人真正有效地解决了每提示词模型路由问题，还是我们都在靠直觉判断？

R-APS：通过反思性对抗帕累托搜索实现约束设计的组合推理与上下文元学习

推导提示：一种基于逻辑的增强检索生成改进方法

提交意见反馈