ARMOR:一种基于自适应效用感知多工具推理的反应可行性预测智能体框架

arXiv cs.AI 论文

摘要

本文介绍了 ARMOR,这是一个用于预测化学反应可行性的智能体框架,通过自适应地优先使用并解决多个 AI 工具之间的冲突来实现预测。在公共数据集上,该框架展示了优于单一工具和聚合方法的性能。

arXiv:2605.07103v1 公告类型:新论文 摘要:反应可行性预测作为计算化学中的一个基本问题,受益于近期人工智能(特别是大语言模型)进步所带来的多样化工具。然而,单一工具在不同反应上的性能差异显著,使得任何单一工具都难以在所有情况下保持一致的优异表现。这提出了一个关键挑战:如何有效利用多种工具以获得更准确的可行性预测。为此,我们提出了 ARMOR,一个智能体框架,它明确地对工具特定效用进行建模,自适应地确定工具的优先级,并进一步解决潜在的工具冲突,从而为每个反应生成最终预测。与依赖简单聚合或在多种工具之间进行启发式分配现有方法不同,ARMOR 将工具组织成层次结构,在需要时优先考虑表现最佳的工具并延后使用其他工具,通过工具特定模式刻画其优势,并通过记忆增强推理来解决冲突。在公共数据集上的大量实验表明,ARMOR 持续优于强大的基线模型,包括单一工具方法以及各种工具聚合和工具选择方法。进一步分析显示,在工具预测存在冲突的反应中,性能提升尤为显著,突显了 ARMOR 在利用多种工具互补优势方面的有效性。代码可通过 https://anonymous.4open.science/r/ARMOR-E13F 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:12

# 基于自适应效用感知多工具推理的反应可行性预测代理框架

来源: https://arxiv.org/html/2605.07103

Ye Liu<sup>1</sup>, Botao Yu<sup>2</sup>, Xinyi Ling<sup>2</sup>, Daniel Adu-Ampratwum<sup>3</sup>, Xia Ning<sup>1,2,3,4</sup>

1. 生物医学信息学系
2. 计算机科学与工程系
3. 药物化学与生药学系
4. 转化数据分析研究所

俄亥俄州立大学

\{liu\.12989, ling\.303, yu\.3737, adu\-ampratwum\.1, ning\.104\}@osu\.edu

###### 摘要

反应可行性预测是计算化学中的一个基本问题,受益于人工智能(特别是大语言模型)近期进步所推动的各种工具。然而,单个工具在不同反应上的性能差异巨大,使得没有任何单一工具能在所有情况下始终保持良好表现。这提出了一个关键挑战:如何有效地利用多种工具以获得更准确的可行性预测。为此,我们提出了 **ARMOR** ($\mathop\{\textsc\{ARMOR\}\}\limits$),这是一个代理框架,它显式地对工具特定的效用进行建模,自适应地优先选择工具,并进一步解决潜在的工具冲突,从而为每个反应生成最终预测。与依赖简单聚合或启发式分配各种工具现有方法不同,ARMOR 将工具组织成一个层次结构,优先使用表现最好的工具,并在需要时推迟使用其他工具;通过工具特定的模式刻画其优势,并通过记忆增强推理来解决冲突。在公共数据集上的大量实验表明,ARMOR 始终优于强大的基线方法,包括单工具方法以及各种工具聚合和工具选择方法。进一步的分析显示,在工具预测存在冲突的反应上,性能提升尤为显著,突显了 ARMOR 在利用多种工具互补优势方面的有效性。代码可通过 https://anonymous.4open.science/r/ARMOR-E13F 获取。

## 1 引言

反应可行性预测旨在评估化学反应是否可行,是计算化学和化学合成中的一个基本问题 (Warr, 2014)。人工智能(特别是大语言模型 LLMs)的最新进展催生了用于此任务的各种工具,例如基于分类的可行性预测器 (Chainani et al., 2025)、正向生成模型 (Irwin et al., 2022) 以及基于 LLM 的可行性推理器 (Rubin et al., 2022)。然而,现有工具在不同反应上的表现各异,没有单一工具能在所有情况下 consistently 产生正确的预测。例如,基于分类的预测器在结构相对规则的反应上表现良好 (Probst et al., 2022),而基于 LLM 的方法在需要复杂推理或上下文理解的反应上更有效 (Krishnan et al., 2026)。这种互补优势表明,针对每个反应有效利用多种工具对于更准确的可行性预测至关重要。

为此,先前的工作探索了利用多种工具的方法,例如动态集成选择方法 (Cruz et al., 2020) 和混合专家模型 (Huang et al., 2024)。然而,这些方法通常依赖简单的聚合或启发式分配策略,没有明确区分每种工具在何种反应上更适用,导致最终预测的稳定性和准确性较低。与此同时,基于 LLM 的代理的最新进展证明了通过规划和推理协调多种工具的强大能力 (Qu et al., 2025; Qin et al., 2024b; Ye et al., 2025)。尽管如此,它们主要关注编排具有不同功能的工具以完成多步骤任务,其中每个工具通常服务于不同的子目标。相比之下,为单一任务(特别是在反应可行性预测等特定领域场景中)利用多种工具的研究尚不充分。

在本文中,我们研究如何有效利用多种工具进行准确的反应可行性预测,其中不同工具在不同反应上表现出不同的优势。我们提出了 **ARMOR** ($\mathop\{\textsc\{ARMOR\}\}\limits$),即 **A**gentic framework for **R**eaction feasibility prediction via **M**ulti-tool **O**ptimized **R**easoning(基于多工具优化推理的反应可行性预测代理框架),该框架对工具效用进行建模,针对不同反应优先选择工具,并在对比演示的支持下解决潜在的工具冲突。ARMOR 包含三个关键组件:(1) 工具层次结构构建模块,将多种工具组织成两级结构,第一级包含用于初始决策的高性能工具,第二级包含对具有特定特征的反应表现出专门性能的剩余工具;(2) 效用感知工具优先排序模块,通过刻画不同工具针对特定反应的效用来选择工具,从而自适应地优先选择倾向于对每个反应做出正确预测的工具;(3) 工具冲突解决模块,通过一种新颖的记忆增强推理机制解决所选工具的潜在冲突预测,该机制利用针对对比反应-工具演示的历史推理行为来获得最终预测。

总体而言,ARMOR 实现了针对多种工具的反应特定效用评估,自适应地优先选择适当的工具并解决工具冲突,以准确预测反应可行性。虽然我们在本工作中侧重于反应可行性预测,但提出的 ARMOR 是一个通用框架,可应用于其他输入表现各异的工具任务。我们使用反应可行性预测任务作为代表性设置来评估 ARMOR,并在包含多种工具的公共反应可行性数据集上进行了大量实验。结果表明,ARMOR 始终优于强大的基线,包括单工具方法以及各种工具聚合和工具选择方法。特别是,ARMOR 实现了卓越且平衡的性能,不对可行或不可行反应产生偏见。进一步的分析表明,性能增益主要源于其建模工具特定效用和有效解决工具冲突的能力。

我们的贡献总结如下:

(1) 我们研究了如何利用多种工具进行反应可行性预测,并首次提出了显式建模不同工具效用的方向,超越了直接的聚合或启发式混合专家方法。

(2) 我们开发了 ARMOR,这是一个代理框架,刻画工具效用并利用它们为每个反应选择合适的工具,随后通过工具冲突解决模块得出最终预测。

(3) 大量实验证明 ARMOR 始终达到最先进的性能。它在存在持续工具冲突的反应上显示出显著优势,在这些反应中,利用互补的工具优势变得尤为重要。

## 2 相关工作

##### 反应可行性预测

早期关于反应可行性预测的研究依赖于专家设计的规则 (Warr, 2014; Zhong et al., 2025),通过手工制作的约束(如官能团兼容性和价键规则)来评估可行性 (Jorgensen et al., 1990; Aithal and Upadhyay, 2012)。虽然这些方法提供了可解释的决策标准,但它们需要大量的人工努力,并且往往难以推广到预定义规则集之外 (Fooshee et al., 2018)。为了克服这些局限性,后续工作探索了机器学习方法,大致可分为基于分类的预测器和正向生成模型 (Park et al., 2022)。基于分类的方法使用反应指纹或分子描述符训练监督模型 (Probst et al., 2022; Yang et al., 2024; Chainani et al., 2025),而正向生成模型通过预测可能的产物并检查其与目标输出的一致性来评估可行性 (Schwaller et al., 2019; Irwin et al., 2022)。最近,大语言模型 (LLMs) 被应用于反应理解和合成规划 (Murakumo et al., 2023)。对于可行性预测,LLMs 可以进行零样本推理或利用上下文学习 (ICL) (Kojima et al., 2022; Brown et al., 2020),并通过 incorporating 额外的外部信号进一步增强 (Rubin et al., 2022; Krishnan et al., 2026)。这些进展突显了 LLMs 在整合多样化信息并进行反应分析的上下文推理方面的灵活性。

##### 工具选择

为给定输入选择合适的工具在机器学习和 AI 系统中得到了广泛研究 (Cruz et al., 2020)。早期方法依赖于静态策略,如多数投票或加权聚合 (Dietterich, 2000),这些方法结合预测而不考虑实例特定的特征,因此未能充分利用工具的互补性 (Rokach, 2010)。为了解决这个问题,提出了动态选择方法,根据输入特征自适应地选择工具 (Britto Jr et al., 2014)。代表性方法包括动态集成选择方法,如 KNORA (Ko et al., 2008) 和 DES 变体 (Woloszynski et al., 2012),以及通过学习门控机制将输入路由到不同专家的混合专家 (MoE) 模型 (Shazeer et al., 2017; Huang et al., 2024)。然而,这些方法通常依赖于隐式能力估计。除了这些方法之外,受益于 LLMs 的进步,各种基于代理的工具选择方法得到了探索 (Qin et al., 2024a; Qu et al., 2025),其中基于 LLM 的代理用于协调多种工具以完成复杂任务。在这种设置中,工具通常分配给不同的子任务,代理专注于编排它们的交互 (Qin et al., 2024b)。相比之下,为单一任务利用多种工具的研究尚不充分,特别是在需要比较具有相同功能的多种工具的特定领域场景(如反应可行性预测)中。我们的工作通过显式建模工具效用并为每个反应自适应地选择合适的工具来解决这一差距。

## 3 ARMOR 框架

##### 问题定义

给定一个反应 $r = S \rightarrow D$,其中 $S$ 和 $D$ 分别表示反应物和产物,反应可行性预测被 formulated 为一个二分类问题,预测 $r$ 为可行 ($y=1$) 或不可行 ($y=0$) (Yang et al., 2024)。在本工作中,我们考虑一种设置,即有多种可行性预测工具 $\mathcal{T}=\{t_i\}$ 可用,并且它们在反应上的性能各不相同,我们的目标是通过一种新颖的代理框架 **ARMOR** 最优地利用这些工具来获得准确的预测。

##### 概述

ARMOR 通过衡量工具效用并针对不同反应优先选择工具,动态识别最适合反应可行性预测的工具,并通过学习和推理对比演示来解决来自不同工具的潜在预测冲突。如图 1 所示,ARMOR 由三个关键组件组成:

(1) **工具层次结构构建** (第 3.1 节),将工具分为两级:第一级的工具在反应上具有强大的整体性能,因此可用于初始预测;而第二级的工具表现出更明显的反应依赖性性能,因此更适合专门的预测场景或具有特定特征的反应。ARMOR 利用这种层次化的工具框架来平衡工具利用的整体鲁棒性和反应特定的专业性。

(2) **效用感知工具优先排序** (第 3.2 节),通过利用刻画不同反应中工具效用的模式来进行工具选择,从而优先选择更有可能针对特定反应特征生成正确预测的工具。这种优先排序实现了更自适应和感知反应的工具利用,提高了预测准确性,同时更好地利用了不同工具的互补优势。

(3) **工具冲突解决** (第 3.3 节),通过对对比反应-工具演示进行新颖的记忆增强推理,协调来自所选工具的冲突预测,从而得出最终预测。冲突解决通过利用跨工具的互补证据和历史推理行为,实现了更可靠和上下文感知的决策。

### 3.1 工具层次结构构建

通常观察到,工具性能在不同反应上往往存在差异,没有任何单一工具在所有情况下 consistently 表现最佳。为了评估整体表现……

相似文章

ChemAmp: 通过可组合智能体增强化学工具

arXiv cs.CL

ChemAmp 引入了一种工具增强范式,通过动态协调专门的化学工具(UniMol2、Chemformer)作为可组合智能体来增强分子任务的性能。该框架性能超越了化学专用模型,并相比传统多智能体系统将推理令牌成本降低了 94%。

ReAct 还是 CodeAct,这是问题所在

Reddit r/AI_Agents

本文探讨了 AI 工程中 ReAct 和 CodeAct 两种编排范式的利弊,强调了 CodeAct 在处理复杂任务时的高效性,并介绍了一个新的开源框架。