从智能体轨迹中诱导推理原语

arXiv cs.AI 2026/06/03 04:00 论文

reasoning-primitives agent-traces react llm-agents trace-mining pseudo-tools induction

摘要

介绍推理原语诱导（Reasoning Primitive Induction）方法，该方法从成功的ReAct轨迹中挖掘，将重复出现的推理动作聚类为类型化的伪工具，在基准测试上比原始智能体高出数十个百分点。

arXiv:2606.02994v1 公告类型：新摘要：基于ReAct风格的LLM智能体常常在不同问题中重复发现相同的推理例程，但这些例程却局限于临时性的草稿中。我们提出了一种单遍方法——推理原语诱导（Reasoning Primitive Induction），该方法从成功的ReAct轨迹中挖掘，将重复出现的推理动作聚类，并将最频繁的动作转换为一个紧凑的类型化伪工具库。每个伪工具由一个自然语言文档字符串指定，在调用时由LLM解释，而标准的ReAct循环在测试时组合这些原语。核心结果是，诱导出的库优于生成其轨迹的原始智能体：在RuleArena NBA上提高44个百分点（30 -> 74），在MuSR团队分配上提高30个百分点（38 -> 68），在NatPlan会议规划上提高22个百分点（7 -> 29）。在涵盖叙事推理、规则应用和约束满足规划的五个可比较子任务中，一个单一的固定配置在每个子任务上都优于零样本思维链，与专家编写的分解方案相当或更优，并且在较低的平均推理成本下优于AWM。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:42

# 从智能体轨迹中归纳推理原语 来源：https://arxiv.org/html/2606.02994 ###### 摘要 ReAct 风格的 LLM 智能体经常在不同问题中重新发现相同的推理例程，却将这些例程困于瞬态的草稿中。我们提出*推理原语归纳*，一种单次通过的方法，它挖掘成功的 ReAct 轨迹，聚类出现频繁的推理动作，并将最频繁的动作转换为一个紧凑的类型化伪工具库。每个伪工具通过一个自然语言文档字符串指定，在调用时由 LLM 解释，标准的 ReAct 循环在测试时组合这些原语。核心结果是，归纳出的库优于生成其轨迹的智能体本身：在 RuleArena NBA 上提升 +44 个百分点（30→74），在 MuSR 团队分配上提升 +30 个百分点（38→68），在 NatPlan 会议规划上提升 +22 个百分点（7→29）。在涵盖叙事推理、规则应用和约束满足规划的五个可比子任务中，一个固定的配置在每个子任务上都优于零样本 Chain-of-Thought，达到或超过专家编写的分解方法，并以更低的平均推理成本优于 AWM。 ## 1 引言 开放式 LLM 智能体——ReAct（Yao 等，2023）及其后续变体——在每个实例上从零开始重建多步骤推理。然而，在一个任务族中，它们的轨迹往往包含相同的潜在例程：检查嫌疑人的手段、对照时间线核实不在场证明、权衡物证、或在竞争候选者之间进行仲裁。这些动作在聚合时可见，但在部署时仍是非结构化的：每次展开都是自由形式思想、动作和观察的新混合，而重复模式在问题解决后被丢弃。标准的替代方案是手工编写特定于任务的分解，但这需要领域洞察力，并且每个基准族都需要新的工程工作。我们询问这些重复出现的推理动作是否能从智能体自身的轨迹中自动恢复。先前的轨迹归纳方法（§2）常常挖掘完成的轨迹、工作流指南或可执行技能，使得归纳产物成为源已展现行为的更可重用形式。而我们则在更细粒度上进行归纳：单个推理动作。归纳产物不是要遵循的工作流或要调用的可执行技能，而是智能体的可重用推理词汇——一个类型化的清单，列出智能体在推理跨任务族实例时所使用的重复动作。由此产生的原语作为可调用的类型化伪工具暴露出来，产生轨迹的同一智能体可以使用它们，将其原始 ReAct 策略的性能提升数十个百分点。在此设置中，轨迹归纳不仅仅是蒸馏；它可以揭示源智能体生成不一致但未能可靠部署的推理结构。 思考 0：“我需要分析叙事，确定 Isla 和 Randy 谁是最可能的凶手。让我搜索关于这两个嫌疑人的关键证据。”思考 13：“让我搜索关于 Randy 的不在场证明和 Isla 的不在场证明的更具体证据：”思考 24：“根据我的分析：针对 Randy 的证据：Jimmy 被杀当天在汽车旅馆被看到；拥有一把左轮手枪，弹道匹配；强烈的经济动机……”……(A) ReAct 成功展开初始化嫌疑人调查调查特定证据类型评估单个嫌疑人证据……(B) 分类与计数前 5 个典型类别（|I|=196 个思考）：调查证据 48初始化嫌疑人 38最终结论 29总结进展 27评估证据 24def investigate_evidence( narrative: str, focus: str ) -> str: """ 分析谋杀叙事中关于‘focus’（嫌疑人、武器、地点）的证据。提取并权衡手段、动机、机会、不在场证明一致性、物证。标记硬性排除条件和矛盾证人。…… """(C) 综合原语图 1：MuSR 谋杀案上推理原语归纳的实例。(A) 来自一个成功 ReAct 展开的三个逐字思考字符串。(B) 每个思考被映射到一个推理动作标签（算法 1）；柱状图显示前 5 个典型类别。(C) 最频繁类别被综合成一个类型化伪工具，其主体在调用时由 LLM 实现（完整库见附录 A）。 推理原语归纳采用一个 ReAct 展开的语料库，将每一步的思考字符串聚类为重复出现的推理动作，并将最频繁的动作综合为类型化的 Python 存根，其行为由 LLM 可解释的文档字符串指定。在测试时，归纳出的库和一个单一完成动作形成智能体的动作空间，而一个标准 ReAct 循环决定调用哪个原语以及以何种顺序调用。该流程使用两个自由参数（K, m）、三个 LLM 提示和一个跨所有基准固定的配置。归纳通过一个隐式聚合步骤超越其源：对于每个重复动作，综合过程看到一个典型类别标签和从成功展开中采样的代表性思考，并写出该动作应实现的语料库级别规范。原始 ReAct 智能体在飞行中做出实例级别的决策，并在局部上下文中反复重新发明相同的动作。因此，在部署时调用一个稳定的规范并不等同于要求源智能体从头开始复制该动作；当源智能体方差较高时，差距可能很大。 #### 贡献。我们沿三个轴组织发现。(1) 轨迹归纳超越其源。归纳出的库以显著优势优于产生其轨迹的源智能体：在 RuleArena NBA 上提升 +44 个百分点（30→74），在 MuSR 团队分配上提升 +30 个百分点（38→68），在 NatPlan 会议规划上提升 +22 个百分点（7→29）。所有相应的配对 Δ 置信区间严格为正（§4）。这表明归纳库的质量不必与源智能体实现的测试时策略挂钩，并将我们的设置与主要重新打包完整工作流或技能的轨迹归纳方法（Wang 等，2025a,b; Zheng 等，2025）区分开来。(2) 发现达到或超越专家设计。无需逐个任务编写，归纳库在 MuSR 团队分配（+17 个百分点）和 NatPlan 会议规划（+15 个百分点）上显著优于专家编写的分解方法，并在其余可比子任务上

从智能体轨迹中诱导推理原语

相似文章

通过结构化元认知在通用智能体中实现深度推理

监控内部独白：探针轨迹揭示推理动态

工具即连续流：用于演进式智能体推理

GraphReAct：面向多步图推理的推理与行动

ReasonOps: 面向LLM推理轨迹的算子分割

提交意见反馈