R-APS:通过反思性对抗帕累托搜索实现约束设计的组合推理与上下文元学习

arXiv cs.AI 论文

摘要

R-APS(反思性对抗帕累托搜索)是一种面向约束设计任务的新方法,通过跨三个时间尺度的推理模式分解,解决了基于LLM的智能体系统中的三类结构性缺陷——错误传播、鲁棒性评估与知识失效,且无需微调。在平面机构综合任务上的评估结果表明,与基线方法相比,R-APS实现了3.5倍更紧的鲁棒性证书、46%更快的首次准入迭代速度,以及2.1倍的Chamfer距离缩减。

arXiv:2606.04823v1 发布类型:新论文 摘要:大语言模型(LLM)在开放式任务上表现流畅,然而在智能体场景中——系统需要规划、使用工具并在较长时间跨度内持续行动——流畅性并不能保证可靠的输出。我们将这一差距归因于三类相互耦合的结构性缺陷:错误在传播过程中缺乏定位机制、最坏情况下的扰动未被评估、以及累积的知识从未被失效化处理。我们认为这些缺陷共享同一根本原因:溯因推理、反事实推理、元归纳推理、纠错推理与归纳推理在共享上下文中相互拉扯,方向不兼容。为此,我们提出反思性对抗帕累托搜索(R-APS)——据我们所知,这是首个通过推理模式分解同时解决上述三类缺陷的方法。R-APS为每种推理模式分配独立的上下文,并跨三个时间尺度协调其交互:带有类型化验证评审器的分阶段组合推理(故障定位)、以灵敏度引导的反事实压力测试作为一等帕累托目标(鲁棒性),以及带有显式失效机制的元归纳规则提取(持久记忆)。R-APS无需微调,完全通过结构化协议设计在冻结的LLM上运行。我们在平面机构综合任务(涵盖机器人、假肢与机械设计领域)上进行评估,所有候选方案均经过运动学求解器验证。在32条目标轨迹上,R-APS相比均匀扰动基线实现了3.5倍更紧的鲁棒性证书、46%更快的首次准入迭代速度,并在同时控制连杆数量与最坏情况鲁棒性的前提下,相比Enum+GA方法实现了2.1倍的Chamfer距离缩减。实验还发现,4B参数的推理专用小模型在该协议框架内与通用型70B骨干模型具有竞争力,表明结构化协议能够在一定程度上弥补模型规模上的差距。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:09

# R-APS:通过反思性对抗帕累托搜索实现约束设计的组合推理与上下文元学习

来源:https://arxiv.org/abs/2606.04823
查看 PDF (https://arxiv.org/pdf/2606.04823)

> **摘要:** 大语言模型(LLM)在开放式任务上表现流畅,但在智能体场景中——系统需要规划、使用工具并在较长时间跨度内持续行动——流畅性并不能保证可靠交付。我们将这一差距归因于三个相互耦合的结构性缺陷:错误在没有定位的情况下持续传播、最坏情况下的扰动未经评估,以及积累的知识从未经过失效验证。我们认为这些问题有共同的根源:溯因推理、反事实推理、元归纳推理、纠错推理与归纳推理相互拉扯同一上下文,导致方向不兼容。我们提出了**反思性对抗帕累托搜索(R-APS)**——据我们所知,这是首个通过推理模式分解同时解决上述三种缺陷的方法。R-APS 为每种推理模式分配独立的上下文,并在三个时间尺度上协调交互:带类型验证评判器的分阶段组合推理(故障定位)、以敏感性引导的反事实压力测试作为一等帕累托目标(鲁棒性),以及带显式失效机制的元归纳规则提取(持久记忆)。R-APS 无需微调,完全通过结构化协议设计在冻结的 LLM 上运行。我们在平面机构综合任务(涵盖机器人、假肢与机械设计领域)上进行评估,所有候选方案均经过运动学求解器验证。在 32 条目标轨迹上,R-APS 给出的鲁棒性证书比均匀扰动基线收紧 **3.5 倍**,迭代至首次达标的速度提升 **46%**,在同时控制连杆数量与最坏情况鲁棒性的条件下,Chamfer 距离相较 Enum+GA 降低 **2.1 倍**。实验还表明,经过推理专项优化的小型 4B 模型在该协议框架内可与通用 70B 模型媲美,说明结构化协议能够在一定程度上弥补模型规模的不足。

## 提交历史

作者:João Pedro Gandarela \[查看邮箱 (https://arxiv.org/show-email/fdf238d5/2606.04823)\]
**\[v1\]** 2026 年 6 月 3 日(周三)12:45:39 UTC(362 KB)

相似文章

自适应潜在智能体推理

arXiv cs.CL

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。