REPOT: 通过检查点修复的可恢复Program-of-Thought

Hugging Face Daily Papers 论文

摘要

RePoT通过基于检查点的修复,使得从无效动作中进行确定性恢复成为可能,从而改进了Program-of-Thought,在多个模型和基准测试中取得了更高的成功率。

一次性Program-of-Thought (PoT)会生成一个Python程序,该程序打印出原始动作计划;任何一个无效动作都会悄无声息地使整个轨迹失效。我们提出RePoT(可恢复的PoT):一种确定性验证重放机制,它将计划在环境中执行,直到遇到第一个无效转换,然后通过一次LLM调用从验证过的前缀继续执行。RePoT在PoT失败的约14%的问题上最多只需要额外一次LLM调用。在PuzzleZoo-775数据集上,RePoT在四个闭源模型配置中比PoT高出3到11个百分点,在gpt-5.4-mini-medium上达到96.9%对比86.3%的峰值;与预算匹配的PoT重试基线相比,RePoT在Gemini上以+3.8pp(95%置信区间[+2.2,+5.4])的成绩大幅胜出,在GPT-medium和Claude上处于采样噪声范围内,但在GPT-mini上表现较差——这是一种能力缩放模式,我们开始用自适应RePoT来解决,这是一种基于规则的调度器,根据验证前缀的长度在后缀修复和全新PoT重试之间进行路由(初步)。我们在PlanBench Blocksworld上进行了复现(+1.1到+11.4pp),并在四个开源权重模型上进行了复现(其中三个模型提升了+3.3到+20.0pp)。在我们的受控恢复基准测试Derail-550上,所有能够访问检查点信息的条件在GPT-medium上均超过30%,在Gemini上超过70%,而仅提供错误反馈的条件则低于3.1%——这表明检查点信息,而非特定的已验证前缀尾部,才是支撑恢复的关键信号。
查看原文
查看缓存全文

缓存时间: 2026/05/29 15:02

论文页面 - REPOT:通过检查点修复实现可恢复的思维程序

来源:https://huggingface.co/papers/2605.30052

摘要

RePoT 改进了单次思维程序(Program-of-Thought),通过环境交互实现确定性验证回放与恢复,在多个模型和基准测试上取得了更高的成功率。

单次思维程序(Program-of-Thought,PoT)会生成一段 Python 程序,该程序打印出一个原始动作计划;任何一个无效动作都会静默地使轨迹失效。我们引入了 RePoT(可恢复的 PoT):一种确定性验证回放机制,它会在环境中逐步骤执行该计划直到首次无效转换,然后调用一次 LLM 调用,从已验证的前缀处继续执行。RePoT 在 PoT 失败的大约 14% 的问题上最多只需额外一次 LLM 调用。在 PuzzleZoo-775 上,RePoT 在四种闭源模型配置上比 PoT 高出 +3 到 +11 个百分点,并在 gpt-5.4-mini-medium 上达到 96.9%(对比 PoT 的 86.3%)的峰值;与预算匹配的 PoT-重试基线相比,RePoT 在 Gemini 上取得决定性胜利(+3.8 个百分点,95% 置信区间 [+2.2, +5.4]),在 GPT-medium 和 Claude 上处于采样噪声范围内,在 GPT-mini 上则落后——我们开始通过 AdaptiveRePoT(一种基于验证前缀长度的规则调度器,在恢复后缀与全新 PoT 重试之间进行路由(初步))来应对这一能力扩展模式。我们在 PlanBench Blocksworld(+1.1 到 +11.4 个百分点)以及四个开放权重模型(四个中的三个上 +3.3 到 +20.0 个百分点)上进行了复现。在我们控制的恢复基准测试 Derail-550 上,所有能够访问检查点信息的条件在 GPT-medium 上达到 >=30%,在 Gemini 上达到 >=70%,而仅依赖于错误反馈的条件 <=3.1%——这表明检查点信息(而非特定的已验证前缀尾部)才是承担负载的恢复信号。

查看 arXiv 页面(https://arxiv.org/abs/2605.30052)查看 PDF(https://arxiv.org/pdf/2605.30052)项目页面(https://huggingface.co/datasets/parsa-mz/puzzlezoo)GitHub0(https://github.com/parsa-mz/RePot)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30052)

在您的智能体中获取此论文:

hf papers read 2605.30052

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.30052 以在此页面建立链接。

引用此论文的数据集1

parsa-mz/puzzlezoo 查看器• 约11小时前更新 • 1.7k • 3(https://huggingface.co/datasets/parsa-mz/puzzlezoo)

引用此论文的 Spaces0

尚无 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.30052 以在此页面建立链接。

包含此论文的收藏集0

尚无收藏集包含此论文

将本论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

DART: 结构化工具代理的语义可恢复性

arXiv cs.AI

DART 为结构化工具代理引入了语义可恢复性,形式化了一个标准,用于确定在做出下游承诺后,本地检查点恢复是否仍然有效。在三个基于LLM的领域进行的实验表明,它正确恢复了基线本地恢复失败的所有承诺敏感案例,且安全审计未发现不安全的回滚。

面向危害感知的LLM数学推理事后替换的受保护修复方法

arXiv cs.CL

提出了一种名为GuardedRepair的框架,用于对LLM数学推理进行事后替换,通过选择性替换和安全防护来修复错误,同时最小化对正确推理轨迹的损害。在GSM8K上,该方法在未破坏正确答案的情况下,将准确率从95.60%提升至96.89%。

ReGRPO: Reflection-Augmented Policy Optimization for Tool-Using Agents

arXiv cs.AI

ReGRPO introduces a reflection-augmented policy optimization framework for tool-using vision-language agents, leveraging structured failure observations and joint optimization of reflection tokens and actions to improve recovery from tool failures, achieving state-of-the-art results on GTA and GAIA benchmarks.