REPOT: 通过检查点修复的可恢复Program-of-Thought
摘要
RePoT通过基于检查点的修复,使得从无效动作中进行确定性恢复成为可能,从而改进了Program-of-Thought,在多个模型和基准测试中取得了更高的成功率。
查看缓存全文
缓存时间: 2026/05/29 15:02
论文页面 - REPOT:通过检查点修复实现可恢复的思维程序
来源:https://huggingface.co/papers/2605.30052
摘要
RePoT 改进了单次思维程序(Program-of-Thought),通过环境交互实现确定性验证回放与恢复,在多个模型和基准测试上取得了更高的成功率。
单次思维程序(Program-of-Thought,PoT)会生成一段 Python 程序,该程序打印出一个原始动作计划;任何一个无效动作都会静默地使轨迹失效。我们引入了 RePoT(可恢复的 PoT):一种确定性验证回放机制,它会在环境中逐步骤执行该计划直到首次无效转换,然后调用一次 LLM 调用,从已验证的前缀处继续执行。RePoT 在 PoT 失败的大约 14% 的问题上最多只需额外一次 LLM 调用。在 PuzzleZoo-775 上,RePoT 在四种闭源模型配置上比 PoT 高出 +3 到 +11 个百分点,并在 gpt-5.4-mini-medium 上达到 96.9%(对比 PoT 的 86.3%)的峰值;与预算匹配的 PoT-重试基线相比,RePoT 在 Gemini 上取得决定性胜利(+3.8 个百分点,95% 置信区间 [+2.2, +5.4]),在 GPT-medium 和 Claude 上处于采样噪声范围内,在 GPT-mini 上则落后——我们开始通过 AdaptiveRePoT(一种基于验证前缀长度的规则调度器,在恢复后缀与全新 PoT 重试之间进行路由(初步))来应对这一能力扩展模式。我们在 PlanBench Blocksworld(+1.1 到 +11.4 个百分点)以及四个开放权重模型(四个中的三个上 +3.3 到 +20.0 个百分点)上进行了复现。在我们控制的恢复基准测试 Derail-550 上,所有能够访问检查点信息的条件在 GPT-medium 上达到 >=30%,在 Gemini 上达到 >=70%,而仅依赖于错误反馈的条件 <=3.1%——这表明检查点信息(而非特定的已验证前缀尾部)才是承担负载的恢复信号。
查看 arXiv 页面(https://arxiv.org/abs/2605.30052)查看 PDF(https://arxiv.org/pdf/2605.30052)项目页面(https://huggingface.co/datasets/parsa-mz/puzzlezoo)GitHub0(https://github.com/parsa-mz/RePot)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.30052)
在您的智能体中获取此论文:
hf papers read 2605.30052
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型链接此论文
请在模型的 README.md 中引用 arxiv.org/abs/2605.30052 以在此页面建立链接。
引用此论文的数据集1
parsa-mz/puzzlezoo 查看器• 约11小时前更新 • 1.7k • 3(https://huggingface.co/datasets/parsa-mz/puzzlezoo)
引用此论文的 Spaces0
尚无 Space 链接此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.30052 以在此页面建立链接。
包含此论文的收藏集0
尚无收藏集包含此论文
将本论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
DART: 结构化工具代理的语义可恢复性
DART 为结构化工具代理引入了语义可恢复性,形式化了一个标准,用于确定在做出下游承诺后,本地检查点恢复是否仍然有效。在三个基于LLM的领域进行的实验表明,它正确恢复了基线本地恢复失败的所有承诺敏感案例,且安全审计未发现不安全的回滚。
面向危害感知的LLM数学推理事后替换的受保护修复方法
提出了一种名为GuardedRepair的框架,用于对LLM数学推理进行事后替换,通过选择性替换和安全防护来修复错误,同时最小化对正确推理轨迹的损害。在GSM8K上,该方法在未破坏正确答案的情况下,将准确率从95.60%提升至96.89%。
ReGRPO: Reflection-Augmented Policy Optimization for Tool-Using Agents
ReGRPO introduces a reflection-augmented policy optimization framework for tool-using vision-language agents, leveraging structured failure observations and joint optimization of reflection tokens and actions to improve recovery from tool failures, achieving state-of-the-art results on GTA and GAIA benchmarks.
GitOfThoughts:可版本控制的推理与可回放、比较和合并的智能体记忆
GitOfThoughts将智能体的推理树存储为git仓库,支持回放、比较和合并。该论文测试了多种记忆载体,发现记忆除了对近似重复问题外,并不能提升新问题的准确性。
@HuggingPapers:并行推理及时止损——STOP 通过读取 KV-cache 状态提前剪枝注定失败的轨迹,…
STOP 方法利用 KV-cache 状态提前剪枝注定失败的推理轨迹,token 用量降 70%,在 1.5B–20B 模型上提升 AIME 与 GPQA 准确率。