REPOT: 通过检查点修复的可恢复Program-of-Thought

Hugging Face Daily Papers 2026/05/28 00:00 论文

program-of-thought checkpoint-repair llm-reasoning planning verified-replay puzzle-benchmark

摘要

RePoT通过基于检查点的修复，使得从无效动作中进行确定性恢复成为可能，从而改进了Program-of-Thought，在多个模型和基准测试中取得了更高的成功率。

一次性Program-of-Thought (PoT)会生成一个Python程序，该程序打印出原始动作计划；任何一个无效动作都会悄无声息地使整个轨迹失效。我们提出RePoT（可恢复的PoT）：一种确定性验证重放机制，它将计划在环境中执行，直到遇到第一个无效转换，然后通过一次LLM调用从验证过的前缀继续执行。RePoT在PoT失败的约14%的问题上最多只需要额外一次LLM调用。在PuzzleZoo-775数据集上，RePoT在四个闭源模型配置中比PoT高出3到11个百分点，在gpt-5.4-mini-medium上达到96.9%对比86.3%的峰值；与预算匹配的PoT重试基线相比，RePoT在Gemini上以+3.8pp（95%置信区间[+2.2,+5.4]）的成绩大幅胜出，在GPT-medium和Claude上处于采样噪声范围内，但在GPT-mini上表现较差——这是一种能力缩放模式，我们开始用自适应RePoT来解决，这是一种基于规则的调度器，根据验证前缀的长度在后缀修复和全新PoT重试之间进行路由（初步）。我们在PlanBench Blocksworld上进行了复现（+1.1到+11.4pp），并在四个开源权重模型上进行了复现（其中三个模型提升了+3.3到+20.0pp）。在我们的受控恢复基准测试Derail-550上，所有能够访问检查点信息的条件在GPT-medium上均超过30%，在Gemini上超过70%，而仅提供错误反馈的条件则低于3.1%——这表明检查点信息，而非特定的已验证前缀尾部，才是支撑恢复的关键信号。

查看原文

查看缓存全文

缓存时间: 2026/05/29 15:02

论文页面 - REPOT：通过检查点修复实现可恢复的思维程序

来源：https://huggingface.co/papers/2605.30052

摘要

RePoT 改进了单次思维程序（Program-of-Thought），通过环境交互实现确定性验证回放与恢复，在多个模型和基准测试上取得了更高的成功率。

单次思维程序（Program-of-Thought，PoT）会生成一段 Python 程序，该程序打印出一个原始动作计划；任何一个无效动作都会静默地使轨迹失效。我们引入了 RePoT（可恢复的 PoT）：一种确定性验证回放机制，它会在环境中逐步骤执行该计划直到首次无效转换，然后调用一次 LLM 调用，从已验证的前缀处继续执行。RePoT 在 PoT 失败的大约 14% 的问题上最多只需额外一次 LLM 调用。在 PuzzleZoo-775 上，RePoT 在四种闭源模型配置上比 PoT 高出 +3 到 +11 个百分点，并在 gpt-5.4-mini-medium 上达到 96.9%（对比 PoT 的 86.3%）的峰值；与预算匹配的 PoT-重试基线相比，RePoT 在 Gemini 上取得决定性胜利（+3.8 个百分点，95% 置信区间 [+2.2, +5.4]），在 GPT-medium 和 Claude 上处于采样噪声范围内，在 GPT-mini 上则落后——我们开始通过 AdaptiveRePoT（一种基于验证前缀长度的规则调度器，在恢复后缀与全新 PoT 重试之间进行路由（初步））来应对这一能力扩展模式。我们在 PlanBench Blocksworld（+1.1 到 +11.4 个百分点）以及四个开放权重模型（四个中的三个上 +3.3 到 +20.0 个百分点）上进行了复现。在我们控制的恢复基准测试 Derail-550 上，所有能够访问检查点信息的条件在 GPT-medium 上达到 >=30%，在 Gemini 上达到 >=70%，而仅依赖于错误反馈的条件 <=3.1%——这表明检查点信息（而非特定的已验证前缀尾部）才是承担负载的恢复信号。

查看 arXiv 页面（https://arxiv.org/abs/2605.30052）查看 PDF（https://arxiv.org/pdf/2605.30052）项目页面（https://huggingface.co/datasets/parsa-mz/puzzlezoo）GitHub0（https://github.com/parsa-mz/RePot）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.30052）

在您的智能体中获取此论文：

hf papers read 2605.30052

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.30052 以在此页面建立链接。

引用此论文的数据集1

parsa-mz/puzzlezoo 查看器• 约11小时前更新 • 1.7k • 3（https://huggingface.co/datasets/parsa-mz/puzzlezoo）

引用此论文的 Spaces0

尚无 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.30052 以在此页面建立链接。

包含此论文的收藏集0

尚无收藏集包含此论文

将本论文添加到一个收藏集（https://huggingface.co/new-collection）以在此页面建立链接。

相似文章

DART: 结构化工具代理的语义可恢复性

arXiv cs.AI

DART 为结构化工具代理引入了语义可恢复性，形式化了一个标准，用于确定在做出下游承诺后，本地检查点恢复是否仍然有效。在三个基于LLM的领域进行的实验表明，它正确恢复了基线本地恢复失败的所有承诺敏感案例，且安全审计未发现不安全的回滚。

面向危害感知的LLM数学推理事后替换的受保护修复方法

arXiv cs.CL

提出了一种名为GuardedRepair的框架，用于对LLM数学推理进行事后替换，通过选择性替换和安全防护来修复错误，同时最小化对正确推理轨迹的损害。在GSM8K上，该方法在未破坏正确答案的情况下，将准确率从95.60%提升至96.89%。

ReGRPO: Reflection-Augmented Policy Optimization for Tool-Using Agents

arXiv cs.AI

ReGRPO introduces a reflection-augmented policy optimization framework for tool-using vision-language agents, leveraging structured failure observations and joint optimization of reflection tokens and actions to improve recovery from tool failures, achieving state-of-the-art results on GTA and GAIA benchmarks.

GitOfThoughts：可版本控制的推理与可回放、比较和合并的智能体记忆

arXiv cs.AI

GitOfThoughts将智能体的推理树存储为git仓库，支持回放、比较和合并。该论文测试了多种记忆载体，发现记忆除了对近似重复问题外，并不能提升新问题的准确性。

@HuggingPapers：并行推理及时止损——STOP 通过读取 KV-cache 状态提前剪枝注定失败的轨迹，…

X AI KOLs Timeline

STOP 方法利用 KV-cache 状态提前剪枝注定失败的推理轨迹，token 用量降 70%，在 1.5B–20B 模型上提升 AIME 与 GPQA 准确率。

论文页面 - REPOT：通过检查点修复实现可恢复的思维程序

摘要

引用此论文的模型0

引用此论文的数据集1

parsa-mz/puzzlezoo 查看器• 约11小时前更新 • 1.7k • 3（https://huggingface.co/datasets/parsa-mz/puzzlezoo）

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

DART: 结构化工具代理的语义可恢复性

面向危害感知的LLM数学推理事后替换的受保护修复方法

ReGRPO: Reflection-Augmented Policy Optimization for Tool-Using Agents

GitOfThoughts：可版本控制的推理与可回放、比较和合并的智能体记忆

@HuggingPapers：并行推理及时止损——STOP 通过读取 KV-cache 状态提前剪枝注定失败的轨迹，…

提交意见反馈