立即就绪:LOOP技能引擎通过一次性记录和确定性回放实现99%成功率并削减99%代币用量

arXiv cs.AI 论文

摘要

LOOP技能引擎通过记录单次LLM驱动的执行,并通过参数化无分支技能进行确定性回放,实现了周期性AI代理任务99%的成功率和99%的代币削减,消除了随机性失效和高昂成本。

arXiv:2605.14237v1 公告类型:新 摘要:将AI代理部署于重复性周期性任务时暴露出一个关键矛盾:大语言模型(LLMs)在工具编排方面提供了无与伦比的灵活性,但其固有的随机性导致不可预测的失败,且重复调用会产生高昂的代币成本。我们提出LOOP SKILL ENGINE,该系统通过一次性记录、确定性回放的范式,为周期性代理任务实现了99%的成功率和99%的代币削减的综合效果。在首次运行时,代理以完整的LLM推理执行任务,同时系统透明地拦截并记录完整的工具调用轨迹。然后,一种贪婪的长度降序模板提取算法将该记录转换为参数化、无分支的Loop Skill——一种确定性执行计划,捕获任务的功能意图,同时将时间相关和结果相关的变量参数化。所有后续执行完全绕开LLM:引擎根据实时值解析模板变量,并确定性回放工具序列。我们证明了两个定理:(1) 回放确定性——经过验证的Loop Skill的执行步骤序列在所有未来执行中保持不变;(2) 写入安全——通过可重入锁和原子文件替换,对持久化配置的并发访问被序列化。在跨越5分钟到24小时间隔的周期性代理任务基准测试中,Loop Skill引擎将月度代币消耗减少了93.3%至99.98%,执行延迟降低了8.7倍,同时消除了输出非确定性。多层降级策略保证任务永不停滞。我们将该引擎作为buddyMe开源代理框架的一部分发布。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:22

# 开箱即用:LOOP技能引擎通过一次性录制与确定性重放实现99%成功率并削减99%的Token用量

来源:https://arxiv.org/abs/2605.14237  
查看PDF(https://arxiv.org/pdf/2605.14237)

> **摘要:**  
> 将AI代理部署于周期性重复任务时,会暴露一个关键矛盾:大型语言模型(LLM)在工具编排方面具有无与伦比的灵活性,但其固有的随机性会导致不可预测的失败,且反复调用会产生高昂的Token成本。我们提出LOOP技能引擎,通过一次性录制、确定性重放的范式,将周期性代理任务的综合成功率提升至99%,同时减少99%的Token用量。在首次运行时,代理利用完整的LLM推理执行任务,而系统则透明地拦截并记录完整的工具调用轨迹。随后,一种贪婪的降序模板提取算法将此录制结果转换为参数化的、无分支的Loop技能——这是一个确定性的执行计划,它捕获任务的功能意图,同时将依赖于时间和结果变化的变量参数化。所有后续执行完全绕过LLM:引擎将模板变量与实时数值解析,并确定性重放工具序列。我们证明两个定理:(1) 重放确定性——已验证的Loop技能的步骤序列在全部未来执行中保持不变;(2) 写入安全性——通过可重入锁和原子文件替换将对持久配置的并发访问串行化。在涵盖从5分钟到24小时间隔的周期性代理任务基准测试中,Loop技能引擎将月Token消耗降低93.3%–99.98%,执行延迟减少8.7倍,同时消除输出非确定性。多层降级策略确保任务永不停滞。我们将该引擎作为buddyMe开源代理框架的一部分发布。

## 提交历史

来自:Xiaohua Wang [查看电子邮件(https://arxiv.org/show-email/fe323865/2605.14237)]  
**[v1]** 2026年5月14日,星期四,01:05:35 UTC(329 KB)

相似文章

SkillFlow:流程驱动的递归技能演化用于智能体编排

arXiv cs.AI

SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。

Formal Skill: 面向高效精准LLM智能体的可编程运行时技能

arXiv cs.AI

本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。

SkillOpt:自我进化智能体技能的执行策略

Hugging Face Daily Papers

SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。