与您协同进步:将用户修正编译为编码代理的运行时强制

Hugging Face Daily Papers 论文

摘要

TRACE 是一个技能层管道,通过从交互式编码代理中挖掘用户修正,编译为运行时检查,在减少重复偏好违反方面显著优于仅靠记忆,这一点在 ClawArena 和 MemoryArena 任务中得到验证。

交互式 LLM 代理正成为日常工作的一部分,但它们并不能可靠地随时间推移变得更容易协作:在一个会话中记住的修正,可能在下一个会话中仍然被违反。我们研究了偏好获取与偏好遵守之间的差距。在从匿名真实用户摩擦案例衍生出的任务中,Mem0 记忆仍有 57.5% 的适用偏好检查被违反。我们引入了测试时规则获取与编译执行(TRACE),这是一个即插即用的技能层管道,用于编码代理运行时,它挖掘用户修正,将其重写为原子规则,并编译为运行时检查,这些检查必须在代理完成未来任务前通过。与开发者提前编写的运行时检查不同,TRACE 技能来自用户自己的聊天修正。我们通过模拟用户参与的实验在 ClawArena 编码代理任务和基于 MemoryArena 的记忆密集型任务上评估了 TRACE。在 ClawArena 上,TRACE 将保留偏好违反率从 100.0% 降低到 37.6%(分布内任务)和从 100.0% 降低到 2.0%(分布外任务)。在基于 MemoryArena 的任务中,TRACE 将分布内违反率从 100.0% 降低到 60.5%,同时在任务通过率上匹配或超越最强的记忆基线。这些结果表明,将修正编译为运行时强制可以解决仅靠记忆无法可靠解决的重复摩擦失败模式,减少用户在未来会话中重复相同修正的需求。实验代码可在 https://github.com/YujunZhou/TRACE_exp 获取,可部署的技能可在 https://github.com/YujunZhou/tellonce 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/12 18:54

论文页面 - 在工作中更好地与你协作:将用户修正编译为编码智能体的运行时强制执行

来源:https://huggingface.co/papers/2606.13174
作者:

,

,

,

,

,

,

,

,

,

摘要

TRACE 是一个技能层流水线,能够挖掘用户修正以创建运行时检查,显著减少交互式 LLM 智能体中的偏好违反情况。

交互式 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents)正逐渐成为日常工作中的一部分,但它们并不会可靠地随着时间推移变得更容易协作:在一个会话中被记住的修正,在下一个会话中仍可能被违反。我们研究了偏好获取与偏好遵从(https://huggingface.co/papers?q=preference%20compliance)之间的这一差距。在源自匿名真实用户摩擦案例的任务中,Mem0 记忆系统仍然导致 57.5% 的适用偏好检查被违反。我们引入了测试时规则获取(https://huggingface.co/papers?q=Rule%20Acquisition)与编译强制执行(https://huggingface.co/papers?q=Compiled%20Enforcement)(TRACE),这是一个即插即用的技能层流水线,用于编码智能体运行时,它挖掘用户修正(https://huggingface.co/papers?q=user%20corrections),将其重写为原子规则,并编译成运行时检查(https://huggingface.co/papers?q=runtime%20checks),这些检查必须在智能体完成未来任务之前通过。与由开发人员预先编写的运行时检查(https://huggingface.co/papers?q=runtime%20checks)不同,TRACE 技能来自用户自己的聊天修正。我们通过模拟用户参与的实验,在 ClawArena 编码智能体任务和源自 MemoryArena 的记忆密集型任务上评估了 TRACE。在 ClawArena 上,TRACE 将保留的偏好违反从 100.0% 降低到 37.6%(在分布内(https://huggingface.co/papers?q=in-distribution)任务上),从 100.0% 降低到 2.0%(在分布外(https://huggingface.co/papers?q=out-of-distribution)任务上)。在源自 MemoryArena 的任务上,TRACE 将分布内(https://huggingface.co/papers?q=in-distribution)违反从 100.0% 降低到 60.5%,同时在任务通过(https://huggingface.co/papers?q=task%20pass)率上达到或超过最强的记忆基线。这些结果表明,将修正编译为运行时强制执行可以解决纯记忆方法无法可靠解决的一种重复摩擦失效模式,从而减少用户在未来会话中重复陈述相同修正的需求。实验代码可在 https://github.com/YujunZhou/TRACE_exp 获取,可部署的技能可在 https://github.com/YujunZhou/tellonce 获取。

查看arXiv页面(https://arxiv.org/abs/2606.13174)
查看PDF(https://arxiv.org/pdf/2606.13174)
GitHub(https://github.com/YujunZhou/tellonce)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13174)

在您的智能体中获取这篇论文:

hf papers read 2606.13174

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.13174 以链接至此页面。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.13174 以链接至此页面。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.13174 以链接至此页面。

包含此论文的收藏集 0

没有收藏集包含此论文

将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)以链接至此页面。

相似文章

@appliedcompute: https://x.com/appliedcompute/status/2052826576723841292

X AI KOLs Timeline

Applied Compute 推出 ACL-Wiki,这是一个基于其 Context Engine 构建的持续学习记忆系统,能够记录来自 Cursor、Claude Code 和 Codex 的编程智能体交互,从而构建一个不断优化的 Contextbase,在两周内将关键记忆率提升约一倍。该系统通过 MCP 服务器暴露的 Remember-Refine-Retrieve 流水线,为编程智能体提供随使用而持续改进的机构记忆。

@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题,它注入反馈,主智能体进行修正。为了量化修正与新错误之间的权衡,他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比;有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果:无关检测准确率提升 5.5%(从 84.9% 到 90.4%),相关检测提升 1.6%,且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%(从 48.7% 到 55.8%)。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比,而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要?你可以保持基础工具调用智能体不变,仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接:https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai

X AI KOLs Timeline

这篇来自苹果的研究论文介绍了“强化智能体”(Reinforced Agent)方法,通过使用专门的审稿智能体在实时执行过程中修正工具调用错误,将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升,而无需重新训练基础智能体。