与您协同进步：将用户修正编译为编码代理的运行时强制

Hugging Face Daily Papers 2026/06/11 00:00 论文

coding-agents llm-agents runtime-checks user-corrections preference-compliance memory trace

摘要

TRACE 是一个技能层管道，通过从交互式编码代理中挖掘用户修正，编译为运行时检查，在减少重复偏好违反方面显著优于仅靠记忆，这一点在 ClawArena 和 MemoryArena 任务中得到验证。

交互式 LLM 代理正成为日常工作的一部分，但它们并不能可靠地随时间推移变得更容易协作：在一个会话中记住的修正，可能在下一个会话中仍然被违反。我们研究了偏好获取与偏好遵守之间的差距。在从匿名真实用户摩擦案例衍生出的任务中，Mem0 记忆仍有 57.5% 的适用偏好检查被违反。我们引入了测试时规则获取与编译执行（TRACE），这是一个即插即用的技能层管道，用于编码代理运行时，它挖掘用户修正，将其重写为原子规则，并编译为运行时检查，这些检查必须在代理完成未来任务前通过。与开发者提前编写的运行时检查不同，TRACE 技能来自用户自己的聊天修正。我们通过模拟用户参与的实验在 ClawArena 编码代理任务和基于 MemoryArena 的记忆密集型任务上评估了 TRACE。在 ClawArena 上，TRACE 将保留偏好违反率从 100.0% 降低到 37.6%（分布内任务）和从 100.0% 降低到 2.0%（分布外任务）。在基于 MemoryArena 的任务中，TRACE 将分布内违反率从 100.0% 降低到 60.5%，同时在任务通过率上匹配或超越最强的记忆基线。这些结果表明，将修正编译为运行时强制可以解决仅靠记忆无法可靠解决的重复摩擦失败模式，减少用户在未来会话中重复相同修正的需求。实验代码可在 https://github.com/YujunZhou/TRACE_exp 获取，可部署的技能可在 https://github.com/YujunZhou/tellonce 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/12 18:54

论文页面 - 在工作中更好地与你协作：将用户修正编译为编码智能体的运行时强制执行

来源：https://huggingface.co/papers/2606.13174
作者：

摘要

TRACE 是一个技能层流水线，能够挖掘用户修正以创建运行时检查，显著减少交互式 LLM 智能体中的偏好违反情况。

交互式 LLM 智能体（https://huggingface.co/papers?q=LLM%20agents）正逐渐成为日常工作中的一部分，但它们并不会可靠地随着时间推移变得更容易协作：在一个会话中被记住的修正，在下一个会话中仍可能被违反。我们研究了偏好获取与偏好遵从（https://huggingface.co/papers?q=preference%20compliance）之间的这一差距。在源自匿名真实用户摩擦案例的任务中，Mem0 记忆系统仍然导致 57.5% 的适用偏好检查被违反。我们引入了测试时规则获取（https://huggingface.co/papers?q=Rule%20Acquisition）与编译强制执行（https://huggingface.co/papers?q=Compiled%20Enforcement）（TRACE），这是一个即插即用的技能层流水线，用于编码智能体运行时，它挖掘用户修正（https://huggingface.co/papers?q=user%20corrections），将其重写为原子规则，并编译成运行时检查（https://huggingface.co/papers?q=runtime%20checks），这些检查必须在智能体完成未来任务之前通过。与由开发人员预先编写的运行时检查（https://huggingface.co/papers?q=runtime%20checks）不同，TRACE 技能来自用户自己的聊天修正。我们通过模拟用户参与的实验，在 ClawArena 编码智能体任务和源自 MemoryArena 的记忆密集型任务上评估了 TRACE。在 ClawArena 上，TRACE 将保留的偏好违反从 100.0% 降低到 37.6%（在分布内（https://huggingface.co/papers?q=in-distribution）任务上），从 100.0% 降低到 2.0%（在分布外（https://huggingface.co/papers?q=out-of-distribution）任务上）。在源自 MemoryArena 的任务上，TRACE 将分布内（https://huggingface.co/papers?q=in-distribution）违反从 100.0% 降低到 60.5%，同时在任务通过（https://huggingface.co/papers?q=task%20pass）率上达到或超过最强的记忆基线。这些结果表明，将修正编译为运行时强制执行可以解决纯记忆方法无法可靠解决的一种重复摩擦失效模式，从而减少用户在未来会话中重复陈述相同修正的需求。实验代码可在 https://github.com/YujunZhou/TRACE_exp 获取，可部署的技能可在 https://github.com/YujunZhou/tellonce 获取。

查看arXiv页面（https://arxiv.org/abs/2606.13174）
查看PDF（https://arxiv.org/pdf/2606.13174）
GitHub（https://github.com/YujunZhou/tellonce）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.13174）

在您的智能体中获取这篇论文：

hf papers read 2606.13174

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.13174 以链接至此页面。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.13174 以链接至此页面。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.13174 以链接至此页面。

包含此论文的收藏集 0

没有收藏集包含此论文

将这篇论文添加到一个收藏集（https://huggingface.co/new-collection）以链接至此页面。

相似文章

TRACE：面向LLM智能体的自适应跨步证据聚合轨迹推理

arXiv cs.CL

TRACE是一个用于长周期LLM智能体轨迹的监控框架，它通过分诊-检查-判断（Triage-Inspect-Judge）循环来连接时间上相隔较远的动作证据，在规避性破坏检测任务上实现了高召回率和F1值。

@adithya_s_k: 你现在可以直接用 TRL 对模型在智能体轨迹上进行微调：Claude Code 轨迹、Codex 轨迹、OpenClaw 轨迹、Pi 轨迹……

X AI KOLs Following

TRL 现在支持对来自各种来源（如 Claude Code、Codex、OpenClaw 和 Pi）的智能体轨迹进行模型微调，这正朝着训练智能体模型的标准化栈迈进。

@appliedcompute: https://x.com/appliedcompute/status/2052826576723841292

X AI KOLs Timeline

Applied Compute 推出 ACL-Wiki，这是一个基于其 Context Engine 构建的持续学习记忆系统，能够记录来自 Cursor、Claude Code 和 Codex 的编程智能体交互，从而构建一个不断优化的 Contextbase，在两周内将关键记忆率提升约一倍。该系统通过 MCP 服务器暴露的 Remember-Refine-Retrieve 流水线，为编程智能体提供随使用而持续改进的机构记忆。

追逐公开分数：编码智能体工作流中的用户压力与评估利用