Adaptive Auto-Harness: 在开放式任务流上实现智能体系统部署的持续自我改进
摘要
Adaptive Auto-Harness 是一个框架,用于在开放式任务流上部署的智能体系统的持续自我改进,通过状态性多智能体进化器、harness树和人工引导钩子超越基线。
查看缓存全文
缓存时间: 2026/06/03 19:39
论文页面 - Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
来源: https://huggingface.co/papers/2606.01770
摘要
Adaptive Auto-Harness 框架通过将性能差距分解为进化损失和适应损失,利用有状态多智能体进化器、适配树和求解时分流,实现在动态任务流上的持续性能改进。
Auto-Harness 系统(https://huggingface.co/papers?q=Auto-harness%20systems)如 A-Evolve、GEPA 和 Meta-Harness,通过优化提示、技能、工具、记忆以及从执行反馈中获取的支持基础设施来改进 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents),但它们通常基于固定的离线基准进行评估。实际部署面临的是开放式任务流:任务历史无限增长,异构任务需要不同的适配框架,且问题分布随时间变化。这些挑战使得单一且频繁密集更新的适配框架变得脆弱,导致准确率在达到峰值后迅速下降。这推动了需要具备任务级适应能力的持续适配框架构建。我们提出 Adaptive Auto-Harness,一个专为此类任务流设计的框架与系统。该框架将与理想适配框架之间的差距分解为进化损失(https://huggingface.co/papers?q=evolution%20loss)和适应损失(https://huggingface.co/papers?q=adaptation%20loss)。系统通过有状态多智能体进化器(https://huggingface.co/papers?q=stateful%20multi-agent%20evolver)、带求解时分流(https://huggingface.co/papers?q=solve-time%20routing)的适配树(https://huggingface.co/papers?q=harness%20tree),以及在历史缺乏必要信号时的人工干预钩子(https://huggingface.co/papers?q=human-steering%20hooks)来应对这些损失。在预测市场、安全竞赛和事件预测的任务流上,Adaptive Auto-Harness 超越了五种现有的 Auto-Harness 基线,消融实验表明性能提升来源于更好的构建、路由或针对性的人工引导。代码可在 https://github.com/A-EVO-Lab/AdaptiveHarness 获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.01770)查看 PDF(https://arxiv.org/pdf/2606.01770)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01770)
在你的智能体中获取此论文:
hf papers read 2606.01770
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.01770 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.01770 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.01770 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
@omarsar0: // 自我束具:能自我改进的束具 // (收藏这个)我们今天依赖的大多数智能体框架…
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
持续增强框架:面向自我改进基础智能体的在线适应
本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。
面向长时应用开发的Harness设计
Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。
RewardHarness:自演进的代理式后训练框架
RewardHarness 是一个用于后训练的自演进代理框架,通过迭代优化工具和技能库来替代大规模偏好标注,在图像编辑评估基准上的表现优于 GPT-5。
HarnessForge: 联合执行框架与策略演化用于自适应智能体系统
HarnessForge 提出一种用于演化LLM智能体系统的元自适应框架,通过联合优化执行框架与推理策略,在五个基准测试上对Qwen3骨干模型实现持续改进。