持续增强框架:面向自我改进基础智能体的在线适应
摘要
本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。
查看缓存全文
缓存时间: 2026/05/13 04:10
论文页面 - Continual Harness:面向自我改进基础智能体的在线自适应
来源:https://huggingface.co/papers/2605.09998
摘要
一种面向具身智能体的自我改进 AI 系统,能够在无需环境重置的情况下,通过持续学习自主优化自身的提示词、技能和记忆,在复杂的视频游戏中达到人类水平的表现。
诸如 Claude Code 和 OpenHands 等编码框架将基础模型与工具、记忆和规划能力相结合,但在具身智能体(https://huggingface.co/papers?q=embodied%20agents)的长视距部分可观测决策(https://huggingface.co/papers?q=long-horizon%20partial-observability%20decision-making)领域,尚不存在等效的框架。我们首先报告了 Gemini Plays Pokemon(GPP)的实验结果。通过迭代的人机协作框架优化,GPP 成为首个在困难模式下完成《宝可梦 蓝》、《宝可梦 黄》(遗产版)以及《宝可梦 水晶》且未输掉任何一场对战的 AI 系统。在最难的阶段,智能体自身开始通过长上下文记忆迭代其策略,在人机协作优化的同时涌现出自我改进信号(https://huggingface.co/papers?q=self-improvement%20signals)。
Continual Harness(https://huggingface.co/papers?q=Continual%20Harness)完全去除了人工干预:这是一种面向具身智能体(https://huggingface.co/papers?q=embodied%20agents)的无重置自我改进框架,形式化并自动化了我们所观察到的现象。仅从最小的环境接口开始,智能体交替进行行动和细化自身的提示词、子智能体、技能及记忆,并利用任何历史轨迹数据。提示词优化方法(https://huggingface.co/papers?q=Prompt-optimization%20methods)需要回合重置;而 Continual Harness(https://huggingface.co/papers?q=Continual%20Harness)则能在单次运行中实现在线自适应。在基于前沿模型(https://huggingface.co/papers?q=frontier%20models)的《宝可梦 红》和《宝可梦 绿宝石》中,从零开始的 Continual Harness(https://huggingface.co/papers?q=Continual%20Harness)相比极简基线大幅降低了按键成本,并弥补了与手工设计专家框架之间的主要差距,尽管它起始于相同的原始接口,没有任何精心策划的知识、手工定制的工具或领域辅助结构。随后,我们通过模型本身闭合了这一循环:一个在线过程奖励共学习循环(https://huggingface.co/papers?q=online%20process-reward%20co-learning%20loop),其中开源智能体通过优化框架产生的 rollout 数据由前沿教师模型重新标注,并用于更新模型,从而在无需在训练迭代之间重置环境的情况下,推动了《宝可梦 红》中持续的游戏里程碑进展。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09998) 查看 PDF (https://arxiv.org/pdf/2605.09998) 项目页面 (https://sethkarten.ai/continual-harness/) GitHub (https://github.com/sethkarten/pokeagent-speedrun) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09998)
在您的智能体中获取此论文:
hf papers read 2605.09998
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有链接到此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.09998 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.09998 以从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.09998 以从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
面向长时应用开发的Harness设计
Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。
RewardHarness:自演进的代理式后训练框架
RewardHarness 是一个用于后训练的自演进代理框架,通过迭代优化工具和技能库来替代大规模偏好标注,在图像编辑评估基准上的表现优于 GPT-5。
用于长时间运行代理的有效工具
Anthropic 推出了一种由两部分组成的解决方案,使用初始化代理和编码代理,使 Claude Agent SDK 能够有效处理跨多个上下文窗口的长时间运行任务,并通过保持干净、增量的状态来实现。
Claude Code 在一夜之间将我的 Agent 框架性能提升了 40%
作者介绍了“Autoharness”,这是一个利用 Claude Code 通过迭代提示词和超参数来自主优化 Agent 框架的工具。在 tau2-airline 基准测试中,该工具使性能提升了 40%。
基础智能体的进展与挑战:从脑启发智能 到演化、协作与安全系统
关于基础智能体的全面综述,提出了模块化脑启发架构,涵盖自我增强机制、多智能体协作和AI安全。