持续增强框架:面向自我改进基础智能体的在线适应

Hugging Face Daily Papers 论文

摘要

本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。

诸如 Claude Code 和 OpenHands 等编程增强框架为大型基础模型配备了工具、记忆和规划能力,但在具身智能体处理长周期、部分可观察性的决策任务方面,尚不存在等效的框架。我们首先报告了 Gemini Plays Pokemon(GPP)的实验结果。经过迭代的人机协同框架优化,GPP 成为首个在困难模式下通关《宝可梦蓝》、《宝可梦黄(遗产版)》以及在《宝可梦水晶版》中实现无败绩通关的 AI 系统。在最具挑战性的关卡中,智能体开始通过长上下文记忆迭代其自身策略,在人机协同优化的同时涌现出自我改进的信号。持续增强框架将人类完全移出这一循环:它是一种无需重置环境的具身智能体自我增强框架,将我们观察到的现象形式化并实现自动化。从极简的环境接口出发,智能体在采取动作与优化自身提示词、子智能体、技能及记忆之间交替进行,并利用过去的轨迹数据。传统的提示词优化方法需要回合重置,而持续增强框架则能在单次运行中进行在线适应。在《宝可梦红》和《宝可梦绿/绿宝石》游戏中,基于前沿模型,从空白开始的持续增强框架相比极简基线显著降低了按键操作成本,并大幅缩小了与手工专家框架之间的性能差距,且性能提升随能力增强而增加,尽管其起点相同的原始接口且无任何预设知识、手工工具或领域脚手架。最后,我们通过模型自身闭环验证:一个在线过程奖励协同学习循环,其中开源智能体通过优化框架生成的轨迹由前沿教师模型重新标注并用于更新模型,从而在无需在训练迭代间重置环境的情况下,驱动在《宝可梦红》中持续取得游戏里程碑进展。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 04:10

论文页面 - Continual Harness:面向自我改进基础智能体的在线自适应

来源:https://huggingface.co/papers/2605.09998

摘要

一种面向具身智能体的自我改进 AI 系统,能够在无需环境重置的情况下,通过持续学习自主优化自身的提示词、技能和记忆,在复杂的视频游戏中达到人类水平的表现。

诸如 Claude Code 和 OpenHands 等编码框架将基础模型与工具、记忆和规划能力相结合,但在具身智能体(https://huggingface.co/papers?q=embodied%20agents)的长视距部分可观测决策(https://huggingface.co/papers?q=long-horizon%20partial-observability%20decision-making)领域,尚不存在等效的框架。我们首先报告了 Gemini Plays Pokemon(GPP)的实验结果。通过迭代的人机协作框架优化,GPP 成为首个在困难模式下完成《宝可梦 蓝》、《宝可梦 黄》(遗产版)以及《宝可梦 水晶》且未输掉任何一场对战的 AI 系统。在最难的阶段,智能体自身开始通过长上下文记忆迭代其策略,在人机协作优化的同时涌现出自我改进信号(https://huggingface.co/papers?q=self-improvement%20signals)。

Continual Harness(https://huggingface.co/papers?q=Continual%20Harness)完全去除了人工干预:这是一种面向具身智能体(https://huggingface.co/papers?q=embodied%20agents)的无重置自我改进框架,形式化并自动化了我们所观察到的现象。仅从最小的环境接口开始,智能体交替进行行动和细化自身的提示词、子智能体、技能及记忆,并利用任何历史轨迹数据。提示词优化方法(https://huggingface.co/papers?q=Prompt-optimization%20methods)需要回合重置;而 Continual Harness(https://huggingface.co/papers?q=Continual%20Harness)则能在单次运行中实现在线自适应。在基于前沿模型(https://huggingface.co/papers?q=frontier%20models)的《宝可梦 红》和《宝可梦 绿宝石》中,从零开始的 Continual Harness(https://huggingface.co/papers?q=Continual%20Harness)相比极简基线大幅降低了按键成本,并弥补了与手工设计专家框架之间的主要差距,尽管它起始于相同的原始接口,没有任何精心策划的知识、手工定制的工具或领域辅助结构。随后,我们通过模型本身闭合了这一循环:一个在线过程奖励共学习循环(https://huggingface.co/papers?q=online%20process-reward%20co-learning%20loop),其中开源智能体通过优化框架产生的 rollout 数据由前沿教师模型重新标注,并用于更新模型,从而在无需在训练迭代之间重置环境的情况下,推动了《宝可梦 红》中持续的游戏里程碑进展。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09998) 查看 PDF (https://arxiv.org/pdf/2605.09998) 项目页面 (https://sethkarten.ai/continual-harness/) GitHub (https://github.com/sethkarten/pokeagent-speedrun) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09998)

在您的智能体中获取此论文:

hf papers read 2605.09998

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接到此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.09998 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.09998 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.09998 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

面向长时应用开发的Harness设计

Anthropic Engineering

Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。

用于长时间运行代理的有效工具

Anthropic Engineering

Anthropic 推出了一种由两部分组成的解决方案,使用初始化代理和编码代理,使 Claude Agent SDK 能够有效处理跨多个上下文窗口的长时间运行任务,并通过保持干净、增量的状态来实现。