Skill1:通过强化学习实现技能增强型智能体的统一进化

Hugging Face Daily Papers 论文

摘要

Skill1 是一个统一框架,通过共享的任务结果目标,训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明,该框架在复杂任务环境中优于现有的基线方法。

持久的技能库允许语言模型智能体在不同任务间复用成功的策略。维护此类库需要三种耦合的能力:智能体选择相关技能、在执行过程中利用这些技能,并从经验中蒸馏出新技能。现有方法通常孤立地优化这些能力,或使用独立的奖励来源,导致进化过程片面且相互冲突。我们提出了 Skill1,这是一个训练单一策略的框架,旨在通过共享的任务结果目标,实现技能选择、利用和蒸馏的协同进化。该策略生成查询以搜索技能库,对候选技能重新排序以选定其一,基于选定的技能解决任务,并从轨迹中蒸馏出新技能。所有学习均源自单一的任务结果信号。其低频趋势用于奖励选择,而高频变化则用于奖励蒸馏。在 ALFWorld 和 WebShop 上的实验表明,Skill1 优于先前基于技能和强化学习的基线方法。训练动态证实了这三种能力的协同进化,消融实验则显示,移除任何奖励信号都会削弱进化效果。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:27

论文页面 - Skill1:通过强化学习实现技能增强智能体的统一进化

来源: https://huggingface.co/papers/2605.06130

摘要

Skill1 是一个统一框架,使用共享的任务-结果目标训练单个策略,以同时进化技能选择、利用和蒸馏能力,在复杂任务环境中展现出优于现有基线的性能。

持久的技能库(https://huggingface.co/papers?q=skill%20library)允许语言模型智能体在不同任务间复用成功的策略。维护这样的技能库需要三种耦合的能力。智能体选择相关技能、在执行过程中利用它,并从经验中蒸馏新技能。现有方法孤立优化这些能力或使用不同的奖励源,导致部分和冲突的进化。我们提出了 Skill1,一个训练单个策略以协同进化技能选择(https://huggingface.co/papers?q=skill%20selection)、利用和蒸馏,朝向共享任务-结果目标(https://huggingface.co/papers?q=task-outcome%20objective)的框架。该策略生成查询以搜索技能库(https://huggingface.co/papers?q=skill%20library),重新排序候选项以选择一个,基于它解决任务,并从轨迹中蒸馏新技能。所有学习都源于单一的任务-结果信号。其低频趋势赋予选择信用,高频变化赋予蒸馏信用。在 ALFWorld(https://huggingface.co/papers?q=ALFWorld)和 WebShop(https://huggingface.co/papers?q=WebShop)上的实验表明,Skill1 优于先前的基于技能和强化学习(https://huggingface.co/papers?q=reinforcement%20learning)基线。训练动态证实了这三种能力的协同进化,消融实验显示移除任何信用信号都会削弱进化效果。

查看 arXiv 页面(https://arxiv.org/abs/2605.06130)查看 PDF(https://arxiv.org/pdf/2605.06130)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06130)

在你的智能体中获取这篇论文:

hf papers read 2605\.06130

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。

引用此论文的空间 0

没有链接到此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。

包含此论文的合集 0

没有包含此论文的合集

将这篇论文添加至合集(https://huggingface.co/new-collection)以在此页面进行链接。

相似文章

Skill-RM: 通过智能体技能统一异构评估标准

Hugging Face Daily Papers

Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。

SkillClaw:让技能通过智能体进化器集体进化

Papers with Code Trending

SkillClaw 提出了一个框架,用于多用户 LLM 智能体系统中的集体技能进化,通过聚合交互和反馈,实现自主更新和跨用户知识转移,以提升整个生态系统的性能。