Skill1：通过强化学习实现技能增强型智能体的统一进化

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

Skill1 是一个统一框架，通过共享的任务结果目标，训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明，该框架在复杂任务环境中优于现有的基线方法。

持久的技能库允许语言模型智能体在不同任务间复用成功的策略。维护此类库需要三种耦合的能力：智能体选择相关技能、在执行过程中利用这些技能，并从经验中蒸馏出新技能。现有方法通常孤立地优化这些能力，或使用独立的奖励来源，导致进化过程片面且相互冲突。我们提出了 Skill1，这是一个训练单一策略的框架，旨在通过共享的任务结果目标，实现技能选择、利用和蒸馏的协同进化。该策略生成查询以搜索技能库，对候选技能重新排序以选定其一，基于选定的技能解决任务，并从轨迹中蒸馏出新技能。所有学习均源自单一的任务结果信号。其低频趋势用于奖励选择，而高频变化则用于奖励蒸馏。在 ALFWorld 和 WebShop 上的实验表明，Skill1 优于先前基于技能和强化学习的基线方法。训练动态证实了这三种能力的协同进化，消融实验则显示，移除任何奖励信号都会削弱进化效果。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:27

论文页面 - Skill1：通过强化学习实现技能增强智能体的统一进化

来源: https://huggingface.co/papers/2605.06130

摘要

Skill1 是一个统一框架，使用共享的任务-结果目标训练单个策略，以同时进化技能选择、利用和蒸馏能力，在复杂任务环境中展现出优于现有基线的性能。

持久的技能库（https://huggingface.co/papers?q=skill%20library）允许语言模型智能体在不同任务间复用成功的策略。维护这样的技能库需要三种耦合的能力。智能体选择相关技能、在执行过程中利用它，并从经验中蒸馏新技能。现有方法孤立优化这些能力或使用不同的奖励源，导致部分和冲突的进化。我们提出了 Skill1，一个训练单个策略以协同进化技能选择（https://huggingface.co/papers?q=skill%20selection）、利用和蒸馏，朝向共享任务-结果目标（https://huggingface.co/papers?q=task-outcome%20objective）的框架。该策略生成查询以搜索技能库（https://huggingface.co/papers?q=skill%20library），重新排序候选项以选择一个，基于它解决任务，并从轨迹中蒸馏新技能。所有学习都源于单一的任务-结果信号。其低频趋势赋予选择信用，高频变化赋予蒸馏信用。在 ALFWorld（https://huggingface.co/papers?q=ALFWorld）和 WebShop（https://huggingface.co/papers?q=WebShop）上的实验表明，Skill1 优于先前的基于技能和强化学习（https://huggingface.co/papers?q=reinforcement%20learning）基线。训练动态证实了这三种能力的协同进化，消融实验显示移除任何信用信号都会削弱进化效果。

查看 arXiv 页面（https://arxiv.org/abs/2605.06130）查看 PDF（https://arxiv.org/pdf/2605.06130）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.06130）

在你的智能体中获取这篇论文：

hf papers read 2605\.06130

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。

引用此论文的空间 0

没有链接到此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。

包含此论文的合集 0

没有包含此论文的合集

将这篇论文添加至合集（https://huggingface.co/new-collection）以在此页面进行链接。

Skill1：通过强化学习实现技能增强型智能体的统一进化

论文页面 - Skill1：通过强化学习实现技能增强智能体的统一进化

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的合集 0

相似文章

Skill0.5：面向智能体强化学习中分布外泛化的技能内化与利用联合框架

SkillOS：面向自进化智能体的技能策展学习

SkillGraph：通过动态演进的技能图增强智能体的强化学习

Skill-RM: 通过智能体技能统一异构评估标准

SkillClaw：让技能通过智能体进化器集体进化

提交意见反馈