Skill1:通过强化学习实现技能增强型智能体的统一进化
摘要
Skill1 是一个统一框架,通过共享的任务结果目标,训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明,该框架在复杂任务环境中优于现有的基线方法。
查看缓存全文
缓存时间: 2026/05/08 07:27
论文页面 - Skill1:通过强化学习实现技能增强智能体的统一进化
来源: https://huggingface.co/papers/2605.06130
摘要
Skill1 是一个统一框架,使用共享的任务-结果目标训练单个策略,以同时进化技能选择、利用和蒸馏能力,在复杂任务环境中展现出优于现有基线的性能。
持久的技能库(https://huggingface.co/papers?q=skill%20library)允许语言模型智能体在不同任务间复用成功的策略。维护这样的技能库需要三种耦合的能力。智能体选择相关技能、在执行过程中利用它,并从经验中蒸馏新技能。现有方法孤立优化这些能力或使用不同的奖励源,导致部分和冲突的进化。我们提出了 Skill1,一个训练单个策略以协同进化技能选择(https://huggingface.co/papers?q=skill%20selection)、利用和蒸馏,朝向共享任务-结果目标(https://huggingface.co/papers?q=task-outcome%20objective)的框架。该策略生成查询以搜索技能库(https://huggingface.co/papers?q=skill%20library),重新排序候选项以选择一个,基于它解决任务,并从轨迹中蒸馏新技能。所有学习都源于单一的任务-结果信号。其低频趋势赋予选择信用,高频变化赋予蒸馏信用。在 ALFWorld(https://huggingface.co/papers?q=ALFWorld)和 WebShop(https://huggingface.co/papers?q=WebShop)上的实验表明,Skill1 优于先前的基于技能和强化学习(https://huggingface.co/papers?q=reinforcement%20learning)基线。训练动态证实了这三种能力的协同进化,消融实验显示移除任何信用信号都会削弱进化效果。
查看 arXiv 页面(https://arxiv.org/abs/2605.06130)查看 PDF(https://arxiv.org/pdf/2605.06130)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06130)
在你的智能体中获取这篇论文:
hf papers read 2605\.06130
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。
引用此论文的空间 0
没有链接到此论文的空间
在空间 README.md 中引用 arxiv.org/abs/2605.06130 以在此页面进行链接。
包含此论文的合集 0
没有包含此论文的合集
将这篇论文添加至合集(https://huggingface.co/new-collection)以在此页面进行链接。
相似文章
Skill0.5:面向智能体强化学习中分布外泛化的技能内化与利用联合框架
Skill0.5是一种新颖的智能体强化学习框架,通过动态难度感知路由器将通用技能内化与任务特定技能利用相结合,改进了复杂任务环境中的分布外泛化能力,在ALFWorld和WebShop上的实验证明了其效果。
SkillOS:面向自进化智能体的技能策展学习
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。
SkillGraph:通过动态演进的技能图增强智能体的强化学习
SkillGraph 是一个框架,将可复用技能表示为有向图中的节点,使大型语言模型智能体能够通过结构化的技能检索和持续演进,更有效地处理组合任务。
Skill-RM: 通过智能体技能统一异构评估标准
Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。
SkillClaw:让技能通过智能体进化器集体进化
SkillClaw 提出了一个框架,用于多用户 LLM 智能体系统中的集体技能进化,通过聚合交互和反馈,实现自主更新和跨用户知识转移,以提升整个生态系统的性能。