HeavySkill:作为智能体驾驭内在技能的深度思考
摘要
HeavySkill 是一个新框架,通过并行推理和总结阶段,将复杂推理内化为模型的内在技能,其表现优于传统的编排方法,并通过强化学习实现了大语言模型的自我演进。
查看缓存全文
缓存时间: 2026/05/08 08:55
论文页面 - HeavySkill:作为智能体编排中内在能力的深度思考
来源: https://huggingface.co/papers/2605.02396 作者:
,
,
,
,
,
,
,
,
,
摘要
HeavySkill 提出了一种框架,将复杂推理内化为模型的固有技能,而非依赖外部编排,通过并行推理和总结阶段展示了卓越的性能,这些性能可以通过强化学习进一步提升。
最近在智能体编排(https://huggingface.co/papers?q=agentic%20harness)方面的进展,利用编排框架(https://huggingface.co/papers?q=orchestration%20frameworks)协调多个具备记忆(https://huggingface.co/papers?q=memory)、技能(https://huggingface.co/papers?q=skills)和工具使用(https://huggingface.co/papers?q=tool%20use)能力的智能体,在复杂推理任务(https://huggingface.co/papers?q=complex%20reasoning%20tasks)中取得了显著成功。然而,真正驱动性能提升的底层机制仍隐藏在复杂的系统设计之后。在本文中,我们提出了 HeavySkill(https://huggingface.co/papers?q=HeavySkill),这是一种新的视角,将深度思考不仅视为编排系统中的最小执行单元,更视为内化于模型参数中的内在技能,驱动编排系统解决复杂任务。我们将此技能识别为一个两阶段流水线,即并行推理(https://huggingface.co/papers?q=parallel%20reasoning)后接总结(https://huggingface.co/papers?q=summarization),该流水线可在任何智能体编排系统(https://huggingface.co/papers?q=agentic%20harness)之下运行。我们对 HeavySkill(https://huggingface.co/papers?q=HeavySkill)在不同领域进行了系统的实证研究。我们的结果表明,这种内在技能始终优于传统的 Best-of-N(https://huggingface.co/papers?q=Best-of-N)(BoN)策略;值得注意的是,更强的语言模型甚至可以达到 Pass@N(https://huggingface.co/papers?q=Pass%40N)的性能水平。至关重要的是,我们证明作为可学习技能的深度思考的广度和深度可以通过强化学习(https://huggingface.co/papers?q=reinforcement%20learning)进一步扩展,为无需依赖脆弱编排层的自我进化语言模型(https://huggingface.co/papers?q=self-evolving%20LLMs)提供了一条有前景的发展路径。
查看 arXiv 页面 (https://arxiv.org/abs/2605.02396)查看 PDF (https://arxiv.org/pdf/2605.02396)项目页面 (https://github.com/wjn1996/HeavySkill)GitHub63 (https://github.com/wjn1996/HeavySkill)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.02396)
在你的智能体中获取此论文:
hf papers read 2605\.02396
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.02396 即可从此页面进行链接。
引用此论文的数据集0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.02396 即可从此页面进行链接。
引用此论文的 Spaces0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.02396 即可从此页面进行链接。
包含此论文的合集2
相似文章
Skill0.5:面向智能体强化学习中分布外泛化的技能内化与利用联合框架
Skill0.5是一种新颖的智能体强化学习框架,通过动态难度感知路由器将通用技能内化与任务特定技能利用相结合,改进了复杂任务环境中的分布外泛化能力,在ALFWorld和WebShop上的实验证明了其效果。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
@dair_ai:// 面向多智能体系统的元技能演化 // 多智能体系统能否在不触及...的情况下提升编排能力?
Skill-MAS提出了一种在无需修改模型权重的情况下,为多智能体系统演化元技能以提升编排能力的方法,实现了跨任务和LLM的可迁移性能提升。
SkillFlow:流程驱动的递归技能演化用于智能体编排
SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。
技能还是跳过?通过双粒度偏好学习在智能体任务中学习选择性技能调用
提出了SelSkill,一个双粒度偏好学习框架,学习在智能体任务中何时调用技能,在ALFWorld上将任务成功率提升10.9%,在BFCL上提升5.7%。