HeavySkill:作为智能体驾驭内在技能的深度思考

Papers with Code Trending 论文

摘要

HeavySkill 是一个新框架,通过并行推理和总结阶段,将复杂推理内化为模型的内在技能,其表现优于传统的编排方法,并通过强化学习实现了大语言模型的自我演进。

最近在智能体驾驭领域的进展取得了显著成功,通过协调具有记忆、技能和工具使用能力的多个代理的编排框架,在复杂推理任务中表现优异。然而,真正驱动性能提升的底层机制往往被复杂的系统设计所掩盖。在本文中,我们提出了 HeavySkill,这是一种将深度思考不仅视为编排驾驭中的最小执行单元,而且视为内化于模型参数中、驱动编排器解决复杂任务的内在技能的视角。我们将此技能识别为两阶段流水线,即并行推理随后进行总结,该流水线可在任何智能体驾驭之下运行。我们对不同领域的 HeavySkill 进行了系统的实证研究。我们的结果表明,这种内在技能始终优于传统的 Best-of-N (BoN) 策略;值得注意的是,更强的大语言模型甚至可以接近 Pass@N 的性能。至关重要的是,我们证明了作为可学习技能的深度思考的深度和宽度可以通过强化学习进一步扩展,为不依赖脆弱编排层而内化复杂推理的自我演进大语言模型提供了一条充满希望的路径。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:55

论文页面 - HeavySkill:作为智能体编排中内在能力的深度思考

来源: https://huggingface.co/papers/2605.02396 作者:

,

,

,

,

,

,

,

,

,

摘要

HeavySkill 提出了一种框架,将复杂推理内化为模型的固有技能,而非依赖外部编排,通过并行推理和总结阶段展示了卓越的性能,这些性能可以通过强化学习进一步提升。

最近在智能体编排(https://huggingface.co/papers?q=agentic%20harness)方面的进展,利用编排框架(https://huggingface.co/papers?q=orchestration%20frameworks)协调多个具备记忆(https://huggingface.co/papers?q=memory)、技能(https://huggingface.co/papers?q=skills)和工具使用(https://huggingface.co/papers?q=tool%20use)能力的智能体,在复杂推理任务(https://huggingface.co/papers?q=complex%20reasoning%20tasks)中取得了显著成功。然而,真正驱动性能提升的底层机制仍隐藏在复杂的系统设计之后。在本文中,我们提出了 HeavySkill(https://huggingface.co/papers?q=HeavySkill),这是一种新的视角,将深度思考不仅视为编排系统中的最小执行单元,更视为内化于模型参数中的内在技能,驱动编排系统解决复杂任务。我们将此技能识别为一个两阶段流水线,即并行推理(https://huggingface.co/papers?q=parallel%20reasoning)后接总结(https://huggingface.co/papers?q=summarization),该流水线可在任何智能体编排系统(https://huggingface.co/papers?q=agentic%20harness)之下运行。我们对 HeavySkill(https://huggingface.co/papers?q=HeavySkill)在不同领域进行了系统的实证研究。我们的结果表明,这种内在技能始终优于传统的 Best-of-N(https://huggingface.co/papers?q=Best-of-N)(BoN)策略;值得注意的是,更强的语言模型甚至可以达到 Pass@N(https://huggingface.co/papers?q=Pass%40N)的性能水平。至关重要的是,我们证明作为可学习技能的深度思考的广度和深度可以通过强化学习(https://huggingface.co/papers?q=reinforcement%20learning)进一步扩展,为无需依赖脆弱编排层的自我进化语言模型(https://huggingface.co/papers?q=self-evolving%20LLMs)提供了一条有前景的发展路径。

查看 arXiv 页面 (https://arxiv.org/abs/2605.02396)查看 PDF (https://arxiv.org/pdf/2605.02396)项目页面 (https://github.com/wjn1996/HeavySkill)GitHub63 (https://github.com/wjn1996/HeavySkill)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.02396)

在你的智能体中获取此论文:

hf papers read 2605\.02396

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.02396 即可从此页面进行链接。

引用此论文的数据集0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.02396 即可从此页面进行链接。

引用此论文的 Spaces0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.02396 即可从此页面进行链接。

包含此论文的合集2

相似文章

SkillFlow:流程驱动的递归技能演化用于智能体编排

arXiv cs.AI

SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。