SkillHone:一种通过持久决策历史实现持续智能体技能演进的框架

Hugging Face Daily Papers 论文

摘要

SkillHone 是一种通过持久决策历史和练习反馈来提升研究和工具中介分析任务性能的持续智能体技能演进框架。它在 GAIA 和 WebWalkerQA-EN 基准测试上优于现有方法。

智能体技能通过任务特定的流程、脚本和参考来扩展语言模型智能体,但它们所针对的任务和环境在持续变化。现有方法在有限的运行中改进技能,仅保留最终产物,丢弃了后续智能体需要用来解释先前修订、评估和被拒绝的替代方案的决策历史。我们提出了 SkillHone,一种基于持久决策历史的持续智能体技能演进框架。SkillHone 将技能修订与提供练习反馈的评估方证据配对,记录诊断、修订、证据和结果的结构化历史。角色分离的子智能体在带有编辑报告的练习探针上运行候选技能,并根据先前的决策提出修订,从而实现跨会话的优化,而无需重新发现过去的理由。在深度研究基准测试中,SkillHone 无需预集成搜索堆栈即可运行,在 GAIA 上比商业支持的深度研究智能体高出 15.8 分,在 WebWalkerQA-EN 上高出 3.2 分,同时也超过了先前的技能演进方法。我们进一步将 SkillHone 部署到内部工具中介分析场景中,在七个设置上平均准确率提高了 18.8 分。
查看原文
查看缓存全文

缓存时间: 2026/07/01 11:42

论文页面 - SkillHone:通过持久决策历史实现智能体技能持续进化的框架

来源:https://huggingface.co/papers/2606.08671

摘要

SkillHone通过维护持久决策历史并融入练习反馈,使智能体技能能够持续进化,从而在研究任务和工具辅助分析任务中提升表现。

智能体技能(https://huggingface.co/papers?q=Agent%20skills)为语言模型驱动的智能体提供了任务特定的程序、脚本和参考资料,但其所针对的任务和环境不断变化。现有方法在有限运行周期内改进技能,且仅保留最终产物,丢弃了后续智能体解读先前修订、评估和已拒绝方案时所需的决策历史(https://huggingface.co/papers?q=decision%20history)。我们引入了SkillHone——一个基于持久决策历史(https://huggingface.co/papers?q=decision%20history)实现智能体技能持续进化(https://huggingface.co/papers?q=skill%20evolution)的框架。SkillHone将技能修订与评估侧的证据相结合,提供练习反馈(https://huggingface.co/papers?q=practice%20feedback),并记录结构化的诊断、修订、证据和结果历史。不同角色的子智能体在练习探针上运行候选技能(https://huggingface.co/papers?q=candidate%20skills),采用已编辑报告(https://huggingface.co/papers?q=redacted%20reporting),并根据先前决策提出修订,从而实现跨会话细化(https://huggingface.co/papers?q=cross-session%20refinement),无需重新发现过往推理逻辑。在深度研究基准测试(https://huggingface.co/papers?q=deep-research%20benchmarks)上,SkillHone无需预集成搜索栈即可运行,并在GAIA(https://huggingface.co/papers?q=GAIA)上比商业支持的深度研究智能体高出15.8个百分点,在WebWalkerQA-EN(https://huggingface.co/papers?q=WebWalkerQA-EN)上高出3.2个百分点,同时超越了先前的技能进化方法。我们还在内部的工具辅助分析(https://huggingface.co/papers?q=tool-mediated%20analysis)场景中部署了SkillHone,在七个设置中平均准确率提高了18.8个百分点。

查看arXiv页面(https://arxiv.org/abs/2606.08671)查看PDF(https://arxiv.org/pdf/2606.08671)项目页面(https://zwlijay.github.io/SkillHone-Project/)GitHub6(https://github.com/Tencent/SkillHone)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08671)

在您的智能体中获取此论文:

hf papers read 2606.08671

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型README.md中引用arxiv.org/abs/2606.08671以在此页面中链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2606.08671以在此页面中链接。

引用此论文的Space0

无Space链接此论文

请在Space README.md中引用arxiv.org/abs/2606.08671以在此页面中链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加至收藏集(https://huggingface.co/new-collection)以在此页面中链接。

相似文章

SkillHarness:为计算机使用代理驾驭安全技能

Hugging Face Daily Papers

SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。

Bayesian-Agent:后验引导的LLM代理技能进化框架

Hugging Face Daily Papers

Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。

SkillOpt:自我进化智能体技能的执行策略

Hugging Face Daily Papers

SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。