SkillHone:一种通过持久决策历史实现持续智能体技能演进的框架
摘要
SkillHone 是一种通过持久决策历史和练习反馈来提升研究和工具中介分析任务性能的持续智能体技能演进框架。它在 GAIA 和 WebWalkerQA-EN 基准测试上优于现有方法。
查看缓存全文
缓存时间: 2026/07/01 11:42
论文页面 - SkillHone:通过持久决策历史实现智能体技能持续进化的框架
来源:https://huggingface.co/papers/2606.08671
摘要
SkillHone通过维护持久决策历史并融入练习反馈,使智能体技能能够持续进化,从而在研究任务和工具辅助分析任务中提升表现。
智能体技能(https://huggingface.co/papers?q=Agent%20skills)为语言模型驱动的智能体提供了任务特定的程序、脚本和参考资料,但其所针对的任务和环境不断变化。现有方法在有限运行周期内改进技能,且仅保留最终产物,丢弃了后续智能体解读先前修订、评估和已拒绝方案时所需的决策历史(https://huggingface.co/papers?q=decision%20history)。我们引入了SkillHone——一个基于持久决策历史(https://huggingface.co/papers?q=decision%20history)实现智能体技能持续进化(https://huggingface.co/papers?q=skill%20evolution)的框架。SkillHone将技能修订与评估侧的证据相结合,提供练习反馈(https://huggingface.co/papers?q=practice%20feedback),并记录结构化的诊断、修订、证据和结果历史。不同角色的子智能体在练习探针上运行候选技能(https://huggingface.co/papers?q=candidate%20skills),采用已编辑报告(https://huggingface.co/papers?q=redacted%20reporting),并根据先前决策提出修订,从而实现跨会话细化(https://huggingface.co/papers?q=cross-session%20refinement),无需重新发现过往推理逻辑。在深度研究基准测试(https://huggingface.co/papers?q=deep-research%20benchmarks)上,SkillHone无需预集成搜索栈即可运行,并在GAIA(https://huggingface.co/papers?q=GAIA)上比商业支持的深度研究智能体高出15.8个百分点,在WebWalkerQA-EN(https://huggingface.co/papers?q=WebWalkerQA-EN)上高出3.2个百分点,同时超越了先前的技能进化方法。我们还在内部的工具辅助分析(https://huggingface.co/papers?q=tool-mediated%20analysis)场景中部署了SkillHone,在七个设置中平均准确率提高了18.8个百分点。
查看arXiv页面(https://arxiv.org/abs/2606.08671)查看PDF(https://arxiv.org/pdf/2606.08671)项目页面(https://zwlijay.github.io/SkillHone-Project/)GitHub6(https://github.com/Tencent/SkillHone)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08671)
在您的智能体中获取此论文:
hf papers read 2606.08671
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
请在模型README.md中引用arxiv.org/abs/2606.08671以在此页面中链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集README.md中引用arxiv.org/abs/2606.08671以在此页面中链接。
引用此论文的Space0
无Space链接此论文
请在Space README.md中引用arxiv.org/abs/2606.08671以在此页面中链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加至收藏集(https://huggingface.co/new-collection)以在此页面中链接。
相似文章
SkillHarness:为计算机使用代理驾驭安全技能
SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。
Bayesian-Agent:后验引导的LLM代理技能进化框架
Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
SkillFlow:自主智能体终身技能发现与演化基准测试
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。
SkillHarm:通过自动化构建的生命周期感知技能攻击
SkillHarm 是一个用于评估技能使用生命周期中基于技能的攻击的基准,揭示了当前AI代理的高度脆弱性(攻击成功率高达86.3%),并引入了通过AutoSkillHarm实现的自动化攻击构建。