SkillHarness:为计算机使用代理驾驭安全技能
摘要
SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。
查看缓存全文
缓存时间: 2026/06/23 09:41
论文页面 - SkillHarness: 为计算机使用代理安全驾驭技能
来源:https://huggingface.co/papers/2606.20636
摘要
SkillHarness 是一个框架,通过引入安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能。
计算机使用代理 (https://huggingface.co/papers?q=Computer-Use%20Agents)(CUAs)越来越多地部署在动态交互环境中,这产生了对持续技能学习 (https://huggingface.co/papers?q=continual%20skill%20learning)的日益增长的需求。近期的方法通过从成功轨迹中学习可复用技能来应对这一挑战。然而,这些技能学习 (https://huggingface.co/papers?q=skill%20learning)方法在很大程度上假设环境和安全是静态的,忽略了来自对抗交互 (https://huggingface.co/papers?q=adversarial%20interactions)(例如提示注入)和环境动态变化 (https://huggingface.co/papers?q=environmental%20dynamics)(例如弹出窗口)的风险。在动态环境中,这样的假设可能导致危险的技能学习 (https://huggingface.co/papers?q=skill%20learning)和脆弱的执行,从而损害 CUA 的可靠性。这就提出了一个问题:CUA 如何能在动态环境 (https://huggingface.co/papers?q=dynamic%20environments)中安全地学习和使用技能?为了解决这个问题,我们提出了 SkillHarness,一个在动态环境 (https://huggingface.co/papers?q=dynamic%20environments)中安全驾驭技能的框架。SkillHarness 超越了静态技能抽象,将技能学习 (https://huggingface.co/papers?q=skill%20learning)和利用建模为一个受安全约束的交互 (https://huggingface.co/papers?q=safety-constrained%20interaction)过程。具体而言,我们引入了技能边界 (https://huggingface.co/papers?q=skill%20boundary),它利用多源监督信号 (https://huggingface.co/papers?q=multi-source%20supervision%20signals)从交互轨迹中识别安全技能,并在技能生命周期 (https://huggingface.co/papers?q=skill%20lifecycle)中构建自我改进的安全约束 (https://huggingface.co/papers?q=self-improving%20safety%20constraints)。此外,SkillHarness 引入了选择性技能复用 (https://huggingface.co/papers?q=selective%20skill%20reuse),即任务被引导根据上下文进行分解,并通过选择性激活技能子集来完成。我们的实验表明,SkillHarness 显著降低了学习技能的不安全率(降低 57.1%),并在动态环境变化下持续提高了执行稳定性,优于现有基线方法。
查看 arXiv 页面 (https://arxiv.org/abs/2606.20636) 查看 PDF (https://arxiv.org/pdf/2606.20636) GitHub1 (https://github.com/YurunChen/SkillHarness) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20636)
在你的代理中获取此论文:
hf papers read 2606.20636
没有最新的 CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.20636 即可从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.20636 即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.20636 即可从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
Self-Harness: 自我改进的Harness
Self-Harness 提出了一种新范式,其中基于LLM的智能体通过挖掘模型特定的弱点、提出框架修改,并通过回归测试验证这些修改,从而迭代地改进自身的运行框架,在Terminal-Bench-2.0上跨多个基础模型取得了显著的性能提升。
@omarsar0: // 自我束具:能自我改进的束具 // (收藏这个)我们今天依赖的大多数智能体框架…
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
@browser_use: 浏览器代理配合技能效果更佳 我们在 browser-harness 中引入了领域技能 > 访问一个领域并加载其技能 > S…
介绍 browser-harness 中的领域技能,这是一个允许浏览器代理直接使用经过认证的端点以实现更高效自动化的工具。技能会随着社区的使用而改进。
HarnessX:可组合、自适应且可演进的智能体夹具工坊
HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。
学习Harness Engineering
Learn Harness Engineering 是一个免费课程,教授AI编码代理的工程原理,涵盖环境设计、状态管理和验证,使像Codex和Claude Code这样的代理更加可靠。