SkillHarness:为计算机使用代理驾驭安全技能

Hugging Face Daily Papers 论文

摘要

SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。

计算机使用代理(CUAs)越来越多地被部署在动态交互环境中,这产生了在交互过程中持续学习技能的需求。最近的方法通过从成功轨迹中学习可重用技能来应对这一挑战。然而,这些技能学习方法大多假设环境是静态且安全的,忽略了来自对抗性交互(例如提示注入)和环境动态性(例如弹出窗口)的风险。在动态环境中,此类假设可能导致有风险的技能学习和脆弱的执行,从而损害CUA的可靠性。这就引出了一个问题:CUA如何在动态环境中安全地学习和使用技能?为了解决这个问题,我们提出了SkillHarness,这是一个在动态环境中安全地驾驭技能的框架。SkillHarness超越了静态技能抽象,将技能学习和利用建模为受安全约束的交互过程。具体来说,我们引入了技能边界(skill boundary),利用多源监督信号从交互轨迹中识别安全技能,并在整个技能生命周期中构建自我改进的安全约束。此外,SkillHarness引入了选择性技能复用,即任务被引导根据上下文进行分解,并通过选择性激活技能子集来完成。我们的实验表明,SkillHarness将所学技能的不安全率显著降低了57.1%,并在动态环境变化下持续提升了执行稳定性,优于现有基线。
查看原文
查看缓存全文

缓存时间: 2026/06/23 09:41

论文页面 - SkillHarness: 为计算机使用代理安全驾驭技能

来源:https://huggingface.co/papers/2606.20636

摘要

SkillHarness 是一个框架,通过引入安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能。

计算机使用代理 (https://huggingface.co/papers?q=Computer-Use%20Agents)(CUAs)越来越多地部署在动态交互环境中,这产生了对持续技能学习 (https://huggingface.co/papers?q=continual%20skill%20learning)的日益增长的需求。近期的方法通过从成功轨迹中学习可复用技能来应对这一挑战。然而,这些技能学习 (https://huggingface.co/papers?q=skill%20learning)方法在很大程度上假设环境和安全是静态的,忽略了来自对抗交互 (https://huggingface.co/papers?q=adversarial%20interactions)(例如提示注入)和环境动态变化 (https://huggingface.co/papers?q=environmental%20dynamics)(例如弹出窗口)的风险。在动态环境中,这样的假设可能导致危险的技能学习 (https://huggingface.co/papers?q=skill%20learning)和脆弱的执行,从而损害 CUA 的可靠性。这就提出了一个问题:CUA 如何能在动态环境 (https://huggingface.co/papers?q=dynamic%20environments)中安全地学习和使用技能?为了解决这个问题,我们提出了 SkillHarness,一个在动态环境 (https://huggingface.co/papers?q=dynamic%20environments)中安全驾驭技能的框架。SkillHarness 超越了静态技能抽象,将技能学习 (https://huggingface.co/papers?q=skill%20learning)和利用建模为一个受安全约束的交互 (https://huggingface.co/papers?q=safety-constrained%20interaction)过程。具体而言,我们引入了技能边界 (https://huggingface.co/papers?q=skill%20boundary),它利用多源监督信号 (https://huggingface.co/papers?q=multi-source%20supervision%20signals)从交互轨迹中识别安全技能,并在技能生命周期 (https://huggingface.co/papers?q=skill%20lifecycle)中构建自我改进的安全约束 (https://huggingface.co/papers?q=self-improving%20safety%20constraints)。此外,SkillHarness 引入了选择性技能复用 (https://huggingface.co/papers?q=selective%20skill%20reuse),即任务被引导根据上下文进行分解,并通过选择性激活技能子集来完成。我们的实验表明,SkillHarness 显著降低了学习技能的不安全率(降低 57.1%),并在动态环境变化下持续提高了执行稳定性,优于现有基线方法。

查看 arXiv 页面 (https://arxiv.org/abs/2606.20636) 查看 PDF (https://arxiv.org/pdf/2606.20636) GitHub1 (https://github.com/YurunChen/SkillHarness) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20636)

在你的代理中获取此论文:

hf papers read 2606.20636

没有最新的 CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.20636 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.20636 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.20636 即可从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

Self-Harness: 自我改进的Harness

Hacker News Top

Self-Harness 提出了一种新范式,其中基于LLM的智能体通过挖掘模型特定的弱点、提出框架修改,并通过回归测试验证这些修改,从而迭代地改进自身的运行框架,在Terminal-Bench-2.0上跨多个基础模型取得了显著的性能提升。

HarnessX:可组合、自适应且可演进的智能体夹具工坊

Hugging Face Daily Papers

HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。

学习Harness Engineering

Hacker News Top

Learn Harness Engineering 是一个免费课程,教授AI编码代理的工程原理,涵盖环境设计、状态管理和验证,使像Codex和Claude Code这样的代理更加可靠。