BraveGuard:从开放世界威胁到更安全的计算机使用代理

Hugging Face Daily Papers 论文

摘要

BraveGuard 是一个自我演化的防御框架,通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型,从而提升计算机使用代理的安全检测能力,在 AgentHazard 基准上取得了显著的准确率提升。

计算机使用代理将语言模型从文本生成扩展到与文件、终端、浏览器和外部工具的持续交互。这种转变带来了安全风险,这些风险很难从孤立的提示或最终响应中检测出来,因为危害往往通过多步执行轨迹逐步显现,而其中的单个行为在局部看来是良性的。我们提出了 BraveGuard,一个用于从开放世界威胁信号和真实代理轨迹中训练防护模型的自我演化防御框架。BraveGuard 挖掘近期研究来源,识别新兴风险和攻击模式,将其实例化为可执行的计算机使用任务,收集代理运行轨迹,并为防护模型训练导出轨迹级别的监督信息。随着新威胁和验证失败的出现,该流程可以重复执行,形成一种自适应防御循环,而非静态的、基准驱动的训练过程。我们通过训练多个防护骨干模型(包括 Qwen3-Guard 和 Llama-Guard 变体)来实例化 BraveGuard,并在轨迹级别的代理安全基准上评估生成的防护模型。BraveGuard 在计算机使用轨迹上持续提升了安全检测能力。在 AgentHazard 上,与现成的防护模型相比,其检测准确率大幅提升,在平均防护模型设置下,准确率从 38.79% 提高到 82.38%。这些结果表明,基于开放世界威胁发现和真实代理执行的防护监督,能够超越固定的分类体系和合成提示级别的数据,提升安全监控水平。BraveGuard 为应对不断变化的现实世界风险提供了适用于计算机使用代理的自适应防御的可扩展路径。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - BraveGuard:从开放世界威胁到更安全的计算机使用代理

来源:https://huggingface.co/papers/2606.01166 作者:

(作者列表保留原文的逗号和换行,但因空格问题,实际上是一串逗号分隔的英文名字,我将其保持原样)

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

BraveGuard 是一个自我进化的防御框架,它利用开放世界的威胁信号和真实的代理轨迹来训练守卫模型,从而提升计算机使用代理的安全检测能力。

计算机使用代理(https://huggingface.co/papers?q=Computer-use%20agents)将语言模型从文本生成扩展为与文件、终端、浏览器和外部工具的持续交互。这种转变带来了安全风险(https://huggingface.co/papers?q=safety%20risks),这些风险难以通过孤立的提示或最终响应来检测,因为危害往往只会在多步执行轨迹中显现,而其中的单个动作在局部看来是良性的。我们提出了 BraveGuard,一种自我进化的防御框架,用于从开放世界威胁信号(https://huggingface.co/papers?q=open-world%20threat%20signals)和真实的代理轨迹(https://huggingface.co/papers?q=agent%20trajectories)中训练守卫模型(https://huggingface.co/papers?q=guard%20models)。BraveGuard 挖掘近期研究资料,识别新兴风险和攻击模式,将它们实例化为可执行的计算机使用任务(https://huggingface.co/papers?q=executable%20computer-use%20tasks),收集代理运行结果,并推导出用于守卫模型训练的轨迹级监督(https://huggingface.co/papers?q=trajectory-level%20supervision)。当新的威胁和验证失败出现时,该管道可以重复运行,从而形成一种自适应防御循环(https://huggingface.co/papers?q=adaptive%20defense%20loop),而非静态的、以基准为驱动的训练过程。我们通过训练多个守卫骨干(https://huggingface.co/papers?q=guard%20backbones),包括 Qwen3-Guard(https://huggingface.co/papers?q=Qwen3-Guard)和 Llama-Guard(https://huggingface.co/papers?q=Llama-Guard)变体,对 BraveGuard 进行了实例化,并在轨迹级代理安全基准上评估了生成的守卫模型。BraveGuard 在计算机使用轨迹上持续提升了安全检测(https://huggingface.co/papers?q=safety%20detection)性能。在 AgentHazard(https://huggingface.co/papers?q=AgentHazard)上,与现成的守卫模型(https://huggingface.co/papers?q=guard%20models)相比,检测准确率显著提高,在平均守卫模型设置下,准确率从 38.79% 提升至 82.38%。这些结果表明,基于开放世界威胁发现和真实代理执行的守卫监督,能够超越固定的分类体系和合成的提示级数据,改进安全监控。BraveGuard 为面对不断变化的现实世界风险的计算机使用代理(https://huggingface.co/papers?q=computer-use%20agents)提供了一条可扩展的自适应防御路径。

查看 arXiv 页面(https://arxiv.org/abs/2606.01166)查看 PDF(https://arxiv.org/pdf/2606.01166)GitHub27(https://github.com/Yunhao-Feng/BraveGuard)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01166)

在你的代理中获取这篇论文:

hf papers read 2606.01166

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型1

Yunhao-Feng/BraveGuard 文本生成 • 更新于约21小时前 • 5 (https://huggingface.co/Yunhao-Feng/BraveGuard)

引用该论文的数据集0

没有数据集链接到此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.01166 以从本页链接它。

引用该论文的 Spaces0

没有 Space 链接到此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.01166 以从本页链接它。

包含该论文的收藏集0

没有包含此论文的收藏集

添加此论文到收藏集(https://huggingface.co/new-collection)以从本页链接它。

相似文章

OpenGuardrails: 一个开源的上下文感知AI护栏平台

Papers with Code Trending

OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。

Agent-World:面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

更新前沿安全框架

Google DeepMind Blog

DeepMind 发布了更新的前沿安全框架(v2.0),为前沿 AI 模型配备了更强的安全协议,包括新的关键能力等级(CCL)安全建议和加强的欺骗性对齐风险防护方法。该框架旨在防止模型权重的未授权泄露,并管理 AI 系统变得更加强大时带来的风险。