DecodingTrust-Agent Platform (DTap):一个针对 AI 智能体的可控交互式红队测试平台

Hugging Face Daily Papers 论文

摘要

本文介绍了 DecodingTrust-Agent Platform (DTap),这是一个用于跨多个领域评估 AI 智能体安全性的可控且交互式红队测试平台。文章还提出了 DTap-Red,一种用于发现攻击策略的自主智能体,以及 DTap-Bench,一个用于风险评估的大规模数据集。

AI 智能体正越来越多地被部署到不同领域,通过长期且高风险的操作执行来自动化复杂工作流。由于其强大的能力和灵活性,此类智能体引发了重大的安全与可靠性担忧。越来越多的真实世界事件表明,攻击者可以轻易操纵智能体执行有害操作,例如泄露 API 密钥、删除用户数据或发起未经授权的交易。评估智能体安全具有内在挑战性,因为智能体在动态、不可信的环境中运行,涉及外部工具、异构数据源以及频繁的用户交互。然而,目前针对大规模风险评估的现实、可控且可复现的环境在很大程度上尚未得到充分探索。为填补这一空白,我们推出了 DecodingTrust-Agent Platform (DTap),这是首个针对 AI 智能体的可控交互式红队测试平台,涵盖 14 个真实世界领域及超过 50 个模拟环境,这些环境复制了 Google Workspace、PayPal 和 Slack 等广泛使用的系统。为了在 DTap 中扩大对智能体的风险评估规模,我们进一步提出了 DTap-Red,这是首个自主红队智能体,它能够系统地探索多样化的注入向量(例如提示词、工具、技能、环境、组合等),并自主发现针对各种恶意目标的有效攻击策略。利用 DTap-Red,我们构建了 DTap-Bench,这是一个大规模红队测试数据集,包含跨领域的高质量样本,每个样本都配有可验证的评判器以自动验证攻击结果。通过 DTap,我们对基于各种主干模型构建的流行 AI 智能体进行了大规模评估,涵盖了安全策略、风险类别和攻击策略,揭示了系统性的漏洞模式,并为开发安全的下一代智能体提供了宝贵的见解。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:18

论文页面 - DecodingTrust-Agent Platform (DTap):一种用于 AI 智能体的可控且交互式红队测试平台

来源:https://huggingface.co/papers/2605.04808 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

这是一个用于评估和增强 AI 智能体安全性的综合平台和自主智能体框架,通过在多个现实领域和模拟环境中进行受控的红队测试来实现。

AI 智能体(https://huggingface.co/papers?q=AI%20agents)正越来越多地被部署到各种领域中,以通过长期且高风险的动作执行来自动化复杂的工作流程。由于其高度的能力和灵活性,此类智能体引发了重大的安全和安全隐患。越来越多的现实世界事件表明,攻击者可以轻易操纵智能体执行有害行为,例如泄露 API 密钥、删除用户数据或启动未经授权的交易。评估智能体安全性本身就具有挑战性,因为智能体在动态、不可信的环境中运行,涉及外部工具、异构数据源以及频繁的用户交互。然而,用于大规模风险评估(https://huggingface.co/papers?q=large-scale%20risk%20assessment)的现实、可控且可复现的环境仍很大程度上未被探索。为了填补这一空白,我们推出了 DecodingTrust-Agent Platform(DTap),这是第一个面向 AI 智能体(https://huggingface.co/papers?q=AI%20agents)的可控且交互式红队测试(https://huggingface.co/papers?q=red-teaming)平台,涵盖 14 个现实领域和超过 50 个模拟环境(https://huggingface.co/papers?q=simulation%20environments),复现了诸如 Google Workspace、Paypal 和 Slack 等广泛使用的系统。为了在 DTap 中扩展智能体的风险评估,我们进一步提出了 DTap-Red,这是第一个自主红队测试智能体(https://huggingface.co/papers?q=autonomous%20red-teaming%20agent),它系统地探索各种注入向量(例如,提示、工具、技能、环境及其组合),并自主发现针对各种恶意目标的有效攻击策略(https://huggingface.co/papers?q=attack%20strategies)。使用 DTap-Red,我们整理了 DTap-Bench,这是一个大规模的红队测试(https://huggingface.co/papers?q=red-teaming)数据集,包含跨领域的高质量实例,每个实例都配有一个可验证的评判器,用于自动验证攻击结果。通过 DTap,我们对基于各种骨干模型构建的流行 AI 智能体(https://huggingface.co/papers?q=AI%20agents)进行了大规模评估,涵盖安全策略、风险类别和攻击策略(https://huggingface.co/papers?q=attack%20strategies),揭示了系统的脆弱性模式(https://huggingface.co/papers?q=vulnerability%20patterns),并为开发安全的下一代智能体提供了宝贵的见解。

查看 arXiv 页面(https://arxiv.org/abs/2605.04808)查看 PDF(https://arxiv.org/pdf/2605.04808)项目页面(https://decodingtrust-agent.com/)GitHub16(https://github.com/AI-secure/DecodingTrust-Agent)添加到收藏夹(https://huggingface.co/login?next=%2Fpapers%2F2605.04808)

引用此论文的模型 0

没有模型链接到这篇论文

在模型 README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。

引用此论文的数据集 0

没有数据集链接到这篇论文

在数据集 README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。

引用此论文的 Spaces 0

没有 Space 链接到这篇论文

在 Space README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。

包含此论文的收藏夹 0

没有收藏夹包含这篇论文

将此论文添加到收藏夹(https://huggingface.co/new-collection)即可从此页面进行链接。

相似文章

面向企业AI智能体的部署前保障:基于本体论的仿真与信任认证

arXiv cs.AI

研究人员提出了一种基于本体论的企业AI智能体部署前验证框架,结合了智能体操作包络、自动化场景生成以及可机器验证的信任证书与分级部署判定。在四个受监管行业开展的试点研究共生成1,800个测试场景,结果显示基于本体论的生成方法在监管覆盖率上显著优于基于角色的基线方法。

用人和AI推进红队测试

OpenAI Blog

OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

可信AI的去中心化评估(DATA)

Reddit r/artificial

可信AI的去中心化评估(DATA)是一种伦理评估工具,允许用户和社区基于领先的伦理框架(如联合国教科文组织和欧盟指南)客观地审计AI公司。