DecodingTrust-Agent Platform (DTap):一个针对 AI 智能体的可控交互式红队测试平台
摘要
本文介绍了 DecodingTrust-Agent Platform (DTap),这是一个用于跨多个领域评估 AI 智能体安全性的可控且交互式红队测试平台。文章还提出了 DTap-Red,一种用于发现攻击策略的自主智能体,以及 DTap-Bench,一个用于风险评估的大规模数据集。
查看缓存全文
缓存时间: 2026/05/11 07:18
论文页面 - DecodingTrust-Agent Platform (DTap):一种用于 AI 智能体的可控且交互式红队测试平台
来源:https://huggingface.co/papers/2605.04808 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
这是一个用于评估和增强 AI 智能体安全性的综合平台和自主智能体框架,通过在多个现实领域和模拟环境中进行受控的红队测试来实现。
AI 智能体(https://huggingface.co/papers?q=AI%20agents)正越来越多地被部署到各种领域中,以通过长期且高风险的动作执行来自动化复杂的工作流程。由于其高度的能力和灵活性,此类智能体引发了重大的安全和安全隐患。越来越多的现实世界事件表明,攻击者可以轻易操纵智能体执行有害行为,例如泄露 API 密钥、删除用户数据或启动未经授权的交易。评估智能体安全性本身就具有挑战性,因为智能体在动态、不可信的环境中运行,涉及外部工具、异构数据源以及频繁的用户交互。然而,用于大规模风险评估(https://huggingface.co/papers?q=large-scale%20risk%20assessment)的现实、可控且可复现的环境仍很大程度上未被探索。为了填补这一空白,我们推出了 DecodingTrust-Agent Platform(DTap),这是第一个面向 AI 智能体(https://huggingface.co/papers?q=AI%20agents)的可控且交互式红队测试(https://huggingface.co/papers?q=red-teaming)平台,涵盖 14 个现实领域和超过 50 个模拟环境(https://huggingface.co/papers?q=simulation%20environments),复现了诸如 Google Workspace、Paypal 和 Slack 等广泛使用的系统。为了在 DTap 中扩展智能体的风险评估,我们进一步提出了 DTap-Red,这是第一个自主红队测试智能体(https://huggingface.co/papers?q=autonomous%20red-teaming%20agent),它系统地探索各种注入向量(例如,提示、工具、技能、环境及其组合),并自主发现针对各种恶意目标的有效攻击策略(https://huggingface.co/papers?q=attack%20strategies)。使用 DTap-Red,我们整理了 DTap-Bench,这是一个大规模的红队测试(https://huggingface.co/papers?q=red-teaming)数据集,包含跨领域的高质量实例,每个实例都配有一个可验证的评判器,用于自动验证攻击结果。通过 DTap,我们对基于各种骨干模型构建的流行 AI 智能体(https://huggingface.co/papers?q=AI%20agents)进行了大规模评估,涵盖安全策略、风险类别和攻击策略(https://huggingface.co/papers?q=attack%20strategies),揭示了系统的脆弱性模式(https://huggingface.co/papers?q=vulnerability%20patterns),并为开发安全的下一代智能体提供了宝贵的见解。
查看 arXiv 页面(https://arxiv.org/abs/2605.04808)查看 PDF(https://arxiv.org/pdf/2605.04808)项目页面(https://decodingtrust-agent.com/)GitHub16(https://github.com/AI-secure/DecodingTrust-Agent)添加到收藏夹(https://huggingface.co/login?next=%2Fpapers%2F2605.04808)
引用此论文的模型 0
没有模型链接到这篇论文
在模型 README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。
引用此论文的数据集 0
没有数据集链接到这篇论文
在数据集 README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。
引用此论文的 Spaces 0
没有 Space 链接到这篇论文
在 Space README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。
包含此论文的收藏夹 0
没有收藏夹包含这篇论文
将此论文添加到收藏夹(https://huggingface.co/new-collection)即可从此页面进行链接。
相似文章
我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息
Arc Gate 是一个用于LLM智能体的运行时治理层,强制执行指令-权限边界。该项目已推出公开红队环境,用户可提交攻击并获取完整安全追踪信息,基准测试显示其实现了100%的不安全行为阻止率。
RIFT-Bench:面向智能体AI系统的动态红队测试方法
RIFT-Bench是一种新的基准测试方法论,用于对智能体AI系统进行动态红队测试,通过图表示统一不同架构的安全性评估,并支持自动化发现和扫描漏洞。
面向企业AI智能体的部署前保障:基于本体论的仿真与信任认证
研究人员提出了一种基于本体论的企业AI智能体部署前验证框架,结合了智能体操作包络、自动化场景生成以及可机器验证的信任证书与分级部署判定。在四个受监管行业开展的试点研究共生成1,800个测试场景,结果显示基于本体论的生成方法在监管覆盖率上显著优于基于角色的基线方法。
用人和AI推进红队测试
OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。
可信AI的去中心化评估(DATA)
可信AI的去中心化评估(DATA)是一种伦理评估工具,允许用户和社区基于领先的伦理框架(如联合国教科文组织和欧盟指南)客观地审计AI公司。