DecodingTrust-Agent Platform (DTap)：一个针对 AI 智能体的可控交互式红队测试平台

Hugging Face Daily Papers 2026/05/06 00:00 论文

ai-agents red-teaming security simulation evaluation-benchmark autonomous-testing

摘要

本文介绍了 DecodingTrust-Agent Platform (DTap)，这是一个用于跨多个领域评估 AI 智能体安全性的可控且交互式红队测试平台。文章还提出了 DTap-Red，一种用于发现攻击策略的自主智能体，以及 DTap-Bench，一个用于风险评估的大规模数据集。

AI 智能体正越来越多地被部署到不同领域，通过长期且高风险的操作执行来自动化复杂工作流。由于其强大的能力和灵活性，此类智能体引发了重大的安全与可靠性担忧。越来越多的真实世界事件表明，攻击者可以轻易操纵智能体执行有害操作，例如泄露 API 密钥、删除用户数据或发起未经授权的交易。评估智能体安全具有内在挑战性，因为智能体在动态、不可信的环境中运行，涉及外部工具、异构数据源以及频繁的用户交互。然而，目前针对大规模风险评估的现实、可控且可复现的环境在很大程度上尚未得到充分探索。为填补这一空白，我们推出了 DecodingTrust-Agent Platform (DTap)，这是首个针对 AI 智能体的可控交互式红队测试平台，涵盖 14 个真实世界领域及超过 50 个模拟环境，这些环境复制了 Google Workspace、PayPal 和 Slack 等广泛使用的系统。为了在 DTap 中扩大对智能体的风险评估规模，我们进一步提出了 DTap-Red，这是首个自主红队智能体，它能够系统地探索多样化的注入向量（例如提示词、工具、技能、环境、组合等），并自主发现针对各种恶意目标的有效攻击策略。利用 DTap-Red，我们构建了 DTap-Bench，这是一个大规模红队测试数据集，包含跨领域的高质量样本，每个样本都配有可验证的评判器以自动验证攻击结果。通过 DTap，我们对基于各种主干模型构建的流行 AI 智能体进行了大规模评估，涵盖了安全策略、风险类别和攻击策略，揭示了系统性的漏洞模式，并为开发安全的下一代智能体提供了宝贵的见解。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:18

论文页面 - DecodingTrust-Agent Platform (DTap)：一种用于 AI 智能体的可控且交互式红队测试平台

来源：https://huggingface.co/papers/2605.04808 作者：

摘要

这是一个用于评估和增强 AI 智能体安全性的综合平台和自主智能体框架，通过在多个现实领域和模拟环境中进行受控的红队测试来实现。

AI 智能体（https://huggingface.co/papers?q=AI%20agents）正越来越多地被部署到各种领域中，以通过长期且高风险的动作执行来自动化复杂的工作流程。由于其高度的能力和灵活性，此类智能体引发了重大的安全和安全隐患。越来越多的现实世界事件表明，攻击者可以轻易操纵智能体执行有害行为，例如泄露 API 密钥、删除用户数据或启动未经授权的交易。评估智能体安全性本身就具有挑战性，因为智能体在动态、不可信的环境中运行，涉及外部工具、异构数据源以及频繁的用户交互。然而，用于大规模风险评估（https://huggingface.co/papers?q=large-scale%20risk%20assessment）的现实、可控且可复现的环境仍很大程度上未被探索。为了填补这一空白，我们推出了 DecodingTrust-Agent Platform（DTap），这是第一个面向 AI 智能体（https://huggingface.co/papers?q=AI%20agents）的可控且交互式红队测试（https://huggingface.co/papers?q=red-teaming）平台，涵盖 14 个现实领域和超过 50 个模拟环境（https://huggingface.co/papers?q=simulation%20environments），复现了诸如 Google Workspace、Paypal 和 Slack 等广泛使用的系统。为了在 DTap 中扩展智能体的风险评估，我们进一步提出了 DTap-Red，这是第一个自主红队测试智能体（https://huggingface.co/papers?q=autonomous%20red-teaming%20agent），它系统地探索各种注入向量（例如，提示、工具、技能、环境及其组合），并自主发现针对各种恶意目标的有效攻击策略（https://huggingface.co/papers?q=attack%20strategies）。使用 DTap-Red，我们整理了 DTap-Bench，这是一个大规模的红队测试（https://huggingface.co/papers?q=red-teaming）数据集，包含跨领域的高质量实例，每个实例都配有一个可验证的评判器，用于自动验证攻击结果。通过 DTap，我们对基于各种骨干模型构建的流行 AI 智能体（https://huggingface.co/papers?q=AI%20agents）进行了大规模评估，涵盖安全策略、风险类别和攻击策略（https://huggingface.co/papers?q=attack%20strategies），揭示了系统的脆弱性模式（https://huggingface.co/papers?q=vulnerability%20patterns），并为开发安全的下一代智能体提供了宝贵的见解。

查看 arXiv 页面（https://arxiv.org/abs/2605.04808）查看 PDF（https://arxiv.org/pdf/2605.04808）项目页面（https://decodingtrust-agent.com/）GitHub16（https://github.com/AI-secure/DecodingTrust-Agent）添加到收藏夹（https://huggingface.co/login?next=%2Fpapers%2F2605.04808）

引用此论文的模型 0

没有模型链接到这篇论文

在模型 README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。

引用此论文的数据集 0

没有数据集链接到这篇论文

在数据集 README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。

引用此论文的 Spaces 0

没有 Space 链接到这篇论文

在 Space README.md 中引用 arxiv.org/abs/2605.04808 即可从此页面进行链接。

包含此论文的收藏夹 0

没有收藏夹包含这篇论文

将此论文添加到收藏夹（https://huggingface.co/new-collection）即可从此页面进行链接。

DecodingTrust-Agent Platform (DTap)：一个针对 AI 智能体的可控交互式红队测试平台

论文页面 - DecodingTrust-Agent Platform (DTap)：一种用于 AI 智能体的可控且交互式红队测试平台

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏夹 0

相似文章

我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息

RIFT-Bench：面向智能体AI系统的动态红队测试方法

面向企业AI智能体的部署前保障：基于本体论的仿真与信任认证

用人和AI推进红队测试

可信AI的去中心化评估（DATA）

提交意见反馈