adversarial-testing

#adversarial-testing

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI ↗ · 2026-06-24 缓存

AdversaBench介绍了一个自动化LLM红队测试流程，该流程使用五个变异算子和一个由三位裁判及元裁判（用于决断平局）组成的评审团来确认失败，揭示了攻击难度因类别而异，并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞

#adversarial-testing

Reddit r/MachineLearning ↗ · 2026-06-23

讨论关于 ML 团队是否真的在生产中测试模型安全风险（如提取和投毒），并指出模型的安全审查落后于常规软件。

0 人收藏 0 人点赞

#adversarial-testing

Reddit r/AI_Agents ↗ · 2026-06-16

关于在生产环境中评估AI代理的个人经验教训，包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。

0 人收藏 0 人点赞

#adversarial-testing

Reddit r/artificial ↗ · 2026-06-15

一份实用指南，概述了AI代理在上线前应具备的七个优先安全层，包括强化系统提示、对抗性测试、输入/输出扫描以及多轮会话跟踪。基于调查结果，73%的生产级AI部署存在提示注入暴露风险。

0 人收藏 0 人点赞

#adversarial-testing

Reddit r/artificial ↗ · 2026-06-12

一个实验性竞技场，AI代理互相审查代码，揭示了双峰分数分布、对安全代码更严厉审查等模式。作者分享了114次提交、561次审查的发现。

0 人收藏 0 人点赞

#adversarial-testing

arXiv cs.AI ↗ · 2026-05-26 缓存

本文提出了一种多方法审计流程，用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范（Anthropic的宪章和OpenAI的模型规范）的效果，发现较新模型的违规率显著降低（例如，Claude Sonnet 4.6为2.0%，而Sonnet 4为15.0%）。

0 人收藏 0 人点赞

#adversarial-testing

arXiv cs.AI ↗ · 2026-05-22 缓存

ScenePilot 提出了一个可行性引导的、边界驱动的框架，用于为自动驾驶生成安全关键场景，通过约束多目标强化学习来生成物理上有效但会诱发失败的场景。

0 人收藏 0 人点赞

#adversarial-testing

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 LogiHard，这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架，展示了模型在逻辑推理任务中准确率的显著下降。

0 人收藏 0 人点赞

#adversarial-testing

OpenAI Blog ↗ · 2024-11-21 缓存

OpenAI 发布了一份白皮书，详细说明了他们对AI模型进行外部红队测试的方法，包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

0 人收藏 0 人点赞