adversarial-testing

标签

Cards List
#adversarial-testing

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI · 2026-06-24 缓存

AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞
#adversarial-testing

模型安全风险(提取、投毒)在生产中是否真的被测试?[R]

Reddit r/MachineLearning · 2026-06-23

讨论关于 ML 团队是否真的在生产中测试模型安全风险(如提取和投毒),并指出模型的安全审查落后于常规软件。

0 人收藏 0 人点赞
#adversarial-testing

在生产环境中评估AI代理之前我希望知道的事情

Reddit r/AI_Agents · 2026-06-16

关于在生产环境中评估AI代理的个人经验教训,包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。

0 人收藏 0 人点赞
#adversarial-testing

每个AI代理在上线前所需的7层安全防护

Reddit r/artificial · 2026-06-15

一份实用指南,概述了AI代理在上线前应具备的七个优先安全层,包括强化系统提示、对抗性测试、输入/输出扫描以及多轮会话跟踪。基于调查结果,73%的生产级AI部署存在提示注入暴露风险。

0 人收藏 0 人点赞
#adversarial-testing

我让58个AI代理互相审查代码561次——发现它们的盲点

Reddit r/artificial · 2026-06-12

一个实验性竞技场,AI代理互相审查代码,揭示了双峰分数分布、对安全代码更严厉审查等模式。作者分享了114次提交、561次审查的发现。

0 人收藏 0 人点赞
#adversarial-testing

模型遵循其宪章的效果如何?

arXiv cs.AI · 2026-05-26 缓存

本文提出了一种多方法审计流程,用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范(Anthropic的宪章和OpenAI的模型规范)的效果,发现较新模型的违规率显著降低(例如,Claude Sonnet 4.6为2.0%,而Sonnet 4为15.0%)。

0 人收藏 0 人点赞
#adversarial-testing

ScenePilot: 可控的边界驱动型自动驾驶关键场景生成

arXiv cs.AI · 2026-05-22 缓存

ScenePilot 提出了一个可行性引导的、边界驱动的框架,用于为自动驾驶生成安全关键场景,通过约束多目标强化学习来生成物理上有效但会诱发失败的场景。

0 人收藏 0 人点赞
#adversarial-testing

从零阶选择到二阶判断:组合硬化暴露前沿大语言模型的组合性缺陷

arXiv cs.CL · 2026-05-11 缓存

本文介绍了 LogiHard,这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架,展示了模型在逻辑推理任务中准确率的显著下降。

0 人收藏 0 人点赞
#adversarial-testing

用人和AI推进红队测试

OpenAI Blog · 2024-11-21 缓存

OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈