adversarial-evaluation

#adversarial-evaluation

PseudoBench：衡量智能自动研究如何助长伪科学

arXiv cs.AI ↗ · 11小时前缓存

PseudoBench 是一个基准测试，用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现，它们极易生成具有说服力的伪科学报告，且拒绝率接近于零，这要求在部署前进行科学对齐。

0 人收藏 0 人点赞

#adversarial-evaluation

arXiv cs.AI ↗ · 昨天缓存

介绍了一种基于LLM的框架，通过自然语言查询从基于云的地理空间目录中检索遥感数据，重点关注安全性和对抗鲁棒性。该系统集成了三个代理，用于意图解释、API调用生成和风险管理。

0 人收藏 0 人点赞

#adversarial-evaluation

arXiv cs.AI ↗ · 2026-06-09 缓存

本文介绍了 MAC-Bench，一个用于评估多智能体系统程序合规性的动态对抗基准。它提出了 SERV 流水线以生成无污染场景，以及新的指标如合规加权成功率 (CSR) 和马基雅维利差距 (MG)。

0 人收藏 0 人点赞

#adversarial-evaluation

arXiv cs.LG ↗ · 2026-06-01 缓存

本文提出有界行为不可区分性，一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明，蒸馏降低了但并未消除对抗性可区分性，凸显了类别感知评估的必要性。

0 人收藏 0 人点赞

#adversarial-evaluation

arXiv cs.CL ↗ · 2026-04-22 缓存

实证研究表明，多代采样显著提升大语言模型的越狱检测能力，能发现单次审计遗漏的隐藏有害输出。

0 人收藏 0 人点赞