标签
PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。
介绍了一种基于LLM的框架,通过自然语言查询从基于云的地理空间目录中检索遥感数据,重点关注安全性和对抗鲁棒性。该系统集成了三个代理,用于意图解释、API调用生成和风险管理。
本文介绍了 MAC-Bench,一个用于评估多智能体系统程序合规性的动态对抗基准。它提出了 SERV 流水线以生成无污染场景,以及新的指标如合规加权成功率 (CSR) 和马基雅维利差距 (MG)。
本文提出有界行为不可区分性,一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明,蒸馏降低了但并未消除对抗性可区分性,凸显了类别感知评估的必要性。
实证研究表明,多代采样显著提升大语言模型的越狱检测能力,能发现单次审计遗漏的隐藏有害输出。