adversarial-evaluation

标签

Cards List
#adversarial-evaluation

PseudoBench:衡量智能自动研究如何助长伪科学

arXiv cs.AI · 11小时前 缓存

PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。

0 人收藏 0 人点赞
#adversarial-evaluation

面向地理空间数据检索的风险感知LLM代理:设计与初步对抗性评估

arXiv cs.AI · 昨天 缓存

介绍了一种基于LLM的框架,通过自然语言查询从基于云的地理空间目录中检索遥感数据,重点关注安全性和对抗鲁棒性。该系统集成了三个代理,用于意图解释、API调用生成和风险管理。

0 人收藏 0 人点赞
#adversarial-evaluation

超越 Goodhart's Law:用于评估多智能体系统合规性的动态基准

arXiv cs.AI · 2026-06-09 缓存

本文介绍了 MAC-Bench,一个用于评估多智能体系统程序合规性的动态对抗基准。它提出了 SERV 流水线以生成无污染场景,以及新的指标如合规加权成功率 (CSR) 和马基雅维利差距 (MG)。

0 人收藏 0 人点赞
#adversarial-evaluation

黑盒LLM蒸馏的有界行为不可区分性

arXiv cs.LG · 2026-06-01 缓存

本文提出有界行为不可区分性,一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明,蒸馏降低了但并未消除对抗性可区分性,凸显了类别感知评估的必要性。

0 人收藏 0 人点赞
#adversarial-evaluation

多代采样越狱检测在大语言模型中的实证研究

arXiv cs.CL · 2026-04-22 缓存

实证研究表明,多代采样显著提升大语言模型的越狱检测能力,能发现单次审计遗漏的隐藏有害输出。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈