benchmark-auditing

#benchmark-auditing

使用项目反应理论审计LLM基准测试

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了一种基于项目反应理论的方法，能够以95%的准确率检测LLM基准测试中的错误标注示例，并将错误追溯到标注启发式方法和注释问题。

0 人收藏 0 人点赞

#benchmark-auditing

arXiv cs.AI ↗ · 2026-05-14 缓存

本文介绍BenchJack，一种自动化红队系统，通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准，发现了219个不同的缺陷，并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。

0 人收藏 0 人点赞