benchmark-auditing

标签

Cards List
#benchmark-auditing

使用项目反应理论审计LLM基准测试

arXiv cs.CL · 2026-06-01 缓存

本文介绍了一种基于项目反应理论的方法,能够以95%的准确率检测LLM基准测试中的错误标注示例,并将错误追溯到标注启发式方法和注释问题。

0 人收藏 0 人点赞
#benchmark-auditing

安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试

arXiv cs.AI · 2026-05-14 缓存

本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈