benchmark-validity

#benchmark-validity

当基准测试推理无法组合时：AI评估中的可投射性

arXiv cs.AI ↗ · 昨天缓存

本文识别了AI基准评估中的一个非组合原则：对相邻投射的支持并不自动保证它们组合的合理性。文章提出了一种可投射性审计，用于诊断从基准到应用论证中缺乏支持的连接，并辅以一个法律研究案例和模拟实验。

0 人收藏 0 人点赞

#benchmark-validity

arXiv cs.LG ↗ · 2026-07-07 缓存

本文识别了基于扰动的基准有效性审计中的五种失效模式，这些审计常用于AI治理。研究表明，实现细节可以悄无声息地制造结论。本文提出了一种尽职调查关口，以提高评估证据的可靠性。

0 人收藏 0 人点赞

#benchmark-validity

arXiv cs.CL ↗ · 2026-05-11 缓存

本文审计了中文多语言基准中的“翻译损耗”现象，论证其并非一个标量，而是一组依赖于估计器和具体项目的效度风险。本文引入了一种本土化压力测试，以量化英语源线索如何虚增模型得分。

0 人收藏 0 人点赞