dataset-inference

标签

Cards List
#dataset-inference

基准审计中的可靠性差距:分布偏移与规模作为污染检测的失效模式

arXiv cs.AI · 昨天 缓存

本文识别出分布偏移和规模约束是LLM基准审计中统计污染检测方法的关键失效模式。对27个模型评估三种范式的结果显示,在335次评估中仅有199次正确结果,表明存在系统性可靠性差距,使得这些方法无法替代透明数据溯源。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈