meta-evaluation

标签

Cards List
#meta-evaluation

评估陷阱:基准设计作为理论承诺

arXiv cs.AI · 3天前 缓存

本文识别了“评估陷阱”,即人工智能基准测试无意中通过缩小“进步”的定义来稳定主导范式,并引入了Epistematics,一种元评估方法论,以确保评估标准能够区分真实能力与代理行为。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈