benchmark-design

标签

Cards List
#benchmark-design

知识工作的设计与报告基准

arXiv cs.AI · 2026-05-25 缓存

本文提出一个三步框架,用于设计和报告知识工作AI的基准,强调基准任务与实际工作活动之间的一致性。它从O*NET数据库中推导出18种工作活动,并分析了三个现有基准(GDPval、OfficeQA Pro、APEX-SWE),以展示基准分数与实际工作能力之间的差距。

0 人收藏 0 人点赞
#benchmark-design

评估陷阱:基准设计作为理论承诺

arXiv cs.AI · 2026-05-15 缓存

本文识别了“评估陷阱”,即人工智能基准测试无意中通过缩小“进步”的定义来稳定主导范式,并引入了Epistematics,一种元评估方法论,以确保评估标准能够区分真实能力与代理行为。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈