soundnessbench

标签

Cards List
#soundnessbench

SoundnessBench:你的AI科学家真能区分研究创意的好坏吗?

Hugging Face Daily Papers · 2026-05-28 缓存

SoundnessBench是一个包含1,099个机器学习研究提案的基准测试,用于评估大语言模型评判方法论有效性的能力,结果发现当前模型普遍存在乐观偏差。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈