soundnessbench

标签

#soundnessbench

SoundnessBench：你的AI科学家真能区分研究创意的好坏吗？

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

SoundnessBench是一个包含1,099个机器学习研究提案的基准测试，用于评估大语言模型评判方法论有效性的能力，结果发现当前模型普遍存在乐观偏差。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈