llm-judging

标签

Cards List
#llm-judging

PaperBench:评估AI复现AI研究的能力

OpenAI Blog · 2025-04-02 缓存

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈