llm-judging

#llm-judging

PaperBench：评估AI复现AI研究的能力

OpenAI Blog ↗ · 2025-04-02 缓存

OpenAI推出PaperBench，一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文，包含8,316个可评分任务。表现最好的模型（Claude 3.5 Sonnet）仅达到21%的复现分数，低于人类博士级别的表现，凸显了当前自主研究能力的局限性。

0 人收藏 0 人点赞