AI编程代理可复现社会科学发现
摘要
本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。
查看缓存全文
缓存时间: 2026/06/11 13:37
# AI 编码智能体可重现社会科学研究成果 来源: https://arxiv.org/html/2606.11447 Meysam Alizadeh 牛津大学 & Mohsen Mosleh 牛津大学 & Fabrizio Gilardi 苏黎世大学 ###### 摘要 近期轶事证据表明,AI 编码智能体在提供原始数据和代码的情况下能够重现已发表的研究结果;然而,在社会科学领域的系统性评估仍然有限。现有的评估基准存在不足,要么规模较小,要么将智能体性能与重现材料本身的问题(例如代码无法正确执行)混为一谈。本文介绍了 SocSci-Repro-Bench,这是一个包含 221 个任务的基准测试,涵盖四个学科和 13 个实质性领域。这些任务选自那些结果要么可通过现有材料完全重现、要么因数据缺失而明显无法重现的研究,从而使我们能够独立评估智能体的重现能力。通过评估两个前沿编码智能体 Claude Code 和 Codex,我们发现两者都能重现很大一部分社会科学研究成果,其中 Claude Code 的表现明显优于 Codex。这些重现率显著高于之前报道的通用型 LLM 智能体在类似重现基准上的表现。两个智能体在需要识别底层研究问题的推理任务上也表现出色,且附加分析表明,结果并非主要由记忆驱动。在复制材料之外提供原始论文 PDF 能适度提升性能,但在无法重现的任务上会引入偏差。我们还发现,通过微妙的提示框架,可以引导智能体进行确认性规范搜索。综合来看,这些发现表明,至少一些前沿编码智能体可以作为计算工作流的可靠执行者,同时也强调随着 AI 系统在科学生产中扮演更重要的角色,需要进行仔细的基准测试和提示设计。 *关*键词AI 科学 ⋅ 社会科学 ⋅ 可重现性 ## 1 引言 近年来,对能够辅助科学发现的自主人工智能(AI)系统的兴趣迅速增长 [1 (https://arxiv.org/html/2606.11447#bib.bib1),2 (https://arxiv.org/html/2606.11447#bib.bib2),3 (https://arxiv.org/html/2606.11447#bib.bib3),4 (https://arxiv.org/html/2606.11447#bib.bib4)],其应用领域涵盖文献综合、假设生成和数据分析 [5 (https://arxiv.org/html/2606.11447#bib.bib5),6 (https://arxiv.org/html/2606.11447#bib.bib6),7 (https://arxiv.org/html/2606.11447#bib.bib7),8 (https://arxiv.org/html/2606.11447#bib.bib8),4 (https://arxiv.org/html/2606.11447#bib.bib4),9 (https://arxiv.org/html/2606.11447#bib.bib9)]。然而,在这些系统能够有意义地参与科学知识生产之前,它们必须首先展示出根据原始数据和代码重现现有计算结果的能力 [10 (https://arxiv.org/html/2606.11447#bib.bib10)]。现有研究评估了通用大型语言模型(LLM)智能体(如 AutoGPT)在重现基准上的表现,初步证据表明这些智能体在可靠地执行端到端科学工作流方面存在困难 [10 (https://arxiv.org/html/2606.11447#bib.bib10),11 (https://arxiv.org/html/2606.11447#bib.bib11),12 (https://arxiv.org/html/2606.11447#bib.bib12)]。然而,近年来专门设计的 AI 编码智能体(旨在自主执行代码、管理依赖关系并调试工作流)代表着重大技术转变,其性能在很大程度上仍未得到测试,尤其是在社会科学领域,大规模的重现性评估仍然有限。 计算可重现性 [13 (https://arxiv.org/html/2606.11447#bib.bib13),14 (https://arxiv.org/html/2606.11447#bib.bib14),15 (https://arxiv.org/html/2606.11447#bib.bib15),16 (https://arxiv.org/html/2606.11447#bib.bib16),17 (https://arxiv.org/html/2606.11447#bib.bib17),18 (https://arxiv.org/html/2606.11447#bib.bib18),19 (https://arxiv.org/html/2606.11447#bib.bib19)],定义为使用作者提供的原始数据和代码重现研究结果的能力 [10 (https://arxiv.org/html/2606.11447#bib.bib10)],是评估 AI 系统能否成为科学知识生产中可靠参与者的最小但必要的基准。即使数据和代码可用,实现可重现性也常常具有挑战性,因为失败可能源于未记录的依赖关系、版本不匹配、操作系统差异或分析流程中的随机因素 [20 (https://arxiv.org/html/2606.11447#bib.bib20),21 (https://arxiv.org/html/2606.11447#bib.bib21),22 (https://arxiv.org/html/2606.11447#bib.bib22),23 (https://arxiv.org/html/2606.11447#bib.bib23),10 (https://arxiv.org/html/2606.11447#bib.bib10)]。社会科学中关于 LLM 计算可重现性的系统评估仍然有限 [24 (https://arxiv.org/html/2606.11447#bib.bib24),16 (https://arxiv.org/html/2606.11447#bib.bib16),18 (https://arxiv.org/html/2606.11447#bib.bib18),25 (https://arxiv.org/html/2606.11447#bib.bib25),26 (https://arxiv.org/html/2606.11447#bib.bib26),27 (https://arxiv.org/html/2606.11447#bib.bib27),28 (https://arxiv.org/html/2606.11447#bib.bib28),29 (https://arxiv.org/html/2606.11447#bib.bib29)]。CORE-Bench [10 (https://arxiv.org/html/2606.11447#bib.bib10)] 仅包含 28 个社会科学任务,且全部来自高度标准化的存储库(即 CodeOcean [30 (https://arxiv.org/html/2606.11447#bib.bib30)])。Repro-Bench [12 (https://arxiv.org/html/2606.11447#bib.bib12)] 虽涵盖 112 篇论文,但仅依据来自九种经济学期刊和三种政治学期刊的研究 [24 (https://arxiv.org/html/2606.11447#bib.bib24)],遗漏了社会学、心理学和传播学。此外,Repro-Bench 提供原始论文 PDF,这可能鼓励模型依赖文本线索而非独立分析,增加了确认性规范搜索的风险,即智能体调整分析选择以匹配报告结果,而非独立重现。其任务还侧重于重现每篇论文的所有主要发现,模糊了研究产物的技术可重现性与 AI 系统执行重现工作流能力之间的区别。此外,近期 AI 编码智能体在社会科学任务上的表现尚未得到检验。 在本文中,我们通过引入 SocSci-Repro-Bench 来解决这些挑战。这是一个新的基准测试,包含 54 篇论文和 221 个任务,涵盖四个学科——政治学、社会学、心理学和传播学——跨越 13 个实质性领域、五个在线存储库和三种编程语言(见方法部分)。除了广度之外,SocSci-Repro-Bench 在三个关键方面与现有基准不同。首先,据我们所知,它是第一个基于系统选择的社科论文构建的基准,而非像 CORE-Bench 和 Repro-Bench 等基准那样使用最初为其他目的汇编的现有数据集。其次,尽管基础材料涉及随机性、模拟和随机模型,但该基准仅包含那些在三次手动代码执行中产生相同结果的任务,从而使我们能够将智能体的重现能力与原始代码本身的问题分离开。该基准还包括一小部分数据访问受限的任务,以测试模型能否正确识别重现约束。第三,通过标注每项研究背后的研究问题,它能够评估更高级的推理任务,例如从代码和数据推断研究问题。 利用此基准,我们评估了两个前沿 AI 编码智能体 Claude Code 和 Codex 的重现性能。我们考察了它们重现已发表结果、从复制材料推断研究问题以及响应通过原始论文 PDF 提供的上下文信息的能力。我们进一步测试了编码智能体对谄媚性提示的敏感性,这是一种通过优先考虑与原始论文中报告结果的一致性(而非忠实地执行提供的代码)来鼓励确认性规范搜索的提示框架。综合来看,本研究系统评估了现代 AI 编码智能体能否重现社会科学实证发现,并识别了自动重现可能失败的条件。随着 AI 系统日益融入科学工作流,了解它们在重现现有研究方面的能力和局限性对于确保 AI 辅助科学的可靠性至关重要。 ## 2 Claude Code 和 Codex 在 SocSci-Repro-Bench 上的表现 在呈现结果之前,我们简要总结实验设置(更多细节见方法部分)。两个智能体在沙箱环境中评估,使用相同的基准任务和复制材料,这些环境限制外部目录访问、网络搜索,并将执行限制在提供的代码和数据集内。但是,智能体允许安装软件包。所有报告的结果均为三次独立完整评估运行的平均值。尽管评估框架相同,智能体在提示设计上略有差异。Claude Code 自主检查并执行现有代码库,同时解决环境问题。在我们的测试环境中,Codex 并未一致表现出这种自我修复能力,因此在必要时需要额外的提示指导来构建可执行的复制脚本。两个智能体均以全自动模式运行,无人为干预,且无先前运行的记忆。由于基准任务仅依据那些使用现有材料在当前形式下可重现的结果构建,报告的正确率衡量的是 AI 编码智能体在拥有完整且可执行的复制材料的条件下重现社会科学结果的能力。因此,这些结果不应被解释为对基础社会科学文献整体可重现性的估计。 ### 2.1 重现性结果 我们比较了两个 AI 编码智能体——Claude Opus 4.6(通过 Claude Code CLI)和 GPT-5.3-Codex(通过 Codex CLI)——在 54 篇社会科学论文上的计算重现性能,每篇论文在三次独立运行中进行评估(图 1 (https://arxiv.org/html/2606.11447#S2.F1))。Claude Code 在任务和论文层面均显著优于 Codex。在任务层面,Claude Code 的平均正确率为 93.4%,而 Codex 为 62.1%——相差 31.3 个百分点。这一差距在论文层面进一步扩大:一篇论文只有在所有构成任务都回答正确时才被视为完全重现:Claude Code 达到 78.0% 的论文级正确率,而 Codex 为 35.8%,相差 42.2 个百分点。两个智能体在不可重现的任务上(N=10)均达到完美准确率(100%),正确识别了所有数据或代码不足以重现的情况。与基准中的其他任务不同,这些项目需要诊断必要数据或代码的缺失,而非执行统计分析。因此,其解释与标准重现任务不同。两个模型在各次运行中表现一致,Claude Code 的任务级正确率在 92.6% 至 94.5% 之间,Codex 在 58.4% 至 65.3% 之间,表明智能体自身具有稳定且可重复的行为。即使排除 Codex 完全失败(未产生输出)的任务,其任务级正确率也仅从 62.1% 上升至 75.5%,论文级正确率从 35.8% 上升至 49.2%。这意味着大约每四个未失败的任务中就有一个仍产生错误结果,超过一半的未失败论文至少有一个错误答案。相比之下,Claude Code 的任务正确率为 93.4%,论文正确率为 78.0%,且失败率为 0%。 参见图注 图 1:Claude Code 和 Codex 在三种准确率指标和失败率上的比较。 (左)所有任务(N = 221)、不可重现任务(N = 10)和所有论文(N = 54)的准确率。两个模型在不可重现任务上均达到完美准确率,而 Claude Code 在任务级(93.4% 对比 62.1%)和论文级(78.0% 对比 35.8%)均大幅优于 Codex,其中论文只有在所有构成任务都回答正确时才被视为完全重现。(右)所有任务和论文的失败率,定义为代码因错误或智能体无法解决的未满足要求而无法完成或产生预期输出的情况。Claude Code 在所有运行中均无失败,而 Codex 的任务级失败率为 17.8%,论文级失败率为 27.0%。条形上方显示的值是三次运行的平均百分比,四舍五入至一位小数。 #### Codex 在非可移植复制代码上存在困难: 复制材料已匿名化但未做其他改动,保留了原始代码和目录结构。这些归档文件经常包含潜在的执行问题,例如缺失依赖、硬编码文件路径以及不完整的环境规范,这些都需要在成功执行前进行调整。Claude Code 在每种情况下都自主解决了此类问题,无需人工干预即可构建出经过修订、可执行的复制流水线;相比之下,Codex 未能为 17.8% 的任务和 27.0% 的论文提供答案(图 1 (https://arxiv.org/html/2606.11447#S2.F1) 的右面板),表明其自我修复能力有限。失败定义为代码因错误或智能体无法解决的未满足要求而无法完成或产生预期输出的情况。Codex 常见的失败模式包括无法处理缺失的所需 R 包、无法适应硬编码或机器特定的文件路径。环境漂移(包括版本不兼容、笔记本内核约束和已弃用的 API)进一步加剧了这些挑战,非可移植的交互依赖亦然(见附录中所有失败类别及示例的表 S1 (https://arxiv.org/html/2606.11447#A4.T1))。Claude Code 在所有三次运行中均实现零失败率,而 Codex 的失败率在 14.1% 到 20.8% 的任务之间,突显了智能体在自主解决基础设施脆弱性方面的质量差异。这些结果表明,至少对于此处评估的智能体和任务集而言,自动计算可重现的主要障碍可能不在于复制代码的分析逻辑,而在于其执行环境的脆弱性,并且足够强大的智能体可以在无需手动修复的情况下克服这一障碍。 #### Claude Code 在 Python 上表现完美且整体收益更大: 图 2 (https://arxiv.org/html/2606.11447#S2.F2) 展示了 Claude Code 和 Codex 的平均性能(三次运行),按每个复制包的主要编程语言(面板 a、b、e)以及论文发表时间是否在各自智能体训练数据截止日期之前(面板 c、d、f)进行分层。Claude Code 在所有分层中均一致优于 Codex。在任务层面(面板 a),Claude Code 在 Python(100%)、Stata(94.4%)和 R(91.9%)上均达到接近上限的平均准确率,而 Codex 的准确率明显较低且波动较大,范围从 Python 的 40.0% 到 R 的 69.1%。然而,由于该基准包含
相似文章
社会科学中的AI编码智能体:方法论多样、经验一致、解释脆弱
本文评估了基于LLM的编码智能体(Claude Code和Codex)在社会科学分析中的表现,发现它们在方法论多样性方面匹配或超越人类,但在通过结论层操纵产生的解释偏差方面仍然脆弱。
PaperBench:评估AI复现AI研究的能力
OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。
AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
AI代理能否综合科学结论?
本文介绍了SciConBench,这是一个大规模基准测试,包含9.11K个问题及专家编写的结论,用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现,即使在洁净室环境下,最佳代理的事实F1得分仅为0.337,表明可靠的综合仍然是一个开放挑战。
神经数据不再无聊:代理型AI在数据复用中的基准测试
本文对代理型AI系统在加载、理解和重新格式化碎片化的神经科学数据任务上进行基准测试,发现尽管代理在子任务上表现良好,但很少能实现完全无错误的端到端解决方案,人工监督仍然必要。