社会科学中的AI编码智能体:方法论多样、经验一致、解释脆弱
摘要
本文评估了基于LLM的编码智能体(Claude Code和Codex)在社会科学分析中的表现,发现它们在方法论多样性方面匹配或超越人类,但在通过结论层操纵产生的解释偏差方面仍然脆弱。
arXiv:2606.11456v1 公告类型:新
摘要:将基于LLM的智能体部署到科学分析中引发了两种对立的担忧:智能体可能减少方法论的多样性,或者可能放大分析灵活性,使研究者得出动机驱动的结论。我们认为这些担忧针对的是两个经验上可分离的层面:方法选择的设计层,以及决策规则将估计值映射为实质性主张的结论层。我们通过在著名的移民与社会政策问题上对Claude Code和Codex进行20次独立执行,并以多位分析者的人类基线为基准,对这两个层面进行了测试。在设计层,Codex匹配了人类的方法论多样性,Claude Code产生的规范数量几乎是人类的三倍;两者的效果估计总体上与人类共识保持一致,且没有任何一个智能体模型与任何人类模型完全匹配。通过提示引入的反移民研究者先验重新组织了每个智能体的方法决策,但与同一数据中存在偏见的人类分析者不同,并未改变整体估计或最终结论;智能体也没有沿着人类用来使估计产生偏差的方法论轴线进行改道。在结论层,一个明确的验证性提示将Claude Code的结论从10%支持率翻转至90%支持率,同时其系数分布基本保持不变,这一操作通过规则省略而非规则软化实现。AI智能体在设计层可以媲美甚至超越人类的方法论多样性,但在结论层仍然脆弱。在我们的设定中,AI偏差的根源不在于估计,而在于解释。
查看缓存全文
缓存时间: 2026/06/11 13:37
# AI Coding Agents in Social Science: Methodologically Diverse, Empirically Consistent, Interpretively Vulnerable 来源:https://arxiv.org/html/2606.11456 Meysam Alizadeh 牛津大学 苏黎世大学 & Fabrizio Gilardi 苏黎世大学 & Mohsen Mosleh 牛津大学 ###### 摘要 基于LLM的智能体在科学分析中的应用引发了两种对立的担忧:一种是智能体可能降低方法论多样性,另一种是它们可能放大研究人员通过分析灵活性来得出动机性结论的能力。我们认为,这些担忧针对的是两个在经验上可分离的层面:**设计层**(方法论选择)和**裁决层**(将估计值映射到实质性结论的决策规则)。我们通过在一项关于移民与社会政策的知名研究中运行20次独立的Claude Code和Codex执行,并与一个多分析者人类基线进行比较,来检验这两个层面。在设计层,Codex与人类的方法论多样性相当,而Claude Code产生的规范数量几乎是人类的三倍;两者的效应估计值与人类共识大致对齐,且没有智能体模型与任何人类模型完全匹配。一个通过提示注入的“反移民”研究者先验重新组织了每个智能体的方法论决策,但与存在偏见的分析者在同一数据上的行为不同,并未改变总体估计值或最终裁决;智能体也没有沿着人类用来偏倚估计值的方法论轴线进行路径重定向。在裁决层,一个明确的确认性提示将Claude Code的裁决从10%的支持率翻转为90%,而其系数分布基本保持不变——这一效应通过省略规则而非软化规则实现。AI智能体在设计层可以与人类的方法论多样性相媲美甚至超越,但在裁决层仍然脆弱。在我们的设定中,AI偏见的来源不是估计,而是解释。 ### 意义 对LLM在科学中的应用的担忧有两个方向:一是AI同质化(智能体压缩方法论多样性),二是可信度革命方面的担忧(分析灵活性允许动机性推理)。我们认为,解决这些担忧需要区分设计和裁决两个层面。利用一项多分析者研究,我们在中性提示和有偏提示下评估了两个前沿编码智能体。这些智能体在方法论多样性上与人类相当,同时产生的效应估计值与人类接近。通过提示注入的研究者先验重新安排了方法论决策,但未改变估计值和裁决。相比之下,一个明确要求寻找支持假设结果的指令将一个智能体的裁决从10%的支持率翻转为90%,而其系数分布基本保持不变。因此,AI辅助科学的主要风险可能不是分析的同质化,而是解释约束不足。 *关键词*:科学中的AI · AI编码智能体 · AI同质化 ## 1 引言 科学发现不仅依赖于数据的可用性,还依赖于解释数据的方法多样性[1, 2]。跨学科来看,历史上进步往往源于方法论多元主义,其中相互竞争的分析策略产生替代性解释,并接受实证检验[3, 4],共同塑造科学理解[5]。这种多样性在以人类社会为研究对象时尤为重要,因为核心概念和数量通常可以广泛解释[6]。然而,能够支持发现的方法论多元主义同时也可能成为不确定性、偏见和机会主义的土壤。在我们的基准多分析者研究中,73个独立团队分析相同数据,得出的效应估计值从强负到强正不等[6],而且对这些数据的重新分析显示,研究者自身的先验观点与其模型规范和报告结论相关[7]。同样是研究者自由度的存在,既支持生产性探索,也可能通过“分叉路径花园”决策导致选择性报告和p-hacking[8, 9]。因此,方法论多样性具有两面性:当透明并在领域内聚合时是集体发现的驱动力;当集中于单一分析时则是动机性推理的载体。 基于LLM的智能体的最新进展日益支持研究工作流程中大部分环节的自动化执行,包括代码生成、已发表分析的重现以及机器学习实验[10, 11, 12]。随着这些系统越来越多地参与方法论决策,多样性的两面变得尖锐。LLM在缺乏明确正确答案的问题上往往表现出创造性多样性降低[13, 14, 15, 16],引发了对AI同质化的担忧[17, 18, 19]。同时,LLM表现出对用户框架的谄媚倾向[20, 21]以及对奖励和规范攻击的敏感性[22, 23],引发了对称性的担忧:即它们所产生的任何多样性都可能被提示框架所操控。观测性社会科学是检验这两种担忧的有用案例:诸如社会经济地位或党派归属等核心构念本质上不可观测,并允许多种竞争性操作化方案[24, 25, 26],这些方案反映了关于构念应捕捉什么的更广泛理论和规范假设[27, 28],从而为趋同和动机性分歧都留下了充足空间。 这两种担忧(多样性不足,或错误类型的多样性)通常被视为同一个问题。我们认为它们并非如此,并且区分它们是对科学工作流中的AI智能体进行有用评估的概念性步骤。我们在两个层面分析智能体行为。**设计层**包括关于测量、样本定义、模型规范、估计量选择、不确定性量化和稳健性检验的方法论选择。**裁决层**包括将经验估计映射到关于假设的实质性结论(例如,如果六个估计值中有四个为负且在p<0.05水平显著,则得出假设成立的结论),以及对决策规则输出的忠实叙述。多样性在设计层具有认识论上的生产性,因为更多方法论路径意味着多元宇宙得到了更充分的探测。但在裁决层,纪律性具有本质上的认识论重要性。没有纪律,设计层的多样性就成了可供选择的结论菜单。这两个层面在概念上是独立的:智能体可以是高多样性和高纪律性的(全面探索并事先承诺映射到结论),也可以是高多样性和低纪律性的(全面探索但事后选择结论)。在73个人类研究团队中,Breznau等人[6]发现,统计支持性测试结果的比例仅解释了叙述性结论偏差的大约三分之一,这表明即使在没有任何一个团队在两者之间进行选择的情况下,估计值和裁决也可能分离。对于AI编码智能体,提示干预可以分别针对每个层面,因此同样的区别可以直接测量而非推断。 基于[6]的多分析者数据集(其中73个独立研究团队使用相同数据测试了移民增加是否降低公众对社会政策的支持[29]),我们评估了两种前沿编码智能体(Claude Code和Codex)在同一任务上的20次独立运行。我们的实验有三个关键发现。首先,前沿编码智能体在我们的设定中并未坍缩为单一规范分析策略:Codex在方法论多样性上与人类分析者团队相当,Claude Code则显著超越,同时两者产生的效应分布和实质性结论与人类基线大致一致。这复杂化了设计层上的同质化叙事。其次,与人类研究者在该基准中呈现的模式不同,通过提示注入的研究者先验重新安排了每个智能体的方法论路径,但未改变总体估计值或最终裁决。重要的是,智能体并未沿着那些具有反移民倾向的人类研究者用来改变其估计值的方法论选择进行转变[7]。第三,设计层和裁决层在智能体主导的分析中在经验上可分离:一个指示智能体选择支持假设结果的确认性提示使Claude Code的系数分布基本保持不变,同时将其裁决从10%的支持率翻转为90%;而通过提示注入的研究者先验改变了方法论路径,但未改变两个智能体的总体估计值或最终裁决。因此,提示诱导偏见的来源不是估计,而是叙述——这是一种在仅通过数值输出评估智能体时会被遗漏的失败模式。 ## 2 结果 在呈现结果之前,我们简要总结实验设置(详见材料与方法)。每个智能体——Claude Code (Opus 4.7 1M, “Max Effort”) 和 Codex (GPT 5.5, “Extra High Intelligence”)——均完成了相同任务的20次独立运行:使用原始国际社会调查项目 (ISSP) 数据和国家层面的宏观经济指标,检验“更高移民率会降低公众对社会政策支持”这一假设。两个智能体均收到相同的自然语言提示;未使用任何智能体特定的措辞、提示或脚手架。每个智能体在一个沙盒工作目录中运行,该目录将文件系统访问限制在提供的重复材料范围内,但在沙盒内允许智能体安装Python和R包,并执行无限制的网络搜索,这模拟了原始众包研究中人类研究团队可用的资源。每次运行涵盖完整流程,包括研究设计、代码创作、执行和书面结论,并以全自动模式进行,在智能体执行期间无人干预,且无任何先前运行的内存。 参见图1说明:标准化平均边际效应 (AME) 的规范曲线,用于检验“移民降低公众对社会政策支持”的假设。每个哈希标记代表一个收敛模型,按面板内AME值沿x轴排序;颜色表示相对于零的95%置信区间(红色:负显著;灰色:包含零;深绿色:正显著)。y轴采用分段压缩,在±0.05处断开。圆圈报告每个类别中模型的团队/运行加权百分比(权重1/n_models per team/run,使每个团队/运行贡献相等)。右下角插图对比每个团队预先注册的因子网格隐含的模型数量(_planned_)与实际执行的数量(_actual_);柱状图为均值,误差线为95%置信区间。(A) 从ref.[6]的73个团队中随机抽取的20个团队(种子=42);n=342个模型。(B) Claude Code (Opus 4.7 1M, “Max Effort”),20次运行;n=1,058个模型。(C) Codex (GPT 5.5, “Extra High Intelligence”),20次运行;n=359个模型。 ### 2.1 AI智能体与人类研究者在方法论多样性上的比较 图1重现了原始众包重复倡议 (CRI) [6] 的标题可视化效果——即每个团队的标准化平均边际效应 (AME) 分布图——并将其扩展到两种前沿编码智能体。我们比较三个规模匹配的组:从73个人类研究团队中随机抽样20个团队(面板A;种子=42),20次独立运行的Claude Code(面板B),以及20次独立运行的Codex(面板C)。每个哈希标记代表一个收敛模型;面板内的模型按AME值沿x轴排序,三个面板共享相同的x轴范围(0–1,100),因此每个哈希标记块的横向范围与执行的规范总数成比例。 #### 规范工作量在智能体之间存在显著差异。 在相同任务的20次尝试中,CC交付了1,058个有效的AME估计值(均值52.9 ± 26.4 SD,中位数55,IQR 32–71,范围14–107),而CX仅交付了359个(均值17.9 ± 13.7,中位数16,IQR 14–18,范围2–58)。20个抽样人类团队的人均规范数量与CX类似(均值15.9,范围1–54)。CC与CX每次运行的平均规范数量比为2.95(bootstrap 95% CI 2.01–4.36),该差距在非参数检验中稳健(Mann–Whitney U=354, P=3.3×10⁻⁵;秩双列相关 r=0.77),在对数计数进行的Welch t检验中也稳健(t=5.05, P=1.6×10⁻⁵)。CX的相对变异性高于CC(变异系数0.76 vs. 0.50),其中有三次运行仅返回两个规范,表明CX可能在完成最低限度的存量-流量分析后终止,而CC存在一个长上尾,包括一次运行包含107个规范。 在所有三个组中,最常见的结果是95%置信区间包含零(人类、CC和CX的模型中分别占58.5%、76.8%和60.8%),这保持了Brady和Finnigan[29]的零发现。各组之间最显著的差异在于其执行规范空间的**形状**和**体量**。抽样的人类团队产生了近似对称的显著结果混合(22.1%负显著,19.4%正显著);CX产生了略微不对称但性质相似的混合(23.4%负显著,15.8%正显著);而CC产生了强烈不对称的分布(19.3%负显著,仅3.8%正显著),其1,058个估计值的大部分被拉入非显著的中央质量中。 #### 智能体计划更大;人类更接近计划。 对于每个团队和每次运行,我们计算了预先注册计划隐含的模型规范数量(n_planned)以及实际执行的数量(n_actual)。
相似文章
AI编程代理可复现社会科学发现
本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。
Claude Code: 智能体编程最佳实践
本文介绍了使用 Anthropic 的 Claude Code 这一智能体编程环境的最佳实践,重点包括管理上下文窗口、为代码提供验证标准,以及将探索与执行分离以提升性能。
当更好的编码手册仍不足:LLM政治事件编码中的预测性能与行为可靠性
本文研究了为政治事件编码的专家手册在被转化为LLM友好形式后是否更有效,并发现尽管性能提升,但在受控扰动下的行为可靠性并未完全转化。
我差点打破了将代理编码与氛围编码区分开的那条规则
一篇观点鲜明的文章认为,在代理编码系统中,不应有任何单个智能体既编写代码又判断其正确性;当作者与评判者之间的分离变得代价高昂时,解决方案是缩小评判者的范围而非合并角色,这一点通过作者名为Squid的六智能体Claude Code设置得以说明。
FrontierSmith: 大规模合成开放式编程问题
FrontierSmith 自动从封闭式任务中生成多样化的开放式编程问题,通过增强的智能体交互和训练数据合成,提升 LLM 在基准测试中的编码性能。