(Human) Attention Is (Still) All You Need: 人类监督使AI辅助的社会科学研究可靠
摘要
本文提出,AI辅助社会科学研究的可靠性取决于决策架构——即认知劳动在人类与机器之间的分工方式。通过一个预先指定的析因实验,作者表明,一个无约束的多智能体基线在72%的运行中失败,而采用三个架构承诺(限制LLM仅进行推理、确定性数据/估计、以及三个人类决策门控)的组织运行失败率仅为16%。
arXiv:2606.12848v1 公告类型:新
摘要:大型语言模型(LLM)越来越多地被用于曾经由训练有素的研究人员完成的任务,包括假设生成、规格选择以及起草结论。我们认为,AI辅助研究的可靠性不仅取决于模型能力,还取决于人类与机器之间认知劳动的结构方式。我们通过人类参与的经济研究(HLER)来研究这个问题,这是一种基于预先承诺、决策排序、问责制和注意力分配的决策架构。在一个预先指定的2*4析因实验中,跨四个数据集进行了280次完整研究运行,无约束的多智能体基线在72%的运行中出现了严重故障。使用相同的底层模型、相同的智能体分解以及共享推理智能体的相同提示,HLER通过施加三个架构承诺将故障率降低到16%:LLM只进行推理而不执行数据工作,数据和估计以确定性方式处理,三个人类决策门控约束工作流程。Fisher精确检验在p<0.001水平上拒绝故障率相等的假设。可靠性提升最大的数据集是公开代表性最弱的清代人口登记册,这与基于任务的产出模型(输出质量服从弗雷歇分布)一致。一项80次运行的消融实验表明,确定性计算和人类门控各自独立贡献,并存在互补性的探索性证据。我们将HLER解读为一种研究约束框架,而非自主AI科学家:它大幅减少故障,使残留弱点更加可见,并防止不可靠的主张作为可发表的产出被提出。
查看缓存全文
缓存时间: 2026/06/12 08:53
# (人类) 注意力仍然是 (一切) 你所需要的:人类监督使 AI 辅助的社会科学研究更可靠
来源: https://arxiv.org/html/2606.12848
陈柱 中国农业大学 zhuchen@cau\.edu\.cn & 王晓璐 中国农业大学 wangxiaolu77@cau\.edu\.cn & 张伟龙 剑桥大学 weilong\.zhang@econ\.cam\.ac\.uk
###### 摘要
大型语言模型(LLMs)越来越多地承担了原本由训练有素的研究人员完成的任务:生成假设、选择规格、起草结论。这种委托是否能产生值得信赖的科学,不仅仅是关于模型能力的技术问题;它还取决于认知劳动在人与机器之间的结构方式。我们通过围绕行为科学原则(预先承诺、决策排序、问责制和注意力分配)组织 AI 辅助研究流程来研究这个问题,而不是直接测量人类心理。我们提出,AI 辅助研究的可靠性是*决策架构*的一个属性:人类和 AI 组件各自可以做出的选择的放置、排序和约束力。在一个预先指定的 \(2 \times 4\) 因子实验(\(N=280\) 次完整研究运行,跨越四个数据集)中,一个未受约束的多智能体基线在 72% 的运行中产生了严重故障;一旦通过三个架构承诺(LLMs 仅限于推理,数据和估计以确定性方式执行,三个人类决策关卡)进行组织,相同的底层模型和相同的智能体分解,以及两个分支共享的推理智能体上相同的提示,在 16% 的运行中失败(Fisher 精确检验 \(p < 0.001\))。可靠性提升最大的数据集是公共代表性最低的数据集——一个清朝人口登记册,其模式与基于任务的、具有 Fréchet 分布产出质量的生产模型一致。一项 80 次运行的消融实验表明,确定性计算和人类关卡独立地做出了贡献,并且探索性证据与互补性一致。我们将 HLER 解释为一个研究约束框架,而非自主 AI 科学家。其贡献在于急剧减少失败,使残余弱点更加可见,并防止不可靠的主张作为可发表的输出被提出。
## 1 引言
大型语言模型越来越多地承担了原本由训练有素的研究人员完成的任务:生成假设、选择规格、编写代码、起草结论\[1 (https://arxiv.org/html/2606.12848#bib.bib1),2 (https://arxiv.org/html/2606.12848#bib.bib2),3 (https://arxiv.org/html/2606.12848#bib.bib3)\],这标志着从任务级辅助向流程级研究自动化的转变\[4 (https://arxiv.org/html/2606.12848#bib.bib4)\]。这种委托能否产生值得信赖的科学,不取决于模型单独能做什么,而取决于认知劳动如何在人与机器之间分配。当概率性判断被允许支配那些需要确定性纪律的研究阶段时,那些推动了经验社会科学长达十年的可信度运动的失败模式(规格搜索、动机性解释、脆弱的因果主张)就会出现\[5 (https://arxiv.org/html/2606.12848#bib.bib5),6 (https://arxiv.org/html/2606.12848#bib.bib6),7 (https://arxiv.org/html/2606.12848#bib.bib7),8 (https://arxiv.org/html/2606.12848#bib.bib8)\]。LLMs 本质上是概率推理者。让它们端到端地在整个研究流程中运作并不会消除这些失败模式;而是会放大它们。
这种放大是结构性的,而非偶然的。人类研究者的认知带宽为它们可以利用的搜索空间大小设置了上限;LLMs 将这个上限提升了几个数量级。人类可以 p-hack 少数几个规格,而 LLM 智能体可以在数千个规格上这么做。人类偶尔会记错引用;而 LLMs 将虚构参考文献作为基线行为\[9 (https://arxiv.org/html/2606.12848#bib.bib9)\]。来自大规模人机比较的独立证据汇聚成了一致的图景:LLM 的输出比人类输出更紧密地聚集,在创造性任务分布的上尾端表现不如人类,并且在用作构思辅助工具时会同质化内容\[10 (https://arxiv.org/html/2606.12848#bib.bib10),11 (https://arxiv.org/html/2606.12848#bib.bib11),12 (https://arxiv.org/html/2606.12848#bib.bib12),13 (https://arxiv.org/html/2606.12848#bib.bib13)\]。行为科学中关于选择架构的文献长期以来一直认为,约束有偏决策者的是默认选项、排序和承诺机制,而非劝诫\[14 (https://arxiv.org/html/2606.12848#bib.bib14)\];团队科学文献同样表明,当任务复杂性和分工没有经过策略性结构化时,人机组合的表现会低于预期\[15 (https://arxiv.org/html/2606.12848#bib.bib15),16 (https://arxiv.org/html/2606.12848#bib.bib16)\]。同样的逻辑也适用于经验研究中的 AI 参与者:问题不在于模型是否对齐良好,而在于它运作其中的工作流程是否对齐良好。
因此,我们将 AI 辅助研究的可靠性视为*决策架构*\[17 (https://arxiv.org/html/2606.12848#bib.bib17),18 (https://arxiv.org/html/2606.12848#bib.bib18),19 (https://arxiv.org/html/2606.12848#bib.bib19)\]的一个属性:人类和 AI 组件各自可以做出的选择的放置、排序和约束力。我们将论证围绕三个承诺展开。首先,LLMs 处理推理密集、探索性的任务(假设生成、识别策略批判、解释),在这些任务中它们的概率灵活性是一种资产。其次,数据构建和统计估计通过确定性代码执行,在这些地方可重复性是毋庸置疑的,而人类自由裁量权本身就是一种负担。第三,人类在三个决定性关卡(研究问题、识别策略、发表)上持有权力,在这些地方,情境判断、范围条件和主张的最终责任不能被委托。一个具有 Fréchet 分布产出质量的基于任务的生产模型(方法部分)从这些承诺中得出了一个清晰的预测:人类关卡带来的可靠性红利在距离 LLM 训练分布最远的任务上应该最大,因为在这些任务上概率灵活性最不受熟悉度的约束。我们的实验不测量人类把关者的微观行为,例如花费的时间、注意力模式或多位 PI 之间的分歧。相反,它测试了一个围绕行为科学原则组织的工作流程是否能在相同的 LLM 放置在不同的决策架构中时减少失败。
我们用 \(2 \times 4\) 因子实验来测试预测。我们实现了 HLER(Human-in-the-Loop Economic Research)\[20 (https://arxiv.org/html/2606.12848#bib.bib20)\] 中的架构承诺,这是一个模块化的多智能体系统,并与一个未受约束的基线进行比较,该基线使用相同的底层语言模型、相同的智能体分解,以及两个分支共享的推理智能体上相同的提示,但允许 LLM 在没有人类关卡的情况下在所有阶段运作。四个数据集(UK Biobank、中国健康与营养调查、中国健康与养老追踪调查,以及历史性的中国多代面板数据集 - 辽宁面板)在公共科学可见性和数据结构上故意有所变化,从广泛使用的当代健康数据集到清朝人口登记册。由于 LLM 模型的训练语料库是未观测的,我们使用 PubMed 文献流行度作为数据集熟悉度的探索性代理,而不是作为 \(\theta_t\) 的直接度量。280 次运行中的每一次都会产生一个完整的研究输出,或者,在受约束的分支中,会产生一个在识别到关键缺陷时拒绝批准的有记录的人类关卡决策。输出和关卡决策由三位专家使用预先指定的评估框架独立评估,该框架涵盖可行性、识别可信度和输出一致性。
未受约束的流程在 72% 的运行中产生了严重失败。施加了架构承诺的相同流程在 16% 的运行中失败(Fisher 精确检验 \(p < 0.001\))。可靠性提升最大的数据集是公共代表性最低的数据集,即清朝 CMGPD 面板,其模式与模型一致;一项 80 次运行的消融实验表明,确定性计算和人类关卡独立地做出了贡献,并且探索性证据与互补性一致。相同的模型、相同的智能体分解,以及共享推理智能体上相同的提示:只有围绕它们的架构发生了变化,而失败率降低了四倍。因此,我们将 HLER 概念化为 AI 辅助经验科学的研究约束框架:一种通过确定性计算、明确的人类关卡和可审计的研究记录来引导 LLM 生成推理的决策架构。其含义是行为学的,而非纯粹技术性的。经验科学中富有成效的人机协作是一个决策设计问题,其中架构减少、暴露和限制失败,而非消除失败。
## 2 模型
### 2.1 HLER 架构
HLER 将经验研究流程分解为八个专门的智能体角色(数据审计、数据概况、问题生成、数据构建、识别评估、计量估计、手稿起草和评审),由一个 Orchestrator 协调,该 Orchestrator 维护一个持久的 RunState,记录活动数据集、变量定义、候选问题、模型规范和生成的产物(图 1)。每个智能体负责流程中的一个模块,并在该模块内执行所有子任务。两个设计原则将该框架与现有的自主研究系统(如 AI Scientist\[1 (https://arxiv.org/html/2606.12848#bib.bib1)\], AutoGen\[2 (https://arxiv.org/html/2606.12848#bib.bib2)\], MetaGPT\[3 (https://arxiv.org/html/2606.12848#bib.bib3)\], 和 CAMEL\[21 (https://arxiv.org/html/2606.12848#bib.bib21)\])区分开来,这些系统都允许 LLMs 在没有结构化人类监督的情况下在所有流程阶段运作。第一,智能体根据操作类型划分:*确定性*智能体(数据构建、估计)执行可复现的代码并输出它们使用的 R 脚本;*概率性*智能体(假设生成、识别批判、解释)调用 LLM。第二,三个明确的人类决策关卡(研究问题选择、识别审查和发表决策)将工作流程绑定到在下游结果可见之前做出的承诺。

图 1: HLER 决策架构。专门化智能体分解经验研究流程。紫色阴影的智能体是概率性的(基于 LLM 的推理);蓝色阴影的智能体是确定性的(可执行代码)。人类决策关卡在研究问题选择、识别策略审查和发表决策时介入。Orchestrator 维护 RunState,强制执行跨阶段一致性并生成审计追踪。
### 2.2 基于任务的 LLM 研究生产模型
上述架构提出了一个问题:*研究者有限的时间和注意力应该如何分配给特定于模块的人类关卡和对整个流程的一般监督?* 我们对此分配问题进行建模,并推导出最优份额的闭式解。该模型改编了 Acemoglu 和 Restrepo\[22 (https://arxiv.org/html/2606.12848#bib.bib22),23 (https://arxiv.org/html/2606.12848#bib.bib23)\] 的基于任务的生产框架,在该框架中,产出是通过将任务分配给具有不同比较优势的智能体(人类、机器)来产生的,并结合了贸易和劳动分配模型中使用的 Fréchet 生产率分配\[24 (https://arxiv.org/html/2606.12848#bib.bib24),25 (https://arxiv.org/html/2606.12848#bib.bib25)\],以捕捉 LLM 产出的随机、采样然后选择的特征。
#### 设定.
设 \(T = \{1, \dots, m\}\) 表示一个有限的研究任务模块集合。每个模块 \(t\) 由一个专门的 LLM 智能体负责,该智能体执行该模块中的所有子任务(数据处理、识别、稳健性、解释等);因此“模块”和“智能体”一一对应。在处理模块 \(t\) 时,智能体生成 \(n_t\) 个候选输出并选择最佳的一个。我们将每个候选的质量建模为 Fréchet 抽样,
\[
q(o_{i,t}) \overset{iid}{\sim} \mathrm{Fr\'echet}(\chi, \theta_t),
\]
(1)
具有共同的形状参数 \(\chi > 0\) 和特定于任务的尺度参数 \(\theta_t > 0\)。形状 \(\chi\) 扮演了*有效温度*的角色:低的 \(\chi\) 产生重尾质量分布(探索性的、高方差的采样,少数候选者远优于其他);高的 \(\chi\) 产生紧密聚集的低方差输出。尺度 \(\theta_t\) 捕捉了*任务与训练分布的距离*:任务在训练中代表性好的模块具有较大的 \(\theta_t\),而分布外的模块具有较小的 \(\theta_t\)。候选数量 \(n_t\) 形式化了采样然后选择的策略:根据 Fréchet 最大值稳定性,预期最佳 \(n_t\) 质量按 \(n_t^{1/\chi}\) 缩放。因此,所得的模块总产出 \(\widetilde{Q}_t\) 取决于 \(q\), \(n_t\) 和 \(\chi\),但不取决于监督分配;它依赖的对称团队假设以及完整的推导见附录 A。
#### 分配问题.
我们将研究者的总监督努力归一化为一个单位。对于每个模块(等价地,对于分配给该模块的智能体),研究者选择份额 \(\lambda_t \in [0,1]\) 用于特定于模块的*人类关卡*;剩余的 \(1 - \lambda_t\) 用于对整个流程的*一般监督*。两种途径具有不同的生产率,在关卡处为 \(\psi_A > 0\),在一般监督中为 \(\psi_Z > 0\),因此
\[
a_t = \psi_A \lambda_t, \quad \zeta_t = \psi_Z (1 - \lambda_t).
\]
(2)
一般监督 \(\zeta_t\) 乘法性地提升整体质量,而关卡投资 \(a_t\) 减少一个协调成本 \(\Gamma\),该成本随着候选数量和专业性增长:
\[
Q_t = \exp(\zeta_t) \, \widetilde{Q}_t \, \exp\{ -\Gamma(n_t, \chi, a_t) \}, \quad \Gamma(n_t, \chi, a_t) = \chi n_t e^{-a_t}.
\]
(3)
方程 (3) 采用了与定性主张一致的最简单设定:\(\Gamma\) 的单位尺度、对 \(n_t\) 的线性依赖以及关卡投资的单位弹性。更丰富的参数化(乘法尺度、凸协调成本、关卡有效性的曲率)不会改变下面的比较静态分析。
#### 最优分配.
将方程 (2) 代入方程 (3),取对数并对 \(\lambda_t\) 求导,得到一阶条件
\[
\frac{\partial \log Q_t}{\partial \lambda_t} = -\psi_Z + \chi n_t \psi_A e^{-\psi_A \lambda_t} = 0,
\]
(4)
求解得到
\[
\lambda_t^* = \frac{1}{\psi_A} \log \left( \frac{\chi n_t \psi_A}{\psi_Z} \right).
\]相似文章
AI安全需要社会科学家
OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。
请少点“类人”AI智能体
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。
我认为很多人低估了不可靠 Agent 的成本有多高
作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。
AI,掌控方向盘:人机协作问答中委托与信任的驱动因素
本文研究了人在协作问答中如何决定何时委托AI以及何时采纳AI建议,发现确认偏误驱动了次优的信任决策,例如对正确AI输出的信赖不足。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。