大型语言模型能否革新调查研究?以灾害防备响应的实验为例

arXiv cs.AI 论文

摘要

本文提出一个五阶段框架,将大型语言模型整合到调查研究中,以应对回复率下降、样本偏差和欺诈性完成等问题。基于2024年米尔顿飓风调查数据,作者提出了一种理论知情的LLM(A-TLM),在缺失数据场景中优于经典插补方法,并通过基于事实的拒答机制展示了可控的幻觉风险。

arXiv:2605.19229v1 公告类型:新 摘要:调查研究面临着日益严峻的结构性挑战:回复率下降、样本偏差、高风险受访者的分块缺失以及在线面板中AI辅助的欺诈性完成。大型语言模型(LLM)被提出作为一种解决方案,但在整个调查工作流程中的严格评估仍然很少,尤其是在数据质量至关重要的灾害情境中。我们提出并评估了一个包含五个阶段的LLM整合框架,涵盖问卷设计、样本选择、试点测试、缺失数据插补和收集后分析,并以2024年佛罗里达州居民的米尔顿飓风防备调查(n=946)作为共享实证测试平台。我们引入了一个受保护动机理论(PMT)约束的共现知识图谱,并开发了七种LLM配置,涵盖零样本推理、检索增强基线和新颖的理论知情变体。我们提出的锚定边际理论知情LLM(A-TLM)在灾害相关的分块MNAR条件下,在RMSE上优于所有三个经典插补基线(IPW/MI、MICE+PMM、missForest)(S4 RMSE 1.439 vs. 次优的1.496),同时实现了接近零的有符号偏差(-0.121),而随机森林插补器产生了最大的绝对偏差(-0.631)。围绕PMT因果结构组织检索并将所有证据整合到单个模型调用中,优于非结构化检索和分阶段顺序推理(MAE 0.993 vs. 标准RAG的1.097)。我们记录到,接近零的总体偏差可能掩盖对立的分组误差,并提出了按组分层的偏差审计作为报告标准。一个检索约束的知识图谱聊天机器人展示了幻觉可以通过基于事实的拒答在架构上进行管理。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:28

# 1. 引言 来源:https://arxiv.org/html/2605.19229 大型语言模型能否彻底改变调查研究?基于灾害准备响应的实验

王艳a∗, 郭子怡b, Christopher McCartyc  
a佛罗里达大学城市与区域规划系及佛罗里达建筑环境韧性研究所,P.O. Box 115706, Gainesville, FL 32611。[email protected]  
∗通讯作者  
b佛罗里达大学城市与区域规划系及佛罗里达建筑环境韧性研究所,1480 Inner Rd., Gainesville, FL 32611。[email protected]  
c佛罗里达大学文理学院、经济与商业研究局,Suite 150, 720 SW 2nd Ave., Gainesville, FL 32611。[email protected]  

###### 摘要

调查研究面临着日益严峻的结构性挑战:回复率下降、样本偏差、集中在最脆弱受访者中的块状缺失,以及在线样本中由人工智能辅助的欺诈性完成问卷浪潮。大型语言模型(LLMs)被提出作为一种补救措施,然而,对其在完整调查研究工作流程中表现的严格实证评估仍然稀少,尤其是在数据质量和人口覆盖率最为关键的灾害情境下。我们提出并评估了一个用于LLM集成于调查研究的五阶段框架,涵盖问卷设计、样本选择、预测试、缺失数据插补和收集后分析,并以2024年飓风米尔顿佛罗里达居民准备度调查(n=946)作为共享实证测试平台(Wang et al., 2026 (https://arxiv.org/html/2605.19229#bib.bib60))。我们引入了一个保护动机理论(PMT)约束的共现知识图谱,并利用它开发了七种LLM配置,涵盖零样本推理、检索增强基线和新颖的理论指导变体。我们提出的锚定边际理论指导LLM(A-TLM)在灾害相关的非随机缺失(NMAR)块状缺失条件下,在均方根误差上优于所有三种经典插补基线(IPW/MI、MICE+PMM和missForest)(S4 RMSE 1.439,而次优方法为1.496),同时实现接近零的总体符号偏差(−0.121-0.121),而随机森林插补器产生的绝对偏差最大(−0.631-0.631)。围绕PMT因果结构组织检索并将所有证据整合到一次模型调用中,优于非结构化的最近邻检索和分阶段顺序推理(边际TLM组合MAE 0.993,而标准RAG为1.097)。我们证明,接近零的总体偏差可能掩盖了幅度可观的相反子组误差,其中复合脆弱性受访者在所有LLM配置下被系统性低估,并建议将按子组分层的偏差审计作为政策相关LLM增强工作流的报告标准。一个受检索约束的知识图谱聊天机器人表明,幻觉风险在架构上可以通过基于基础的拒绝来管理。在所有五个阶段,我们确定了LLM实用性的具体边界,并提供了可重复的、基于真实灾害调查数据的分阶段脚本。

关键词:生成式AI;自然语言处理;调查;检索增强生成;上下文学习;灾害响应;缺失数据插补;保护动机理论。

调查研究是社会科学的基础,用于衡量公众态度、揭示人类行为模式并塑造政策。然而,该领域面临着日益严峻的方法论挑战,包括经常性的低回复率、未能代表目标人群的样本偏差,以及大量敷衍或欺诈性答案的激增。随着调查模式从传统的电话访谈转向自填式在线样本(Dillman and Christian,2005 (https://arxiv.org/html/2605.19229#bib.bib13); Stern et al.,2014 (https://arxiv.org/html/2605.19229#bib.bib52); Wang and Fan,2004 (https://arxiv.org/html/2605.19229#bib.bib59)),这些挑战日益加剧。从历史上看,诸如事后分层加权和人口统计插补等方法(通常以美国社区调查(ACS)等基准为指导)旨在保持代表性并纠正无回答偏差。然而,这些技术在处理部分回答、变化的人口动态以及复杂的缺失模式方面越来越力不从心。更复杂的是,对商业调查样本的依赖引入了更多不透明性:招募方法和样本维护常常未公开,由此产生的样本可能与其目标人群存在显著差异(Bentley et al.,2020 (https://arxiv.org/html/2605.19229#bib.bib5); Callegaro et al.,2014 (https://arxiv.org/html/2605.19229#bib.bib8); Hays et al.,2015 (https://arxiv.org/html/2605.19229#bib.bib23))。对消费者情绪调查的回顾强调了激励措施和自定进度的在线调查如何无意中夸大结果,并引入难以追踪或纠正的质量风险(hacıoglu2025)。调查数据质量也因不真诚或粗心的受访者而受损,他们可能提供仓促、随机或捏造的答案(Meade and Craig,2012 (https://arxiv.org/html/2605.19229#bib.bib35))。

大型语言模型(LLMs)的最新进展(Zhao et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib62))促使研究者重新审视调查研究方法论中长期存在的局限性(Arora et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib2); Jung et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib27); Perc,2025 (https://arxiv.org/html/2605.19229#bib.bib40); Qu and Wang,2024 (https://arxiv.org/html/2605.19229#bib.bib42); Salecha et al.,2024 (https://arxiv.org/html/2605.19229#bib.bib45))。LLM有潜力增强或简化调查研究过程的几乎每个阶段(Chakraborty and Nishimura,2025 (https://arxiv.org/html/2605.19229#bib.bib9)):动态问卷开发、针对不同亚群体的自适应翻译、实时检测和干预不投入的受访者,以及定量和定性数据的复杂综合(见表1 (https://arxiv.org/html/2605.19229#S1.T1))。凭借处理数千个开放式回答并对其进行聚类的能力,LLM为揭示态度和行为中的潜在模式提供了新的机遇,超越了传统的逐变量分析。然而,将LLM集成到调查工作流中并非没有风险。这些模型可能继承或放大其训练语料库中存在的偏差,引发对公平性和代表性的担忧,尤其是在文化多样化的环境中部署时(Ashwin et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib3); Gao et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib18))。数据隐私是一个持续关注的问题,还有“幻觉”的可能性,即生成看似合理但具有误导性或完全错误的模型输出(Zhao et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib62))。此外,模型部署、监督和解释中的实际和伦理约束对其可扩展性提出了挑战,强化了在每个步骤中进行警惕人工监督的必要性(Perc,2025 (https://arxiv.org/html/2605.19229#bib.bib40))。

在灾害调查研究中的风险尤其高,因为快速变化的人口、受访者加剧的痛苦以及对及时、可操作信息的迫切需求使得方法论挑战更加严峻。灾前研究需应对不确定的人口边界、低参与度的假设情景以及稀疏的准备数据(Hao et al.,2022 (https://arxiv.org/html/2605.19229#bib.bib22)),而灾后调查则面临通信中断、受访者痛苦加剧和压缩的时间线(King,2002 (https://arxiv.org/html/2605.19229#bib.bib29))。构成本研究实证基础的2024年飓风米尔顿佛罗里达居民准备度调查(Wang et al.,2026 (https://arxiv.org/html/2605.19229#bib.bib60)),记录了常规时间约束如何与不同家庭类型的飓风准备行为相互作用。在这些苛刻的情境中,传统的抽样、数据收集和质量控制方法可能很快变得不充分。灾害研究中LLM与人类专业知识的交叉代表了一个有希望但尚未充分探索的前沿。本研究以灾害准备和响应作为测试案例,系统地调查这些问题,利用实验分析和飓风米尔顿RAPID调查来识别有效人机协作的实用策略和未来方向。我们基于2024年飓风米尔顿灾害准备调查(Wang et al.,2026 (https://arxiv.org/html/2605.19229#bib.bib60)),在调查研究工作流的五个操作阶段实证评估了LLM的优势和陷阱,将基于LLM的插补与三个已建立的经典基线(IPW/MI、MICE+PMM和missForest)进行基准比较。我们的目标是阐明LLM增强调查研究的潜力和局限,为AI与社会测量交叉领域的负责任指南和未来创新提供基础。

表1:大型语言模型在调查研究中的应用:一个采纳框架。

## 2. 背景

### 2.1 调查研究当前面临的挑战

#### 2.1.1 调查研究方法的演变

调查方法论经历了一系列不同的技术时代,每个时代都以覆盖率、成本和数据质量之间的权衡为特征。面对面访谈产生了最高的回复率,但每次访谈的成本高得令人望而却步(Groves and Couper,1998 (https://arxiv.org/html/2605.19229#bib.bib19))。电话调查时代大幅降低了成本,同时保留了人际接触的许多质量优势。这些年代发展的理论框架至今仍具基础性:Groves和Couper(1998 (https://arxiv.org/html/2605.19229#bib.bib19))关于受访者合作的杠杆-显著性模型,以及Tourangeau等人(2000 (https://arxiv.org/html/2605.19229#bib.bib56))的调查回应四阶段模型,继续支撑着当代项目设计和模式效应研究。向自填式网络调查的转变进一步颠覆了该领域的经济学,同时加剧了质量担忧。回复率急剧下降,而总调查误差(TSE)框架(将调查估计分解为非观察误差和观察误差)成为诊断这些损失的标准术语(Groves and Lyberg,2010 (https://arxiv.org/html/2605.19229#bib.bib20))。定制设计方法(Dillman et al.,2014 (https://arxiv.org/html/2605.19229#bib.bib14))系统化了混合模式的最佳实践,而Couper(2017 (https://arxiv.org/html/2605.19229#bib.bib11))的综述记录了网络替代的全范围:回复率崩塌、基于概率和自愿加入的样本设计激增,以及被动行为数据融入调查架构。混合模式设计的最新创新,包括顺序网络-电话协议和推送至网络策略,已收复部分失地,相较于单一模式设计有12至25个百分点的显著提升(Coffey,2024 (https://arxiv.org/html/2605.19229#bib.bib10)),但公众合作度的长期下降趋势未见逆转。联邦经济调查的回复率在过去十年中下降了约15至30个百分点(Leduc et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib31))。

#### 2.1.2 现代调查中的数据质量挑战

在回复率下降这一头条问题之下,是一个更令人不安的发展:完成问卷的可靠性日益降低。多重插补由Rubin(1987 (https://arxiv.org/html/2605.19229#bib.bib44))正式化,作为用从其后验预测分布中的MM次抽取并结合Rubin规则的原则性缺失值替换方法,仍然是项目级无回答的统计标准。使用预测均值匹配的MICE(van Buuren and Groothuis-Oudshoorn,2011 (https://arxiv.org/html/2605.19229#bib.bib58))已成为主导的实现方式。逆概率加权与多重插补相结合将覆盖范围扩展到块级缺失(Seaman et al.,2012 (https://arxiv.org/html/2605.19229#bib.bib48)),而非参数随机森林插补器可处理具有非线性依赖关系的混合类型数据(Stekhoven and Bühlmann,2012 (https://arxiv.org/html/2605.19229#bib.bib51))。这三种方法构成了本文评估的基于LLM方法的经典比较集。

完成问卷的真实性也面临着日益增长的压力。Pinzon-Espitia(2024 (https://arxiv.org/html/2605.19229#bib.bib41))审计了当前商业样本中部署的31种欺诈检测策略,发现没有一种能够充分维持分析质量样本,在某些样本中,可用完成率从2021年的大约75%下降到2024年的10%。Johnson等人(2024 (https://arxiv.org/html/2605.19229#bib.bib26))报告,在一个参与式绘图网络调查中,尽管进行了多层行为和IP筛查,大约40%的提交被归类为欺诈。Westwood(2025 (https://arxiv.org/html/2605.19229#bib.bib61))证明,自主AI代理可以以99.8%的成功率通过标准态度调查中的传统注意力检查,并记录了超过三分之一的Prolific受访者承认使用LLM撰写开放式答案。宏观经济后果已清晰可见:2023年至2024年期间,消费者情绪指标与经核实的零售购买行为出现显著背离,部分归因于基础样本中的模式效应和招募构成变化(hacıoglu2025)。

### 2.2 大型语言模型的潜力

#### 2.2.1 LLM概述

大型语言模型是基于Transformer的神经网络,在海量文本语料库上训练,以建模在给定上下文条件下下一个词元的条件概率。GPT-3证明了仅靠规模就能产生一个通用模型,仅使用上下文示例就能在多样化的自然语言任务中展现出竞争力,无需针对特定任务进行微调(Brown et al.,2020 (https://arxiv.org/html/2605.19229#bib.bib7))。这一发现将自然语言处理(NLP)范式从任务特定架构转向了提示条件通用模型,这一转变在后续前沿系统如GPT-4(OpenAI,2023 (https://arxiv.org/html/2605.19229#bib.bib39))中得到了扩展和安全对齐。全面的综述详细记录了这一领域,涵盖模型家族、训练范式、基准表现和开放挑战(Minaee et al.,2025 (https://arxiv.org/html/2605.19229#bib.bib36); Naveed and others,2025 (https://arxiv.org/html/2605.19229#bib.bib38); Stanford Institute for Human-Centered AI,2025 (https://arxiv.org/html/2605.19229#bib.bib50))。

限制LLM科学部署的主要问题是幻觉:生成在句法上看似合理但事实错误或内部不一致的输出。Huang等人(2024 (https://arxiv.org/html/2605.19229#bib.bib25))区分了事实性幻觉与忠实性幻觉,并指出缓解策略必须贯穿整个模型生命周期。即使是在某些任务类别中,前沿系统也在相当比例的提示上产生幻觉,其发生率随提示结构系统性地变化。

相似文章

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。