当模型意见相左时:重新思考公众评论分析中的LLM评估

arXiv cs.AI 论文

摘要

本文提出了一种Interpretive Audit Pipeline,利用多模型分歧来检测基于LLM的公众评论分析中的解释复杂性,并认为基于分歧的评估是标准准确性指标的必要补充。

arXiv:2605.29025v1 公告类型:新 摘要:联邦机构正在部署大型语言模型(LLMs)来对公众评论语料进行分类,模型对记录的组织方式决定了政策制定者看到的内容以及哪些论点被记录。标准的评估基于对一小部分验证集的立场准确性,无法检测不同模型对同一公众输入产生实质上不同的分类。我们提出了一种Interpretive Audit Pipeline,将多模型分歧视为解释复杂性的诊断指标,并将人工审查引导至真正模糊的公众输入。通过对四个LLMs分析1,260条针对美国农业部(USDA)联邦案卷的公众评论,我们发现模型间的主题差异超过了模型内的提示变化,并且专家评分表抑制了深层次的解释性分歧而未解决分歧。在一项针对40条评论的分层子样本的两阶段标注研究中,四个LLM和一名人工标注员独立标注,然后在看到其他标注后进行了修订。修订行为因标注者而异,人工标注员的修订经常引入模型集合输出中不存在的框架。我们认为,基于分歧的评估是基于LLM的解释性编码中准确性指标的必要补充。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:12

# 当模型意见相左:为公众意见分析重新思考LLM评估

**来源:** https://arxiv.org/html/2605.29025

**Aisha Najera**
AI Lab, Princeton University
Engineering and Applied Sciences, RAND Corporation
aishanajera@gmail\.com

**Alvin Moon**
Engineering and Applied Sciences
RAND Corporation
alvinmoon@gmail\.com

**Vedant Srinivasan**
Science, Technology, and International Affairs
Georgetown University
vs736@georgetown\.edu

**Rajesh Veeraraghavan**
Science, Technology, and International Affairs
Georgetown University
rv408@georgetown\.edu

###### 摘要

联邦机构正在部署大型语言模型来对公众意见语料进行分类,在此过程中,模型对记录的组织方式会影响政策制定者看到什么以及哪些论点被纳入考量。以针对小型验证集的态度准确率为核心的标准评估方法,无法检测到不同模型在对相同公众输入进行分类时产生实质性差异的情况。我们提出了一种**解读审计管道**,将多模型之间的分歧视为解读复杂性的诊断信号,并将人工审查引向真正具有歧义的公众输入。通过分析四个LLM对1,260条关于美国农业部联邦公报的公众意见,我们发现模型间的主题分歧超过了模型内的提示词变化,并且专家评估准则抑制了深层的解读分歧,却未能解决它。在一项针对分层抽样的40条意见子样本开展的两阶段标注研究中,四个LLM和一名人工标注员先独立标注,然后在看到其他人标注后进行了修订。不同标注员的修订行为存在差异,且人工标注员的修订经常引入从模型集成集体输出中未曾出现的框架。我们认为,对于LLM辅助的解读性编码任务,基于分歧的评估是对准确率指标的必要补充。

## 1 引言

大型语言模型正被用于总结和分类公众意见,但现有的评估方法无法评估这些解读是否忠实地反映了公众提交的内容。这一差距之所以重要,是因为当LLM的输出表征公众意见时,它们会构建出结构化的呈现形式,从而影响决策者认为什么是重要的,以及他们认为记录中包含什么。然而,标准准确率指标可能制造出一种有效性的假象,而对表征有效性却未加审视。

这一输入的主要机制是通知-评论式规则制定,机构在此过程中征求公众对拟议法规的反馈。提交的意见和机构回复共同构成了行政记录,即最终规则必须依据的正式证据基础。研究表明,这些意见会影响政策结果:机构通常会根据收到的意见态度和实质内容调整拟议规则(Yackee (2006 (https://arxiv.org/html/2605.29025#bib.bib38)); Kirilenko et al. (2014 (https://arxiv.org/html/2605.29025#bib.bib18)))。但机构面临一个持续的瓶颈:他们必须在短时间内、且往往在人员编制受限的情况下,将大量、杂乱无章的公众输入语料转化为易于处理的形式。

尽管LLM的幻觉问题促使在高风险应用中需要仔细评估(Gallagher et al. (2025 (https://arxiv.org/html/2605.29025#bib.bib11)); Gennari et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib12))),但公众意见分析呈现出独特的挑战。风险超出了错误陈述事实:LLM塑造了记录本身的表征方式,包括存在哪些主题、哪些论点重要,以及多样化的观点如何被保留或压缩。不同的模型可以产生看似连贯的输出,但在如何组织相同语料方面仍然存在分歧。标准评估优先考虑最容易评分的内容,例如在标注子集上的态度准确率,而将解读管道的其余部分视为次要任务(Fu et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib10)))。常见的应对措施是专家主导的提示词迭代和小样本验证(Deiner et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib8)); U.S. Department of Health and Human Services (2024 (https://arxiv.org/html/2605.29025#bib.bib35)))。但对于解读类任务而言,这往往是选择一种合理解读而非依据稳定的真实值进行验证(Kuo et al. (2023 (https://arxiv.org/html/2605.29025#bib.bib19)); Showkat et al. (2023 (https://arxiv.org/html/2605.29025#bib.bib31)))。

我们在这些工作的基础上,重新思考如何使LLM驱动的分析能更好地对公众记录的多样性负责。我们不是仅根据准确率选择一个模型,而是提出一种**解读审计管道**,将多模型之间的分歧视为一种分析工具。分类方案是具有实质性影响的分析选择(Scott,1998 (https://arxiv.org/html/2605.29025#bib.bib29); Saxena and Guha,2024 (https://arxiv.org/html/2605.29025#bib.bib28))。当前的评估在标注子集上检查态度准确率,却不问模型的主题组织是否保留了记录中论点的多样性。我们的结果表明,这一差距意义重大:在态度方面评分相似的模型,在主题输出上却存在实质性差异。我们使用**表征有效性**来询问模型是否保留了记录中论点的多样性,而不是对其进行压缩或碎片化(Selbst et al. (2019 (https://arxiv.org/html/2605.29025#bib.bib30)); Stapleton et al. (2022 (https://arxiv.org/html/2605.29025#bib.bib32))),并使用**解读分歧**来描述模型在可评分子任务上表现相似但在主题组织方式上存在分歧的情况。

我们使用1,260条提交给USDA案卷编号FNS-2016-0018(关于SNAP零售商库存要求)的公众意见,从实证角度发展这一论点。我们比较了四个LLM(Gemini-3.1-pro、GPT-5.4、Llama-3.3-70B、Mistral-Medium),采用了五种开放抽取提示词变体和一个基于专家营养学家评估准则的封闭抽取流程,并进行了一项包含一名人工标注员的分层40条意见两阶段标注研究。我们表明:(1)在固定模型版本和默认设置下,模型间的分布度量差异超过了模型内的提示词变化;(2)专家评估准则消除深层解读分歧的方式不是解决它,而是压制它;(3)跨模型的分歧结构本身就能提供信息,它能映射语料的解读复杂性,并识别出公众记录中真正具有多论点性的部分;(4)在标注研究中,不同标注员的修订行为存在差异,人工标注员的修订经常引入LLM集成集体输出中不存在的框架。我们认为,机器学习社区必须开发基于分歧的评估方法,使解读分歧变得可衡量和可辩论(Karusala et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib17)); Green (2022 (https://arxiv.org/html/2605.29025#bib.bib13)))。

## 2 相关工作

##### LLM用于公众意见和政策分析。
越来越多的研究将LLM应用于公众意见语料,其动机是机构需要在短时间内处理大量公民输入的行政瓶颈。Fu et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib10)) 将ChatGPT与人工编码者进行基准比较,用于分析公民反馈,发现其在态度方面具有竞争力,但指出了主题一致性方面的局限性。Rong et al. (2025 (https://arxiv.org/html/2605.29025#bib.bib27)) 比较了LLM和NLP方法用于解读关于城市政策的公众情绪,强调了速度和运行可行性。Lopez-Lopez和Herzog (2025 (https://arxiv.org/html/2605.29025#bib.bib21)) 提出了一种基于LLM的方法,通过概念提取和语义聚类从开放式回答中挖掘公民的政策观点。Deiner et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib8)) 评估了LLM是否可以在单个提示词中对社交媒体语料进行归纳式主题分析,发现其在自动化社会倾听方面具有潜力,但指出LLM不能始终如一地复制人类专家识别的主题,并提出人类验证作为质量检查。诸如PolicyPulse (Wang et al. (2025 (https://arxiv.org/html/2605.29025#bib.bib37))) 等工具证明,LLM驱动的系统可以帮助研究人员发现意想不到的主题,其明确目标是捕捉传统数据源可能遗漏的多样化社会观点。政府实践也在朝同一方向发展:HHS关于公众意见分析的试点(U.S. Department of Health and Human Services (2024 (https://arxiv.org/html/2605.29025#bib.bib35))) 将负责任的使用聚焦于人在回路中审查。我们的工作与这些文献的不同之处在于,我们将跨模型和跨提示词的**变异**本身作为分析对象。

**超越准确率的评估。**
对LLM在分类任务上的标准评估依赖于与人工标注子集的一致性,通常以准确率或F1值报告。这种框架在高风险的解读类应用中存在已有充分记录的局限性。Selbst et al. (2019 (https://arxiv.org/html/2605.29025#bib.bib30)) 表明,当公平性约束脱离其社会技术背景时可能变得毫无意义;我们将这一担忧扩展到主题编码领域,在该领域中,态度的准确性可能与论点结构的系统性错误表征同时存在。Stapleton et al. (2022 (https://arxiv.org/html/2605.29025#bib.bib32)) 和 Saxena and Guha (2024 (https://arxiv.org/html/2605.29025#bib.bib28)) 记录了公共服务中的算法分类如何嵌入有争议的价值选择,而准确率指标无法揭示这些选择。Karusala et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib17)) 审视了算法决策边缘的可辩驳性,认为评估方法必须使分歧的利害关系可见,而不是将其平均化。Green (2022 (https://arxiv.org/html/2605.29025#bib.bib13)) 批评了人工监督要求,认为当监督者不具备检测分布性错误的能力时,这种要求是不够的。我们的分歧分类学将这些问题付诸实践。我们追问模型在哪里产生分歧,以及这种分歧揭示了语料的什么。

**视角标注主义。**
NLP和HCI领域的一系列工作认为,标注者之间的分歧是关于数据本身的信号,而非需要聚合消除的噪声。Plank (2022 (https://arxiv.org/html/2605.29025#bib.bib23)) 回顾了分布感知建模的理由:当人类系统性地产生分歧时,将一个标注者的解读视为真实值,并将其余的视为错误,会错误地度量潜在现象。Kapania et al. (2023 (https://arxiv.org/html/2605.29025#bib.bib16)) 将其扩展到标注劳动领域,表明“真实值”框架依赖于一种表征主义的假设(即数据是否可以被中立地捕获),而标注本身就是一种需要保留其多样性的解读性工作。Karusala et al. (2024 (https://arxiv.org/html/2605.29025#bib.bib17)) 将这些关切进一步扩展到公共服务中算法决策的设计:可辩驳性,即受算法决策影响的人进行追问、申诉或质疑的能力,要求分类是可见且可质疑的,而不是呈现为单一的权威输出。早期关于众包标注的工作(Aroyo and Welty,2015 (https://arxiv.org/html/2605.29025#bib.bib1)) 和近期的视角主义评估努力(Basile et al.,2021 (https://arxiv.org/html/2605.29025#bib.bib2); Davani et al.,2022 (https://arxiv.org/html/2605.29025#bib.bib6); Prabhakaran et al.,2021 (https://arxiv.org/html/2605.29025#bib.bib24)) 都持有这一信念。我们将这一谱系扩展到基于LLM的标注:模型身份和提示词措辞引入了类似标注者的变异,而保留这种变异(作为独立的标签,每个标签都与其产生的模型一同保留)正是使LLM辅助的分类对下游审查者而言变得可理解,并且在原则上可辩驳。在我们40条意见的研究中,人工标注员被定位为与LLM并行产生标签的一位解读性读者,而不是模型输出的下游验证者。

**多读者模型。**
与我们的研究最接近的智力先例不在机器学习领域,而是在定性研究方法中。在扎根理论中(Strauss et al. (1990 (https://arxiv.org/html/2605.29025#bib.bib33))),多位编码者先独立发展编码,然后协商共识,其确切原因在于分歧能够揭示任何单次阅读都会忽略的解读可能性。我们借鉴了Deane (2020 (https://arxiv.org/html/2605.29025#bib.bib7)) 的工作,其研究表明人类的解读本质上是递归的,我们用此来激发研究设计,而非主张LLM具有类似人类读者的解读视角。实证问题是跨模型的输出变异是否具有结构性且能提供信息。Scott (1998 (https://arxiv.org/html/2605.29025#bib.bib29)) 提供了政治理论基础:国家行政系统需要将复杂现象简化为标准类别,而这些简化并非中立的,它们决定了行政记录中什么变得可见。综合来看,这些传统激发了我们的方法:我们不是仅根据准确率选择一个单一模型,而是比较多个模型的输出,表征其分歧结构,并评估该结构是否能够支持人类的解读工作。

**多LLM评估与聚合。**
越来越多的研究联合使用多个LLM进行评估、生成或定性编码。ChatEval (Chan et al.,2024 (https://arxiv.org/html/2605.29025#bib.bib4))、PoLL (Verga et al.,2024 (https://arxiv.org/html/2605.29025#bib.bib36)) 和 LLM-as-jury 方法聚合多个LLM的判断以改善单一输出。多智能体辩论框架(Du et al.,2024 (https://arxiv.org/html/2605.29025#bib.bib9); Liang et al.,2024 (https://arxiv.org/html/2605.29025#bib.bib20)) 让模型交换批评意见以收敛到共享答案。Chen et al. (2023 (https://arxiv.org/html/2605.29025#bib.bib5)) 和 Borchers et al. (2025 (https://arxiv.org/html/2605.29025#bib.bib3)) 分别将该收敛寻求方法扩展到数值和定性编码场景。诸如Thematic-LM (Qiao et al.,2025 (https://arxiv.org/html/2605.29025#bib.bib25)) 等管道将多智能体编码合并为单一共享编码手册。Tajik et al. (2026 (https://arxiv.org/html/2605.29025#bib.bib34)) 将推理轨迹分歧简化为一个标量指标供下游审查。每一种方法都通过仲裁、聚合、辩论达成共识或标量化归约来解决跨LLM分歧,而不是保留它。Kambhampati et al. (2025 (https://arxiv.org/html/2605.29025#bib.bib15)) 告诫不要将此类交换拟人化为深思熟虑。我们的方法在目标上有所不同:我们不是解决分歧,而是保留每个模型的标签作为独立的解读,每个标签都与其产生的模型一同保留,并将由此产生的分歧结构视为人工审查者需要参与处理的产物。

## 3 方法

我们设计了一个实验,以检验在固定模型版本和默认设置下,不同LLM之间的差异是否对公众意见的主题编码产生影响,以及由此产生的分歧结构是否能够支持人类的解读。

### 3.1 数据集

我们分析了1,260条提交给USDA食品与营养服务部案卷编号FNS-2016-0018(涉及SNAP零售商库存要求)的公众意见,该规则影响约260,000家零售商和4700万受益人。

相似文章

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

基于LLM的服务反馈新兴主题检测模型

arXiv cs.AI

本文提出了一种新颖的方法论,整合了LLM、统计技术和人机协同,用于检测多语言服务反馈中的新兴主题,旨在提升公共部门组织的服务质量和公平性。