评估自然语言解释中的判断质量:来自预测锦标赛的证据
摘要
本文介绍了解释质量标记(EQMs),这是一组由大语言模型评分的60种推理模式,用于衡量预测锦标赛中自然语言解释的质量。通过分析超过55,000个预测-理由配对,EQMs在预测层面和预测者层面都预测了准确性,优于之前的方法。
arXiv:2606.30987v1 Announce Type: new
摘要:决策者通常依赖专家判断及其书面解释,但解释质量难以大规模衡量。预测锦标赛提供了一个天然的测试场:概率判断与自然语言理由配对,并根据实际结果进行评分。我们引入了解释质量标记(EQMs),这是一组由大语言模型(LLMs)评分的60种理论指导的推理模式。在一项针对多年预测锦标赛中超过55,000个预测-理由配对的预注册分析中,EQMs在预测层面和预测者层面预测了准确性,始终优于前LLM文本分析方法。超过90%的具有统计显著性的模式级EQM-准确性相关性与我们的方向性假设一致。信号是不对称的:EQMs识别可能表现不佳者的可靠性高于区分最优秀预测者。与传统预测技能指标相比,EQMs在预测层面是最强的预测因子,在预测者层面具有竞争力,但弱于先前的准确性。人类对理由质量的评分与准确性的相关性不太一致,并且对理由长度赋予了不成比例的权重。结果可迁移到一项独立的预测研究中。EQMs提供了一种可扩展、可解释的方法,用于从书面解释中提取与判断相关的信息。
查看缓存全文
缓存时间: 2026/07/01 05:31
# 衡量自然语言解释中的判断质量:来自预测锦标赛的证据 Karvetski 和 Huang 是共同第一作者。本研究由 Open Philanthropy(现更名为 Coefficient Giving)的资助支持。本文所表达的观点不一定反映芝加哥联邦储备银行或联邦储备系统的观点。我们感谢 Jimmy Ba、David Budescu、Yueh-Han Chen、Roger Grosse、Zhijing Jin、Sanmi Koyejo、Hugo Larochelle、Paul Milgrom、Long Phan、Jason Plaks 和 Alex Spangher 的有益讨论。任何遗留错误均由我们负责。通讯作者:Ezra Karger,[email protected]。来源:https://arxiv.org/html/2606.30987 Sheldon S. Huang 预测研究所 多伦多大学 向量人工智能研究所 斯坦福大学 Simas Kučinskas 预测研究所 Nadja Flechner 预测研究所 Jingyu Hu 多伦多大学 Philip Tetlock 预测研究所 艺术与科学学院 & 沃顿商学院,宾夕法尼亚大学 Ezra Karger 预测研究所 芝加哥联邦储备银行 (2026年6月) ###### 摘要 决策者通常依赖专家判断及其书面解释,但解释质量难以大规模衡量。预测锦标赛提供了一个天然的测试场:概率判断与自然语言理由相配对,并根据实际结果进行评分。我们引入了**解释质量标记**(EQMs),这是一套由大型语言模型(LLMs)评分的六十个理论指导的推理模式。在一项预先注册的分析中,我们对来自一个多年期预测锦标赛的超过 55,000 个预测-理由对进行了分析,发现 EQMs 在预测层面和预测者层面均能预测准确性,且始终优于 LLM 出现之前的文本分析方法。超过 90% 的具有统计显著性的模式级 EQM-准确性相关性与我们的方向性假设相符。该信号是不对称的:EQMs 识别可能表现不佳者的可靠性高于区分最优秀预测者。与传统的预测技能指标相比,EQMs 在预测层面是最强的预测因子,在预测者层面具有竞争力,但弱于先前的准确性。人类对理由质量的评分与准确性的相关性较不一致,并且对理由长度赋予了过高的权重。结果可转移至一个独立的预测研究。EQMs 提供了一种可扩展、可解释的方法,用于从书面解释中提取与判断相关的信息。 **关键词:** 判断与决策;大型语言模型(LLMs);自然语言处理;概率预测;预测锦标赛。 ## 1 引言 决策者通常接收带有书面解释的专家判断。例如,情报分析师可能会预测某个地缘政治事件发生的可能性,同时附上一份概述推理过程的备忘录。投资委员会可能会审查一份有书面论证支持的建议。项目经理可能会权衡关于项目可行性的不同评估,每个评估都有叙事性论证支持。决策者通常会使用这些解释(往往是隐性地)来评估哪些判断值得信任或采取行动。然而,解释质量很难系统性地衡量,尤其是在大规模情况下,因此关于解释如何与判断准确性相关联,我们知之甚少。 先前的研究已确定了几种良好概率推理的标志,包括关注基础概率 (Kahneman, 2011 (https://arxiv.org/html/2606.30987#bib.bib30))、对证伪证据的开放性 (Suedfeld and Tetlock, 1977 (https://arxiv.org/html/2606.30987#bib.bib61); Suedfeld et al., 1992 (https://arxiv.org/html/2606.30987#bib.bib62); Baron, 2008 (https://arxiv.org/html/2606.30987#bib.bib8)),以及抵抗常见认知偏差 (Kahneman and Tversky, 1973 (https://arxiv.org/html/2606.30987#bib.bib31); Tversky and Kahneman, 1974 (https://arxiv.org/html/2606.30987#bib.bib67); Fischhoff et al., 1977 (https://arxiv.org/html/2606.30987#bib.bib18); Nickerson, 1998 (https://arxiv.org/html/2606.30987#bib.bib49))。然而,衡量给定解释是否表现出这些特征,历来需要劳动密集型专家编码 (Baker-Brown et al., 1992 (https://arxiv.org/html/2606.30987#bib.bib6))、粗略的自动化代理 (Pennebaker et al., 2015 (https://arxiv.org/html/2606.30987#bib.bib51); Boyd et al., 2022 (https://arxiv.org/html/2606.30987#bib.bib9)),或基于单一理论构念构建的测量工具 (Conway et al., 2014 (https://arxiv.org/html/2606.30987#bib.bib15))。尽管决策者通常能判断某个解释听起来是否详细或有说服力,但这些品质本身并不一定反映判断的准确性。在大多数领域,这个问题很难直接研究,因为对于某个判断是好是坏,没有明确的真实标准。 预测锦标赛为实证研究这个问题提供了天然的环境。在此类锦标赛中,个体提交关于现实世界事件的概率预测,通常附有书面理由,随后观察结果。这使得比较书面解释的属性与准确性成为可能,而在其他领域很难做到这一点 (Tetlock, 2005 (https://arxiv.org/html/2606.30987#bib.bib63); Tetlock et al., 2014 (https://arxiv.org/html/2606.30987#bib.bib65); Tetlock and Gardner, 2015 (https://arxiv.org/html/2606.30987#bib.bib64))。在过去十年中,基于锦标赛的研究在训练预测者、构建团队和聚合预测方面取得了重大进展 (Mellers et al., 2014 (https://arxiv.org/html/2606.30987#bib.bib43); Satopää et al., 2014 (https://arxiv.org/html/2606.30987#bib.bib53); Chang et al., 2016 (https://arxiv.org/html/2606.30987#bib.bib11), 2017 (https://arxiv.org/html/2606.30987#bib.bib12); Horowitz et al., 2019 (https://arxiv.org/html/2606.30987#bib.bib27))。然而,这些进展大多依赖于数值数据,而理由中包含的文本却受到的系统性关注少得多。早期分析预测理由的尝试使用了传统的自然语言处理(NLP)工具,包括语言词典、可读性测量和情感评分 (Schwartz et al., 2017 (https://arxiv.org/html/2606.30987#bib.bib55); Horowitz et al., 2019 (https://arxiv.org/html/2606.30987#bib.bib27); Zong et al., 2020 (https://arxiv.org/html/2606.30987#bib.bib71))。这些研究表明理由包含有用信息,但分析方法基本上是无理论的。一个显著的例外是 Karvetski 等人 (2022 (https://arxiv.org/html/2606.30987#bib.bib34)),他们利用内部视角与外部视角推理的区分 (Kahneman, 2011 (https://arxiv.org/html/2606.30987#bib.bib30)),构建了一个比较类推理的分类器;该研究表明这种模式是与预测者准确性的顶级相关因素之一。然而,将这种理论驱动的测量扩展到更广泛的推理构念,在 LLM 出现之前的方法中仍不可行。 大型语言模型(LLMs)的最新进展改变了这一局面 (Gilardi et al., 2023 (https://arxiv.org/html/2606.30987#bib.bib20); Ziems et al., 2024 (https://arxiv.org/html/2606.30987#bib.bib70))。与基于词典或特征工程的方法不同,LLM 能够解释非结构化文本的语义和上下文含义,从而使得在大规模上对书面解释中的复杂推理模式进行评分成为可能 (Rathje et al., 2024 (https://arxiv.org/html/2606.30987#bib.bib52))。我们利用这一能力引入了**解释质量标记**(EQMs),这是一套源自判断与决策文献的六十个推理模式,由 LLM 进行评分。这六十个 EQM 模式被组织成六个理论指导的家族:偏差与情感;分析性推理;对齐与纪律;证据来源;整合性推理与认知框架;以及态度与不确定性管理。每个模式都用自然语言定义,并由 LLM(我们大部分结果使用 GPT-4o)在三分量表上进行评分。我们对来自聚合应急估计(ACE)锦标赛的超过 55,000 个预测-理由对进行了测试,该锦标赛是最大规模的概率预测与书面理由配对集合之一 (Mellers et al., 2014 (https://arxiv.org/html/2606.30987#bib.bib43), 2015a (https://arxiv.org/html/2606.30987#bib.bib42), 2015b (https://arxiv.org/html/2606.30987#bib.bib44))。对于每个理由,我们使用 LASSO 将六十个 EQM 分数映射到一个单一的综合分数,并与准确性进行关联。我们将这个综合分数与使用上述 LLM 出现前方法以相同方式构建的综合分数进行基准比较(图 1 (https://arxiv.org/html/2606.30987#S2.F1) 在第 2 节 (https://arxiv.org/html/2606.30987#S2) 中总结了 LLM 评分流程)。 我们将分析组织为四个研究。研究 1 测试我们的核心预先注册假设;研究 2-4 是扩展研究,对效应量进行基准测试,比较 EQMs 与人类评分,并测试样本外迁移。研究 1 发现,EQM 综合分数在预测层面(r=.19 对比 r=.06,p<.001)和预测者层面(r=.51 对比 r=.39,p<.001)均显著优于 LLM 出现前的方法。超过 90% 的具有统计显著性的模式级 EQM-准确性相关性与我们的方向性假设相符。预测信号是不对称的:EQMs 发现潜在表现不佳者的效果优于识别顶级预测者。敏感性检验确认这些分数在不同 LLM 间稳定,且对提示变化具有稳健性。研究 2 将 EQMs 与传统的预测技能指标进行基准比较,采用季节间设计以更好地理解效应量。在预测层面,EQMs 是可用的最强预测因子,甚至超过了前一年的准确性。在预测者层面,前一年的准确性表现最佳,但 EQMs 仍与更新规模等行为指标具有竞争力。我们还展示了预测者层面的 EQM 分数可用于改善群体聚合。研究 3 将 EQMs 与 ACE 锦标赛期间收集的人类对理由质量的评分进行比较。当在 ACE 数据的相同子样本上进行测试时,人类评分与准确性的相关性弱于 EQMs,无论是在预测层面(r=.07 对比 r=.23)还是在预测者层面(r=.40 对比 r=.50)。此外,人类评分对理由长度赋予了过高的权重:单词数的平方根与平均人类评分的相关性为 r=.62,尽管理由长度与预测层面的准确性基本不相关。 最后,研究 4 测试这些结果是否能样本外迁移。在 LLM 知识截止后收集的独立预测数据集上应用时,基于 ACE 数据训练的 EQM 综合分数在预测层面(样本外 r=.16 对比 ACE 内 r=.19)和预测者层面(样本外 r=.46 对比 ACE 内 r=.51)均携带显著信号。这种迁移缓解了对 LLM 评分可能利用记忆数据的担忧。在这个样本外环境中,人类有用性评分在预测层面与 EQMs 相当,但在预测者层面明显较弱。因此,预测层面的比较似乎依赖于情境,而 EQM 在预测者层面的优势则跨数据集一致。 总体而言,我们做出了三项贡献。首先,我们引入了 EQMs 作为一个理论指导的测量框架用于评估书面解释,并利用 LLM 实现大规模评分。其次,我们表明这种方法在预测准确性方面优于 LLM 出现前的方法和人类评分。第三,我们展示了使用 EQMs 筛选判断的实际相关性。该方法仅需一份书面理由,无需历史记录。 本文的其余部分组织如下。第 2 节 (https://arxiv.org/html/2606.30987#S2) 描述了数据、EQM 模式集、评分和建模程序。第 3 节 (https://arxiv.org/html/2606.30987#S3) 呈现了四个研究。第 4 节 (https://arxiv.org/html/2606.30987#S4) 进行总结并讨论了 EQM 框架的局限性和潜在应用。 ## 2 数据与方法 我们在研究 1 (Karvetski 等人, 2025 (https://arxiv.org/html/2606.30987#bib.bib35), 我们的第 3.1.3 节 (https://arxiv.org/html/2606.30987#S3.SS1.SSS3)) 中预先注册了主要分析,指定了 EQM 框架和 LLM 出现前框架的数据过滤、建模和假设检验程序。预先注册允许在 EQMs 优于 LLM 出现前方法的条件下进行敏感性、稳健性和探索性后续分析。研究 1 其余部分(第 3.1.4 节 (https://arxiv.org/html/2606.30987#S3.SS1.SSS4) 和 3.1.5 节 (https://arxiv.org/html/2606.30987#S3.SS1.SSS5))的敏感性和分布分析,以及研究 2-4 中的补充分析均在此规定下进行。我们的预先注册与本文之间的对应关系详见附录 A.1 (https://arxiv.org/html/2606.30987#A1.SS1)。 ### 2.1 数据 研究 1-3 使用在聚合应急估计(ACE)预测锦标赛期间收集的预测和理由数据 (Mellers 等人, 2014 (https://arxiv.org/html/2606.30987#bib.bib43); Tetlock 等人, 2014 (https://arxiv.org/html/2606.30987#bib.bib65)) ¹¹ACE 最初有五个竞争团队,但我们仅使用获胜团队“良好判断项目”(GJP)的数据。,而研究 4 使用一个独立数据集,在第 3.4 节 (https://arxiv.org/html/2606.30987#S3.SS4) 中描述。ACE 地缘政治预测锦标赛由情报高级研究计划活动(IARPA)赞助,历时从 2011 年到 2015 年,共四个预测季节。ACE 数据集涵盖全球政治、经济和安全主题的广泛问题,由异质的预测者群体做出预测。它仍然是引用最多的判断性预测锦标赛之一,包含预测、理由、人类对理由质量的评分(在研究 3 中出现),以及诸如预测者培训、组队、以及识别和培养超级预测者等干预措施 (Tetlock and Gardner, 2015 (https://arxiv.org/html/2606.30987#bib.bib64))。 在 ACE 锦标赛中,地缘政治预测问题在每个季节期间发布,并一直开放数周或数月直到结果揭晓 (Mellers 等人, 2014 (https://arxiv.org/html/2606.30987#bib.bib43))。一些预测者在所有四个季节都做出了预测,而另一些只在一个季节做出了预测。预测者可以在问题开放期间的任何时间提交初始概率估计,并允许随着新信息的出现更新他们的预测。预测者被鼓励提供书面理由解释他们的判断,但提交理由并非强制要求。 完整的 ACE 数据集包含 424,764 个理由,涵盖 498 个已关闭的预测问题和四个季节。根据我们预先注册的过滤器,将数据限制为(1)每位预测者对每个问题提供的第一个理由;(2)十个单词或以上;(3)与二元问题(N = 368)相关的理由,最终得到 55,463 个理由及相应预测的研究样本,由 3,533 个独特的预测者-季节组合生成。其中,1,770 个预测者-季节对满足最低活动阈值,因此符合预测者层面分析资格。
相似文章
从评分到解释:评估基于量规的教学质量评估中的SHAP与LLM理由
本文提出一个用于基于量规评分的句子级可解释性框架,比较了SHAP和LLM生成的理由。研究发现,微调预训练语言模型在预测准确性上优于LLM,且SHAP提供了更忠实和可迁移的解释。
有质量却无用处:LLM生成的XAI叙述作为信任启发式而非决策辅助工具
本文研究了由LLM从XAI输出生成的高质量自然语言解释(NLEs)是否真的能改善任务性能,发现它们并未提高准确性,反而夸大了信心,揭示了质量-实用性差距。
大型语言模型中的解释公平性:关于LLM在不同人口群体中如何证明决策的实证分析
本文提出了“解释公平性分类法”(Explanation Fairness Taxonomy, EFT),以分析大型语言模型(LLM)在不同人口群体中证明决策时的差异,研究发现尽管决策本身保持平衡,但在解释的质量和语调上仍存在显著偏差。
早期令牌置信度预测多智能体LLM辩论中的推理质量
本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量,发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。
RealMath-Eval:为何最先进的评判者难以应对真实人类推理
RealMath-Eval是一个包含224份真实高中数学考试答题的基准测试,揭示了显著的“评估差距”:相较于由LLM生成的合成解决方案(MSE约1.17),最先进的LLM评判者在真实人类推理上的表现较差(MSE约2.96),原因在于人类错误模式具有更高的多样性和惊异度。