健康素养标注中的结构化分歧:认识论稳定性、概念难度与按一致性分层推断
摘要
一项针对6,323条COVID-19开放回答的分级健康素养标注的大规模研究表明,分歧更多源于任务的概念难度而非标注者身份,主张采用视角主义建模以实现有效推断。
arXiv:2604.19943v1 公告类型: new
摘要:自然语言处理(NLP)中的标注流程通常假定每个实例只有一个潜在真值,并通过标签聚合解决分歧。视角主义方法对此提出挑战,将分歧视为可能包含有价值信息而非错误。我们对来自厄瓜多尔和秘鲁的6,323条开放式COVID-19回答的分级健康素养标注进行了大规模分析。每条回答由多名标注者独立使用比例正确性评分进行标注,反映其与规范性公共卫生指南的一致程度,使我们能够分析判断的完整分布而非聚合标签。方差分解显示,问题层面的概念难度解释的方差远多于标注者身份,表明分歧由任务本身结构驱动,而非个体评分者差异。按一致性分层分析进一步揭示,关键社会科学效应(包括国家、教育和城乡差异)的效应量在不同标注者一致性水平下变化,甚至在某些情况下方向反转。这些发现表明,分级健康素养评估同时包含认识论稳定和不稳定成分,对它们进行聚合可能掩盖重要的推断差异。因此,我们主张强视角主义建模不仅在概念上合理,而且在统计上对分级解释性任务的有效推断必不可少。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 认知稳定性、概念难度与按一致性分层的推理
来源:https://arxiv.org/html/2604.19943
## 健康素养标注中的结构化分歧:认知稳定性、概念难度与按一致性分层的推理
###### 摘要
自然语言处理(NLP)的标注流程通常假设每个实例只有一个潜在真值,并通过标签聚合解决分歧。视角主义方法将分歧视为潜在信息而非错误。本文对来自厄瓜多尔和秘鲁的 6,323 条开放式 COVID-19 回答进行了大规模分级健康素养标注分析。每条回答由多名标注者独立使用比例正确度评分,反映其与规范性公共卫生指南的契合程度,使我们能够分析完整判断分布而非聚合标签。方差分解显示,问题层面的概念难度解释了远大于标注者身份的方差,表明分歧由任务本身而非个体评价者驱动。按一致性分层的分析进一步揭示,关键社会科学效应(包括国家、教育和城乡差异)在不同标注者一致性水平上大小甚至方向均发生变化。这些发现表明,分级健康素养评价同时包含认知稳定与不稳定成分,简单聚合会掩盖重要推理差异。因此,我们主张在分级解释任务中,强视角主义建模不仅在概念上合理,更是统计上必要的有效推理前提。
关键词:视角主义 NLP、健康素养、低资源语言、标注分歧
\\NAT@set@cites
健康素养标注中的结构化分歧:认知稳定性、概念难度与按一致性分层的推理
Olga Kellert∗††thanks:∗主要及通讯作者。, Sriya Kondury, Candice Koo, Nemika Tyagi, Steffen Eikenberry
亚利桑那州立大学
{Olga.Kellert, skondury, ckoo4, ntyagi8, seikenbe}@asu.edu
摘要内容
## 1 引言
手工标注是大多数 NLP 系统的基础。主流范式假设每个实例只有一个潜在真值,并通过多数投票或概率标签建模等聚合方法解决分歧。在此框架下,变异通常被解释为标注噪声或指南不清。视角主义方法将分歧视为潜在信息而非错误(Basile 等,2021)。尽管视角主义在毒性检测或立场检测等明显主观任务中被广泛讨论(Mostafazadeh Davani 等,2022;Kanclerz 等,2021),但对更客观的分级解释任务关注较少。这引出一个更广泛的问题:分歧何时反映任务本身的不稳定,而非标注者不可靠?健康素养评价提供了一个有力案例。评估开放式公共卫生回答是否正确,常需解释部分知识、隐含推理和完整度。这类判断介于事实验证与主观立场评估之间,尤其在多语言、低资源环境中,语言差异与卫生信息获取不平等扩大了解释空间。
本文分析厄瓜多尔与秘鲁分级 COVID-19 健康素养标注的结构化分歧。数据集包含 6,323 条开放式回答-问题项,由四名标注者独立使用五分比例正确度评分,反映与 WHO 及国家公共卫生指南的契合度,共 17,305 条标注观测。语料包括西班牙语和克丘亚-基奇瓦语回答,附带社会人口元数据,是连接分级健康素养判断与安第斯原住民社区的最大可公开数据集之一。我们使用方差分解与按一致性分层推理。问题层面概念难度解释的方差远大于标注者身份,表明分歧主要由任务结构而非评价者驱动。
尽管词汇建模捕获了回答中的大量信号,但并未消除认知变异。关键社会科学效应(教育、城乡差异)在不同一致性水平上大小甚至方向均发生变化。因此,聚合会掩盖重要推理差异。本文主张,分级健康素养评价同时包含认知稳定与不稳定成分,强视角主义建模在统计上是有效推理的必要条件。
## 2 背景与相关工作
视角主义区分三个核心概念(Frenda 等,2025):
- •分歧:标签的可观测变异。
- •主观性:解释依赖于个体视角。
- •可靠性:与立场无关的标注者一致性。
分歧可能源于主观性、歧义或概念难度,而非标注者无能(Plank 等,2014;Uma 等,2021)。弱视角主义保留未聚合标签,强视角主义则将分歧纳入模型训练、评估与解释(Basile 等,2021),将变异视为信号而非噪声。大多数视角主义研究聚焦明显主观领域,如仇恨言论、立场分类、攻击性检测(Mostafazadeh Davani 等,2022;Kanclerz 等,2021)。然而,通常被视为客观的任务(如语义相似度、推理)也出现分歧(Biester 等,2022),表明认知不稳定可能源于任务属性而非仅标注者差异。
公共卫生评价传统依赖聚合正确判断与封闭式评估工具,对分级解释变异关注不足。既往健康素养评估(Altin 等,2014)与 COVID-19 知识研究(Meneses-Navarro 等,2020;Mejia 等,2022)进一步表明,教育背景与社区环境可影响公共卫生信息解释。在多语言与原住民环境中,这些挑战尤为突出。本文通过视角主义视角考察健康素养标注,将分歧感知分析扩展至结合事实知识、概念难度与社会结构变异的分级公共卫生评价领域。
## 3 数据
### 3.1 问卷设计
开放式 COVID-19 知识回答收集于厄瓜多尔与秘鲁,作为一项更大规模跨国健康传播研究的一部分(Kellert 等)。工具涵盖传播、症状、疫苗接种、风险群体、口罩使用与防护措施。问卷设计采用开放式而非迫选回答,以捕获分级健康素养与解释变异。
#### 规模
- •17,305 条标注级观测
- •6,323 条回答-问题项
- •25 个问题标识
- •6,280 条非空回答
### 3.2 数据集与参与者
本语料将分级健康素养判断与受访者社会人口元数据及自报信息来源关联,覆盖秘鲁与厄瓜多尔历史上服务不足的克丘亚/基奇瓦语社区。数据集整合(i)开放式回答、(ii)分级专家标注、(iii)语言使用、教育与地点元数据,因此对公共卫生研究、低资源 NLP 及需要自然解释变异而非人工构造歧义的视角主义标注研究均具价值。
#### 参与者
参与者(N = 299)通过目标滚雪球抽样招募,该非概率方法定向引导推荐至特定亚群体(如农村、原住民、语言多样化社区),覆盖秘鲁利马与阿普里马克、厄瓜多尔卡尼亚尔与埃尔坦博的城乡站点。该策略旨在捕获语言使用、教育与信息获取变异,尤其关注原住民社区。尽管为非概率抽样,但设计增加了农村与语言多样化人群的代表性,契合研究目标。
#### 问卷项与分析子集
问卷共 30 项(主要为开放式问题,少量结构化题与元数据题)。为推理分析,我们选取七个开放式问题,其语义足够具体,可与 WHO 及国家公共卫生指南比较,且受访者回答频率高。这些问题在分析前选定,用于构建综合知识得分与问题级模型。共 18 个问题被标注正确性,其中七个开放式问题用于本文主要推理分析。
#### 规范参考与田野工作
规范答案源自田野工作期间可获得的官方国家卫生部门材料与 WHO 建议,用于制定标注细则。数据于 2022 年 11 月至 12 月由受过培训的当地田野工作者以参与者偏好语言(西班牙语、克丘亚语或基奇瓦语)收集。所有回答在分析前匿名化。
### 3.3 标注方案
#### 标注者
四名标注者参与标注,均为亚利桑那州立大学 19–22 岁本科生,其中两名主修数据科学,两名有生物与医疗背景。两名标注者精通西班牙语并协助数据集翻译。技术与健康领域背景组合旨在支持分析一致性与领域知情评估。所有标注者来自同一机构,可能带来共享解释偏差;我们通过关注一致结构及问题级变异而非将标注视为独立真值判断来缓解此问题。
#### 评分程序
回答使用比例正确度评分,锚定五分尺度:
{0, 0.25, 0.5, 0.75, 1.0}
比例正确度反映回答与官方国家卫生材料及 WHO 指南的契合程度。评分根据问题类型调整:二值问题记 0(错误)或 1(正确);结构化选择题按正确选项比例赋分;开放式回答根据规范答案关键概念出现程度赋分,部分匹配得中间值。
尽管五分尺度为共同参考,某些项目根据正确元素数量允许更细比例得分。标签分布偏向完全正确(得分 = 1),同时存在大量部分正确(如得分 = 0.5),表明中间值捕获有意义的部分知识而非标注者不确定。
标注者独立工作,评分期间不讨论个案。他们对受访者社会人口元数据盲化以减少偏差。标注前,评价者使用试点回答子集接受培训,确保评分细则解释一致。为基线词汇建模,比例得分二值化为错误(< 0.5)与正确(≥ 0.5),该阈值反映主要错误与主要正确回答的区分,同时保留后续分歧分析所需的级变异。
## 4 一致性与基线建模
#### 指标
分析中,accuracy 指回答与官方公共卫生指南的匹配程度。本文使用以下三种度量:
- •加权 Fleiss’ κ。我们使用加权 Fleiss’ κ,考虑类别间序数距离,比未加权版本更恰当地捕获部分一致性。按常规解释,值低于 0.40 为低一致性,0.40–0.60 为中等,高于 0.60 为高度一致(Fleiss,1971)。
- •TF-IDF(词频-逆文档频率)。TF-IDF 按文档内词频相对语料库词频加权,捕获区分性词汇模式,本文用作预测二值正确标签的基线特征空间。
- •组内相关系数(ICC)。为量化分歧结构,我们报告 ICC,估计总方差中可归因于分组因素(如问题或标注者)的比例。问题 ICC 高表明大部分方差由问题层面属性而非标注者身份结构。
七个分析问题的标注者间一致性(加权 κ)范围为 0.42–0.70,属中等至高度一致。作为词汇基线,我们用 TF-IDF 特征训练逻辑回归分类器预测二值正确性(错误 < 0.5,正确 ≥ 0.5)。模型性能通过分层 5 折交叉验证评估,以保持折间类别平衡。分类器取得:
**Accuracy = 0.8398 (SD = 0.0062)**
所报告准确率为各折平均性能,标准差反映折间变异。结果表明词汇可预测性强:被判为正确与错误的回答在词汇使用上存在系统差异。然而,词汇分离并相似文章
共识在战略层面的不足:将推理轨迹分歧作为知识表示信号
本文认为,在多智能体 LLM 系统中,追求共识对于涉及价值判断的任务而言是不够的,并提出一种知识表示层,将智能体推理轨迹的分歧归类为四种符号状态,以实现内容审核等系统中的策略性路由。
人类放弃,推理模型坚持:分离难度登记与思考分配
本文分离了大型推理模型(LRMs)和人类中的难度登记与思考分配,发现LRMs在答错的问题上花费更多token,而人类在失败上花费更少时间,揭示了尽管跨项目难度相关性相似但项目内模式相反。
当证据冲突时:检索增强生物医学问答中的不确定性与顺序效应
本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现,揭示了准确率下降和预测翻转,并提出了一个冲突感知的弃权评分,提高了选择性准确率。
当模型意见相左时:重新思考公众评论分析中的LLM评估
本文提出了一种Interpretive Audit Pipeline,利用多模型分歧来检测基于LLM的公众评论分析中的解释复杂性,并认为基于分歧的评估是标准准确性指标的必要补充。
LLM 无法认知自身知识局限:通过临床表格数据上的跨模型归因差异检测认知盲点
本文探讨了大语言模型在结构化临床数据上无法识别自身知识局限的问题,提出了一种跨模型归因差异方法来检测认知盲点。该方法结合少样本示例和 SHAP 衍生的特征证据,无需训练即可改进校准性和准确性。