Granuscore:一种用于文本分析和问答的无参考粒度度量

arXiv cs.CL 论文

摘要

Granuscore是一种用于文本分析和问答的无参考粒度度量。它利用分层嵌入空间来捕捉细粒度与粗粒度语言,并在QA基准测试中展示了模型行为的一致差异。

arXiv:2605.26620v1 公告类型:新 摘要:自然语言以不同粒度传达信息,从细粒度指代到宽泛描述。虽然粒度对人类交流至关重要,但现有度量大多捕捉表面细节或句子特异性。我们提出Granuscore,一种利用分层嵌入空间结构特性的无参考粒度度量。Granuscore在Granola-EQ数据集上可靠地恢复层次顺序,并捕捉跨语篇上下文中预期的粒度差异。在不同领域,我们进一步展示Granuscore可以解释句子特异性超出句子长度的非线性变化。最后,我们将Granuscore应用于四个问答基准测试,并分析问题、黄金答案和模型输出在不同回答结果中的粒度差异。该分析揭示了模型行为的一致差异,并为表征QA数据集的难度提供了一个原则性视角。这些结果共同将Granuscore定位为一种可扩展、广泛适用的文本粒度分析工具。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:07

# Granuscore:一种用于文本分析与问答的无参考粒度度量方法
来源:https://arxiv.org/html/2605.26620
Lukas Ellinger, Alexander Fichtl, Miriam Anschütz, 和 Georg Groh
德国慕尼黑工业大学计算、信息与技术学院
\{lukas\.ellinger (https://arxiv.org/html/2605.26620v1/mailto:[email protected]), miriam\.anschuetz, alexander\.fichtl\}@tum\.de, grohg@cit\.tum\.de

###### 摘要
自然语言以不同的粒度层次传递信息,从细粒度的指代到宽泛的描述。虽然粒度是人类交流的基础,但现有的度量方法大多仅捕捉表层细节或句子的具体性。我们提出了 **Granuscore**,一种无参考的粒度度量方法,它利用了分层嵌入空间的结构特性。Granuscore 能可靠地恢复 Granola-EQ 数据集上的层次顺序,并捕捉跨不同话语语境中预期的粒度差异。跨多个领域,我们进一步证明 Granuscore 能解释句子具体性中超出句子长度的非线性变化。最后,我们将 Granuscore 应用于四个问答基准,分析问题、黄金答案以及模型输出在不同回答结果中的粒度差异。该分析揭示了模型行为中的一致差异,并为描述 QA 数据集的难度提供了一个原理性视角。这些结果共同确立了 Granuscore 作为一种可扩展、广泛适用的文本粒度分析工具的地位。

![[未标注图片]](https://arxiv.org/html/2605.26620v1/assets/granu.png)

Granuscore:一种用于文本分析与问答的无参考粒度度量方法
Lukas Ellinger, Alexander Fichtl, Miriam Anschütz, 和 Georg Groh
德国慕尼黑工业大学计算、信息与技术学院
\{lukas\.ellinger (https://arxiv.org/html/2605.26620v1/mailto:[email protected]), miriam\.anschuetz, alexander\.fichtl\}@tum\.de, grohg@cit\.tum\.de

## 1 引言
自然语言不仅在*传达什么信息*上有所不同,还在*信息表达的粗细程度*上存在差异。考虑图 1 (https://arxiv.org/html/2605.26620#S1.F1) 中的句子。说话者可能将一个人称为 *Tony Hawk*、*一名滑板手* 或 *一名运动员*,也可能将一个事件定位于 *圣地亚哥*、*加利福尼亚* 或 *美国*。这些替代方案保留了基本事实,但以不同的层级进行指代。我们将这一维度称为 **粒度**:语言中实体或事件被表征的抽象层级 (Mulkar-Mehta 等,2011 (https://arxiv.org/html/2605.26620#bib.bib50); Rosch 等,1976 (https://arxiv.org/html/2605.26620#bib.bib49); Hobbs, 1985 (https://arxiv.org/html/2605.26620#bib.bib56))。粒度并非偶然:说话者会根据对话语境和任务需求调整其描述的抽象层级 (Mulkar-Mehta 等,2011 (https://arxiv.org/html/2605.26620#bib.bib50); Hobbs, 1985 (https://arxiv.org/html/2605.26620#bib.bib56))。当不确定时,说话者通常倾向于使用虽能传递信息但不过度承诺的粗略事实描述。相反,当建立了共同基础后,更细粒度的指代则变得合适 (Yona 等,2024 (https://arxiv.org/html/2605.26620#bib.bib4))。因此,粒度应被理解为一种旨在平衡可靠性和受众期望的有意策略。

参见说明文字 图 1:含有不同粒度指代单元的句子。不同句子间有差异的单元已加下划线。将细粒度术语替换为更粗略的替代项会增加句子粒度:较低的 Granuscore 表示更细致的表达。

先前的研究表明,语言粒度会影响信息的感知和使用。在对话系统中,过于细致或粗略的回应可能会降低用户满意度 (Adiwardana 等,2020 (https://arxiv.org/html/2605.26620#bib.bib7); Thoppilan 等,2022 (https://arxiv.org/html/2605.26620#bib.bib30))。类似地,在简化语言环境中,控制粒度对于可访问性和理解至关重要,因为它能减轻认知负荷 (OECD, 2024 (https://arxiv.org/html/2605.26620#bib.bib48); Anschütz 等,2025 (https://arxiv.org/html/2605.26620#bib.bib32))。然而,系统性地研究这些效应是困难的,因为现有方法无法在句子层面提供可扩展的、无参考的粒度度量。我们的贡献如下:

- • 我们引入了 **Granuscore**,一种无参考的粒度度量方法,它利用了分层嵌入空间的结构特性。
- • 我们通过经验和概念两个层面验证了 Granuscore。它能可靠地恢复 Granola-EQ (Yona 等,2024 (https://arxiv.org/html/2605.26620#bib.bib4)) 上人工标注的顺序,并捕捉跨不同话语语境中预期的粒度差异。
- • 我们证明,跨多个领域,Granuscore 能解释句子具体性中超出句子长度的非线性变化。
- • 我们展示了 Granuscore 在问答任务中的实际相关性。通过在四个 QA 基准上评估六个语言模型,我们识别出问题、黄金答案以及模型输出在不同回答结果中的粒度存在一致差异。这些模式为描述 QA 数据集难度和分析模型行为提供了一个原理性视角。
- • 我们将 Granuscore 作为一个 pip 包 (https://github.com/lukasellinger/granuscore) 发布,以确保可复现性,并支持其在进一步研究或生产中的使用。

## 2 背景与相关工作

#### 粒度
Mulkar-Mehta 等 (2011 (https://arxiv.org/html/2605.26620#bib.bib50)) 将自然语言中的粒度描述为粗略与细致描述之间的转换,其中较高层次的表征从更详细的组成部分中抽象出来。在认知科学中也有类似观点,概念在分类体系中以不同的抽象层级组织 (Rosch 等,1976 (https://arxiv.org/html/2605.26620#bib.bib49))。此外,Hobbs (1985 (https://arxiv.org/html/2605.26620#bib.bib56)) 的基础性工作认为,智能推理需要以多个粒度层级表征世界,并根据需要在不同层级间切换,从而允许通过更简单的抽象来建模复杂现象。

一个相关的属性是 **术语具体性**,它指的是识别将一类文档与其他文档区分开来的索引术语。特别地,Kim (2006 (https://arxiv.org/html/2605.26620#bib.bib10)) 将 **层次具体性** 描述为术语在泛化-具体层级结构中的位置,其中更窄的术语对应更具体的概念,这与粒度的概念相符。我们利用分层嵌入空间的结构特性来捕捉这些思想。与依赖人工构建层次结构的方法不同,这使我们能够在不受预定义词汇限制的情况下估计粒度。

#### 句子具体性
**句子具体性** 指的是句子传达具体信息并支持读者间一致解释的程度 (Li 等,2016 (https://arxiv.org/html/2605.26620#bib.bib11); Ko 等,2019 (https://arxiv.org/html/2605.26620#bib.bib16))。先前的工作已显示其对阅读理解 (Dixon, 1987 (https://arxiv.org/html/2605.26620#bib.bib35)) 和在对话中建立共同基础 (Djalali 等,2011 (https://arxiv.org/html/2605.26620#bib.bib34)) 的重要性。尽管更细粒度的指代通常会增加句子的具体性,但粒度和句子具体性捕捉的是不同的属性。句子具体性反映的是句子传递的描述性信息的量,而粒度描述的是指代表达在语义层级结构中出现的层级。因此,一个句子可以通过添加描述性细节变得更加具体,而无需改变其指称对象的粒度。例如,“The skateboarder won the competition” 在 “The skateboarder won the competition and set a new record.” 中变得更加具体。指称对象保持在同一粒度层级,但句子传达了更多信息。

#### 粒度评估
虽然粒度在关于具体性、信息量和语义层级结构的工作中已被隐含讨论 (Thoppilan 等,2022 (https://arxiv.org/html/2605.26620#bib.bib30); Adiwardana 等,2020 (https://arxiv.org/html/2605.26620#bib.bib7); Ko 等,2019 (https://arxiv.org/html/2605.26620#bib.bib16); Li 等,2016 (https://arxiv.org/html/2605.26620#bib.bib11)),现有的自动评估通常依赖于分类体系深度(例如,WordNet 上位词层级 (Miller, 1994 (https://arxiv.org/html/2605.26620#bib.bib1)) 或知识图谱如 Wikidata (Vrandečić and Krötzsch, 2014 (https://arxiv.org/html/2605.26620#bib.bib53); Huang 等,2023 (https://arxiv.org/html/2605.26620#bib.bib15)) 中的层次关系)。然而,这些方法要求实体存在于底层分类体系中,因此对自由文本的覆盖范围有限。相比之下,基于嵌入的方法可以直接对任意文本进行操作。Huang 等 (2023 (https://arxiv.org/html/2605.26620#bib.bib15)) 提出了一种使用源自 Wikidata 的传递关系来衡量具体性的自动基准。然而,由此产生的排序可能会产生不直观的比较,例如,将 *Mexico* 评为比 *Colombia* 更细致,或将 *historian* 评为比 *writer* 更细致。因此我们承认这个数据集的存在,但不在我们的实验中使用它。Yona 等 (2024 (https://arxiv.org/html/2605.26620#bib.bib4)) 引入了 Granola-EQ,一个具有显式控制答案粒度层级的问答数据集。他们展示了标准的解码方法往往会产生过度细致且常常错误的答案。我们基于该数据集训练 Granuscore,并通过将粒度估计应用于更广泛的 QA 数据集来扩展他们的分析,研究粒度与模型输出、正确性以及数据集难度之间的关系。

#### 用于信息量和趣味性的训练信号
模型响应的信息量在用户参与度和响应质量中起着核心作用 (Adiwardana 等,2020 (https://arxiv.org/html/2605.26620#bib.bib7); Thoppilan 等,2022 (https://arxiv.org/html/2605.26620#bib.bib30))。虽然早期工作依赖人工标注来监督信息量 (Adiwardana 等,2020 (https://arxiv.org/html/2605.26620#bib.bib7); Thoppilan 等,2022 (https://arxiv.org/html/2605.26620#bib.bib30)),最近的方法则使用基于 LLM 的评判者通过比较响应对来获得相对偏好信号 (Wu 等,2025 (https://arxiv.org/html/2605.26620#bib.bib9))。类似地,Onozeki and Inaba (2025 (https://arxiv.org/html/2605.26620#bib.bib6)) 引入了趣味性作为训练信号,并使用 LLM 评判者来分配分数。与这些依赖人工监督、成对比较或基于模型的判断的方法不同,Granuscore 提供了一个无参考、可扩展的信号,能在绝对且可解释的尺度上测量粒度。

## 3 Granuscore

参见说明文字 图 2:Granuscore 流水线:提取层次深度 (Dist0) 并与锚点实体比较,随后通过梯度提升树和百分位校准生成标量粒度分数。

Granuscore 通过利用分层嵌入空间的结构特性来衡量语义粒度,其中**较低的分数**对应**更细致的表达**。我们基于 Chen 等 (2024 (https://arxiv.org/html/2605.26620#bib.bib25)) 提出的 **Hierarchy Transformer 模型** (https://huggingface.co/Hierarchy-Transformers/HiT-MiniLM-L12-WordNetNoun) (HiT)。他们训练 Transformer 编码器在建模为庞加莱球的双曲嵌入空间中表示层次结构。在这种几何结构中,层次关系由到原点的径向距离表示:更具体的概念离中心更远,而更一般的概念离中心更近。我们将这个径向距离记为 **Dist0**,它捕捉了层次深度,并作为粒度的主要信号。我们使用在 WordNet 层次结构上训练的变体,因为 WordNet (Miller, 1994 (https://arxiv.org/html/2605.26620#bib.bib1)) 提供了覆盖广泛的常识结构。

虽然 Dist0 捕捉了全局层次位置,但可以通过与空间中其他实体的关系获得额外信号。因此,我们将输入嵌入与一组锚点实体进行比较,并从产生的成对关系中提取特征。在我们的默认配置中,我们使用 999 个随机采样的固定锚点,这在我们消融实验中表现最佳(附录 G (https://arxiv.org/html/2605.26620#A7))。第 3.3 节 (https://arxiv.org/html/2605.26620#S3.SS3) 描述了其他策略。图 2 (https://arxiv.org/html/2605.26620#S3.F2) 说明了得到的流水线。给定一个输入词或短语,模型首先获取一个层次嵌入并提取 Dist0。然后,它使用一个源自 Wikidata (https://huggingface.co/datasets/philippesaade/wikidata) 的嵌入索引,计算到锚点实体的成对相似度和距离特征。为了将这些特征映射到标量粒度分数,我们使用 LightGBM (Ke 等,2017 (https://arxiv.org/html/2605.26620#bib.bib27)) 训练梯度提升决策树。该模型直接对原始相似度和距离值进行操作,从而能够捕捉在预先聚合后会丢失的细粒度交互模式。训练过程和模型超参数的详细信息见附录 E (https://arxiv.org/html/2605.26620#A5)。由于得到的原始分数依赖于 Granola-EQ 的标注,我们使用固定的校准分布将它们转换为百分位分数。我们选择 WordNet 名词集(约 119k 概念),该集也用于训练 HiT 模型,提供了独立于标注者的对齐。附录 F.3 (https://arxiv.org/html/2605.26620#A6.SS3) 显示了标注层级如何映射到原始分数和百分位分数。

### 3.1 数据集
为了训练 LightGBM 模型,我们使用 **GRANOLA-EQ** (Yona 等,2024 (https://arxiv.org/html/2605.26620#bib.bib4)),它是 ENTITYQUESTIONS 数据集 (Sciavolino 等,2021 (https://arxiv.org/html/2605.26620#bib.bib19)) 的扩展。每个数据集条目包含一个问题以及一组指向同一底层 *参考实体* 但处于不同粒度层级的答案。我们将这些答案的有序列表称为 **答案层级**,将单个答案称为 **粒度实现**。在预处理过程中,我们移除具有超过四个粒度实现的条目(少于数据的 1.2%),因为这些通常反映了生成过程中引入的不一致性。由此产生的数据集平均每个问题约有三个实现(2% 有一个,22% 有两个,62% 有三个,14% 有四个)。由于 GRANOLA-EQ 是通过提示 LLM 列出越来越粗略的答案生成的,每个问题的实现数量各不相同,且没有强制固定的层级结构(例如,city→state→country)。LLM 隐式地决定其认为对给定问题合适的答案层级的分辨率。为了获得可比较的训练目标,我们将答案层级归一化到从 1(最细致)到 4(最粗略)的连续尺度上;例如,具有三个答案的层级被映射到水平 {1, 2.5, 4}。由于 GRANOLA-EQ 的构建方式,同一个实体可能出现在不同数据集条目中的不同粒度层级,这取决于问题。

相似文章

粒度轴:语言模型中社会角色的微观到宏观隐式方向

Hugging Face Daily Papers

这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实,这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致,并且可以通过激活 steering(activation steering)进行因果干预。

自然语言推断的多粒度推理

arXiv cs.CL

提出了一种多粒度推理网络(MGRN),该网络显式利用层次语义特征进行自然语言推断,在多个基准测试中优于强基线模型。

GraphARC:基于图结构的抽象推理综合基准

arXiv cs.AI

GraphARC是一个针对图结构数据抽象推理的新基准,将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距,且在大规模实例上性能下降,凸显了扩展挑战。