Granuscore：一种用于文本分析和问答的无参考粒度度量

arXiv cs.CL 2026/05/27 04:00 论文

granularity text-analysis question-answering hierarchical-embeddings reference-free evaluation-metric nlp

摘要

Granuscore是一种用于文本分析和问答的无参考粒度度量。它利用分层嵌入空间来捕捉细粒度与粗粒度语言，并在QA基准测试中展示了模型行为的一致差异。

arXiv:2605.26620v1 公告类型：新摘要：自然语言以不同粒度传达信息，从细粒度指代到宽泛描述。虽然粒度对人类交流至关重要，但现有度量大多捕捉表面细节或句子特异性。我们提出Granuscore，一种利用分层嵌入空间结构特性的无参考粒度度量。Granuscore在Granola-EQ数据集上可靠地恢复层次顺序，并捕捉跨语篇上下文中预期的粒度差异。在不同领域，我们进一步展示Granuscore可以解释句子特异性超出句子长度的非线性变化。最后，我们将Granuscore应用于四个问答基准测试，并分析问题、黄金答案和模型输出在不同回答结果中的粒度差异。该分析揭示了模型行为的一致差异，并为表征QA数据集的难度提供了一个原则性视角。这些结果共同将Granuscore定位为一种可扩展、广泛适用的文本粒度分析工具。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:07

# Granuscore：一种用于文本分析与问答的无参考粒度度量方法
来源：https://arxiv.org/html/2605.26620
Lukas Ellinger, Alexander Fichtl, Miriam Anschütz, 和 Georg Groh
德国慕尼黑工业大学计算、信息与技术学院
\{lukas\.ellinger (https://arxiv.org/html/2605.26620v1/mailto:[email protected]), miriam\.anschuetz, alexander\.fichtl\}@tum\.de, grohg@cit\.tum\.de

###### 摘要
自然语言以不同的粒度层次传递信息，从细粒度的指代到宽泛的描述。虽然粒度是人类交流的基础，但现有的度量方法大多仅捕捉表层细节或句子的具体性。我们提出了 **Granuscore**，一种无参考的粒度度量方法，它利用了分层嵌入空间的结构特性。Granuscore 能可靠地恢复 Granola-EQ 数据集上的层次顺序，并捕捉跨不同话语语境中预期的粒度差异。跨多个领域，我们进一步证明 Granuscore 能解释句子具体性中超出句子长度的非线性变化。最后，我们将 Granuscore 应用于四个问答基准，分析问题、黄金答案以及模型输出在不同回答结果中的粒度差异。该分析揭示了模型行为中的一致差异，并为描述 QA 数据集的难度提供了一个原理性视角。这些结果共同确立了 Granuscore 作为一种可扩展、广泛适用的文本粒度分析工具的地位。

![[未标注图片]](https://arxiv.org/html/2605.26620v1/assets/granu.png)

Granuscore：一种用于文本分析与问答的无参考粒度度量方法
Lukas Ellinger, Alexander Fichtl, Miriam Anschütz, 和 Georg Groh
德国慕尼黑工业大学计算、信息与技术学院
\{lukas\.ellinger (https://arxiv.org/html/2605.26620v1/mailto:[email protected]), miriam\.anschuetz, alexander\.fichtl\}@tum\.de, grohg@cit\.tum\.de

## 1 引言
自然语言不仅在*传达什么信息*上有所不同，还在*信息表达的粗细程度*上存在差异。考虑图 1 (https://arxiv.org/html/2605.26620#S1.F1) 中的句子。说话者可能将一个人称为 *Tony Hawk*、*一名滑板手* 或 *一名运动员*，也可能将一个事件定位于 *圣地亚哥*、*加利福尼亚* 或 *美国*。这些替代方案保留了基本事实，但以不同的层级进行指代。我们将这一维度称为 **粒度**：语言中实体或事件被表征的抽象层级 (Mulkar-Mehta 等，2011 (https://arxiv.org/html/2605.26620#bib.bib50); Rosch 等，1976 (https://arxiv.org/html/2605.26620#bib.bib49); Hobbs, 1985 (https://arxiv.org/html/2605.26620#bib.bib56))。粒度并非偶然：说话者会根据对话语境和任务需求调整其描述的抽象层级 (Mulkar-Mehta 等，2011 (https://arxiv.org/html/2605.26620#bib.bib50); Hobbs, 1985 (https://arxiv.org/html/2605.26620#bib.bib56))。当不确定时，说话者通常倾向于使用虽能传递信息但不过度承诺的粗略事实描述。相反，当建立了共同基础后，更细粒度的指代则变得合适 (Yona 等，2024 (https://arxiv.org/html/2605.26620#bib.bib4))。因此，粒度应被理解为一种旨在平衡可靠性和受众期望的有意策略。

参见说明文字 图 1：含有不同粒度指代单元的句子。不同句子间有差异的单元已加下划线。将细粒度术语替换为更粗略的替代项会增加句子粒度：较低的 Granuscore 表示更细致的表达。

先前的研究表明，语言粒度会影响信息的感知和使用。在对话系统中，过于细致或粗略的回应可能会降低用户满意度 (Adiwardana 等，2020 (https://arxiv.org/html/2605.26620#bib.bib7); Thoppilan 等，2022 (https://arxiv.org/html/2605.26620#bib.bib30))。类似地，在简化语言环境中，控制粒度对于可访问性和理解至关重要，因为它能减轻认知负荷 (OECD, 2024 (https://arxiv.org/html/2605.26620#bib.bib48); Anschütz 等，2025 (https://arxiv.org/html/2605.26620#bib.bib32))。然而，系统性地研究这些效应是困难的，因为现有方法无法在句子层面提供可扩展的、无参考的粒度度量。我们的贡献如下：

- • 我们引入了 **Granuscore**，一种无参考的粒度度量方法，它利用了分层嵌入空间的结构特性。
- • 我们通过经验和概念两个层面验证了 Granuscore。它能可靠地恢复 Granola-EQ (Yona 等，2024 (https://arxiv.org/html/2605.26620#bib.bib4)) 上人工标注的顺序，并捕捉跨不同话语语境中预期的粒度差异。
- • 我们证明，跨多个领域，Granuscore 能解释句子具体性中超出句子长度的非线性变化。
- • 我们展示了 Granuscore 在问答任务中的实际相关性。通过在四个 QA 基准上评估六个语言模型，我们识别出问题、黄金答案以及模型输出在不同回答结果中的粒度存在一致差异。这些模式为描述 QA 数据集难度和分析模型行为提供了一个原理性视角。
- • 我们将 Granuscore 作为一个 pip 包 (https://github.com/lukasellinger/granuscore) 发布，以确保可复现性，并支持其在进一步研究或生产中的使用。

## 2 背景与相关工作

#### 粒度
Mulkar-Mehta 等 (2011 (https://arxiv.org/html/2605.26620#bib.bib50)) 将自然语言中的粒度描述为粗略与细致描述之间的转换，其中较高层次的表征从更详细的组成部分中抽象出来。在认知科学中也有类似观点，概念在分类体系中以不同的抽象层级组织 (Rosch 等，1976 (https://arxiv.org/html/2605.26620#bib.bib49))。此外，Hobbs (1985 (https://arxiv.org/html/2605.26620#bib.bib56)) 的基础性工作认为，智能推理需要以多个粒度层级表征世界，并根据需要在不同层级间切换，从而允许通过更简单的抽象来建模复杂现象。

一个相关的属性是 **术语具体性**，它指的是识别将一类文档与其他文档区分开来的索引术语。特别地，Kim (2006 (https://arxiv.org/html/2605.26620#bib.bib10)) 将 **层次具体性** 描述为术语在泛化-具体层级结构中的位置，其中更窄的术语对应更具体的概念，这与粒度的概念相符。我们利用分层嵌入空间的结构特性来捕捉这些思想。与依赖人工构建层次结构的方法不同，这使我们能够在不受预定义词汇限制的情况下估计粒度。

#### 句子具体性
**句子具体性** 指的是句子传达具体信息并支持读者间一致解释的程度 (Li 等，2016 (https://arxiv.org/html/2605.26620#bib.bib11); Ko 等，2019 (https://arxiv.org/html/2605.26620#bib.bib16))。先前的工作已显示其对阅读理解 (Dixon, 1987 (https://arxiv.org/html/2605.26620#bib.bib35)) 和在对话中建立共同基础 (Djalali 等，2011 (https://arxiv.org/html/2605.26620#bib.bib34)) 的重要性。尽管更细粒度的指代通常会增加句子的具体性，但粒度和句子具体性捕捉的是不同的属性。句子具体性反映的是句子传递的描述性信息的量，而粒度描述的是指代表达在语义层级结构中出现的层级。因此，一个句子可以通过添加描述性细节变得更加具体，而无需改变其指称对象的粒度。例如，“The skateboarder won the competition” 在 “The skateboarder won the competition and set a new record.” 中变得更加具体。指称对象保持在同一粒度层级，但句子传达了更多信息。

#### 粒度评估
虽然粒度在关于具体性、信息量和语义层级结构的工作中已被隐含讨论 (Thoppilan 等，2022 (https://arxiv.org/html/2605.26620#bib.bib30); Adiwardana 等，2020 (https://arxiv.org/html/2605.26620#bib.bib7); Ko 等，2019 (https://arxiv.org/html/2605.26620#bib.bib16); Li 等，2016 (https://arxiv.org/html/2605.26620#bib.bib11))，现有的自动评估通常依赖于分类体系深度（例如，WordNet 上位词层级 (Miller, 1994 (https://arxiv.org/html/2605.26620#bib.bib1)) 或知识图谱如 Wikidata (Vrandečić and Krötzsch, 2014 (https://arxiv.org/html/2605.26620#bib.bib53); Huang 等，2023 (https://arxiv.org/html/2605.26620#bib.bib15)) 中的层次关系）。然而，这些方法要求实体存在于底层分类体系中，因此对自由文本的覆盖范围有限。相比之下，基于嵌入的方法可以直接对任意文本进行操作。Huang 等 (2023 (https://arxiv.org/html/2605.26620#bib.bib15)) 提出了一种使用源自 Wikidata 的传递关系来衡量具体性的自动基准。然而，由此产生的排序可能会产生不直观的比较，例如，将 *Mexico* 评为比 *Colombia* 更细致，或将 *historian* 评为比 *writer* 更细致。因此我们承认这个数据集的存在，但不在我们的实验中使用它。Yona 等 (2024 (https://arxiv.org/html/2605.26620#bib.bib4)) 引入了 Granola-EQ，一个具有显式控制答案粒度层级的问答数据集。他们展示了标准的解码方法往往会产生过度细致且常常错误的答案。我们基于该数据集训练 Granuscore，并通过将粒度估计应用于更广泛的 QA 数据集来扩展他们的分析，研究粒度与模型输出、正确性以及数据集难度之间的关系。

#### 用于信息量和趣味性的训练信号
模型响应的信息量在用户参与度和响应质量中起着核心作用 (Adiwardana 等，2020 (https://arxiv.org/html/2605.26620#bib.bib7); Thoppilan 等，2022 (https://arxiv.org/html/2605.26620#bib.bib30))。虽然早期工作依赖人工标注来监督信息量 (Adiwardana 等，2020 (https://arxiv.org/html/2605.26620#bib.bib7); Thoppilan 等，2022 (https://arxiv.org/html/2605.26620#bib.bib30))，最近的方法则使用基于 LLM 的评判者通过比较响应对来获得相对偏好信号 (Wu 等，2025 (https://arxiv.org/html/2605.26620#bib.bib9))。类似地，Onozeki and Inaba (2025 (https://arxiv.org/html/2605.26620#bib.bib6)) 引入了趣味性作为训练信号，并使用 LLM 评判者来分配分数。与这些依赖人工监督、成对比较或基于模型的判断的方法不同，Granuscore 提供了一个无参考、可扩展的信号，能在绝对且可解释的尺度上测量粒度。

## 3 Granuscore

参见说明文字 图 2：Granuscore 流水线：提取层次深度 (Dist0) 并与锚点实体比较，随后通过梯度提升树和百分位校准生成标量粒度分数。

Granuscore 通过利用分层嵌入空间的结构特性来衡量语义粒度，其中**较低的分数**对应**更细致的表达**。我们基于 Chen 等 (2024 (https://arxiv.org/html/2605.26620#bib.bib25)) 提出的 **Hierarchy Transformer 模型** (https://huggingface.co/Hierarchy-Transformers/HiT-MiniLM-L12-WordNetNoun) (HiT)。他们训练 Transformer 编码器在建模为庞加莱球的双曲嵌入空间中表示层次结构。在这种几何结构中，层次关系由到原点的径向距离表示：更具体的概念离中心更远，而更一般的概念离中心更近。我们将这个径向距离记为 **Dist0**，它捕捉了层次深度，并作为粒度的主要信号。我们使用在 WordNet 层次结构上训练的变体，因为 WordNet (Miller, 1994 (https://arxiv.org/html/2605.26620#bib.bib1)) 提供了覆盖广泛的常识结构。

虽然 Dist0 捕捉了全局层次位置，但可以通过与空间中其他实体的关系获得额外信号。因此，我们将输入嵌入与一组锚点实体进行比较，并从产生的成对关系中提取特征。在我们的默认配置中，我们使用 999 个随机采样的固定锚点，这在我们消融实验中表现最佳（附录 G (https://arxiv.org/html/2605.26620#A7)）。第 3.3 节 (https://arxiv.org/html/2605.26620#S3.SS3) 描述了其他策略。图 2 (https://arxiv.org/html/2605.26620#S3.F2) 说明了得到的流水线。给定一个输入词或短语，模型首先获取一个层次嵌入并提取 Dist0。然后，它使用一个源自 Wikidata (https://huggingface.co/datasets/philippesaade/wikidata) 的嵌入索引，计算到锚点实体的成对相似度和距离特征。为了将这些特征映射到标量粒度分数，我们使用 LightGBM (Ke 等，2017 (https://arxiv.org/html/2605.26620#bib.bib27)) 训练梯度提升决策树。该模型直接对原始相似度和距离值进行操作，从而能够捕捉在预先聚合后会丢失的细粒度交互模式。训练过程和模型超参数的详细信息见附录 E (https://arxiv.org/html/2605.26620#A5)。由于得到的原始分数依赖于 Granola-EQ 的标注，我们使用固定的校准分布将它们转换为百分位分数。我们选择 WordNet 名词集（约 119k 概念），该集也用于训练 HiT 模型，提供了独立于标注者的对齐。附录 F.3 (https://arxiv.org/html/2605.26620#A6.SS3) 显示了标注层级如何映射到原始分数和百分位分数。

### 3.1 数据集
为了训练 LightGBM 模型，我们使用 **GRANOLA-EQ** (Yona 等，2024 (https://arxiv.org/html/2605.26620#bib.bib4))，它是 ENTITYQUESTIONS 数据集 (Sciavolino 等，2021 (https://arxiv.org/html/2605.26620#bib.bib19)) 的扩展。每个数据集条目包含一个问题以及一组指向同一底层 *参考实体* 但处于不同粒度层级的答案。我们将这些答案的有序列表称为 **答案层级**，将单个答案称为 **粒度实现**。在预处理过程中，我们移除具有超过四个粒度实现的条目（少于数据的 1.2%），因为这些通常反映了生成过程中引入的不一致性。由此产生的数据集平均每个问题约有三个实现（2% 有一个，22% 有两个，62% 有三个，14% 有四个）。由于 GRANOLA-EQ 是通过提示 LLM 列出越来越粗略的答案生成的，每个问题的实现数量各不相同，且没有强制固定的层级结构（例如，city→state→country）。LLM 隐式地决定其认为对给定问题合适的答案层级的分辨率。为了获得可比较的训练目标，我们将答案层级归一化到从 1（最细致）到 4（最粗略）的连续尺度上；例如，具有三个答案的层级被映射到水平 {1, 2.5, 4}。由于 GRANOLA-EQ 的构建方式，同一个实体可能出现在不同数据集条目中的不同粒度层级，这取决于问题。

Granuscore：一种用于文本分析和问答的无参考粒度度量

相似文章

粒度轴：语言模型中社会角色的微观到宏观隐式方向

RAG基准应精细到何种程度？一种层次化合成问题生成框架

自然语言推断的多粒度推理

从场景到元素：可验证多模态RAG的多粒度证据检索

GraphARC：基于图结构的抽象推理综合基准

提交意见反馈