Narrative-UFET:面向超细粒度实体类型识别的叙事生成

arXiv cs.CL 论文

摘要

本文介绍了Narrative-UFET,一种生成简短叙事以提供超细粒度实体类型识别更广泛上下文的方法,与句子级别的基线相比,它提高了长尾类型的性能。

arXiv:2606.27598v1 Announce Type: new 摘要:超细粒度实体类型识别(UFET)为实体提及分配高度具体的类型,但当前方法在处理长尾类型时面临困难。我们假设一个关键限制是依赖于句子级别的上下文,因为消歧证据通常分布在多个句子中。由于所有现有的UFET资源都是句子级别的,验证这一假设一直很困难。我们提出了Narrative-UFET,一种UFET的受控扩展,其中每个实体提及都与一个自动生成的简短连贯叙事配对。合成叙事使我们能够隔离特定话语属性的影响。我们实验了两个配对变体:一个变体在叙事中保持实体类型不变(Maintain),另一个变体中类型发生改变(Change)。我们表明,与句子级别的基线相比,叙事上下文在长尾类型上带来了一致的改进,其中Change变体提供了更强的信号。与自然出现的上下文进行比较表明,合成叙事产生了更强的增益,这表明受控话语构建可以揭示真实文本隐含的信号。仍有很大的改进空间,这暗示了话语建模和叙事构建的开放方向。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:23

# Narrative-UFET:面向超细粒度实体类型的叙事生成
来源:https://arxiv.org/html/2606.27598
Mreedul Gupta Advait Deshmukh Ashwin Umadi Matt Pauk Maria Leonor Pacheco
科罗拉多大学博尔德分校
\{mreedul.gupta, advait.deshmukh, ashwin.umadi, matt.pauk, maria.pacheco\}@colorado.edu

###### 摘要
超细粒度实体类型(UFET)为实体提及分配高度具体的类型,但现有方法在处理长尾类型时表现不佳。我们假设,关键限制在于对句子级上下文的依赖,因为消歧证据通常分布在多个句子中。由于所有现有UFET资源都是句子级的,因此测试这一假设一直很困难。我们提出Narrative-UFET,一种受控的UFET扩展,其中每个实体提及都与一个自动生成的简短连贯叙事配对。合成叙事使我们能够隔离特定话语属性的影响。我们实验了两种配对变体:一种在叙事中实体类型保持不变(Maintain),另一种类型发生变化(Change)。我们证明,叙事上下文在长尾类型上比句子级基线取得了一致的改进,其中Change变体提供了更强的信号。与自然出现的上下文进行比较表明,合成叙事产生了更强的增益,这表明受控的话语构建可以揭示真实文本中隐含的信号。仍有很大的改进空间,暗示着在话语建模和叙事构建方面都存在开放的研究方向。

## 1 引言
超细粒度实体类型(UFET)是根据实体提及出现的上下文为其分配高度具体类型的任务[Choi等人,2018 (https://arxiv.org/html/2606.27598#bib.bib2)]。与从少量宽泛类别(如person或organization)中选取的粗粒度类型不同,UFET旨在捕捉上下文相关的区分:在句子“In his next note on Baidu, he wrote that the company is trading above its fair value,”中,代词“he”可以粗略地归类为person,但周围上下文支持更具体的类型,如writer、editor或analyst。识别这些细粒度类型对于广泛的下游任务很有价值,包括指代消解[Onoe and Durrett, 2020 (https://arxiv.org/html/2606.27598#bib.bib19)]、实体链接[Ling等人,2015 (https://arxiv.org/html/2606.27598#bib.bib16)]、关系抽取[Koch等人,2014 (https://arxiv.org/html/2606.27598#bib.bib12)]、知识图谱补全[Li等人,2024b (https://arxiv.org/html/2606.27598#bib.bib14)]以及多模态实体识别和标注[Wang等人,2024 (https://arxiv.org/html/2606.27598#bib.bib25); Li等人,2024a (https://arxiv.org/html/2606.27598#bib.bib13)]。

UFET的一个核心挑战是实体分布的长尾问题。大多数当前方法所基于的预训练语言模型(PLM)[Dai等人,2021 (https://arxiv.org/html/2606.27598#bib.bib3); Li等人,2023 (https://arxiv.org/html/2606.27598#bib.bib15); Deshmukh等人,2025 (https://arxiv.org/html/2606.27598#bib.bib4)]在预训练语料中频繁出现的实体上表现良好,但在罕见实体上性能急剧下降[Deshmukh等人,2025 (https://arxiv.org/html/2606.27598#bib.bib4)]。而这恰恰是最需要细粒度消歧的场景。我们假设,这种差距部分源于对句子级上下文的依赖。在文章或书籍等现实场景中,消解细粒度类型所需的证据很少包含在单个句子中。相反,它必须从周围叙事中分布的线索中拼凑起来。然而,测试这一假设一直很困难,因为所有现有的细粒度和超细粒度实体类型标注资源都是句子级的[Riedel等人,2010 (https://arxiv.org/html/2606.27598#bib.bib22); Gillick等人,2014b (https://arxiv.org/html/2606.27598#bib.bib8); Choi等人,2018 (https://arxiv.org/html/2606.27598#bib.bib2); Ling and Weld, 2021 (https://arxiv.org/html/2606.27598#bib.bib17); Ding等人,2021 (https://arxiv.org/html/2606.27598#bib.bib5)]。

为了填补这一空白,我们构建了Narrative-UFET,这是UFET数据集[Choi等人,2018 (https://arxiv.org/html/2606.27598#bib.bib2)]的一个扩展版本,其中每个实体-句子对都与一个围绕目标实体自动生成的简短叙事配对。我们选择合成叙事而不是从真实语料库中检索,因为合成使我们能够控制话语的特定属性,同时保持其他所有条件不变。这种控制是本文的核心方法论步骤,因为它使我们能够隔离单个话语属性对类型性能的影响。作为案例研究,我们构建了Narrative-UFET的两个变体,它们在一个这样的属性上有所不同:在叙事中实体的类型是保持不变(Maintain)还是发生变化(Change)。我们利用这种对比来测试话语中的类型变化是否是超细粒度类型的有用信号。我们通过自动指标和人工评估验证了生成叙事的质量。

在UFET任务上评估掩码和因果PLM时,我们发现叙事上下文在长尾类型上比句子级基线产生了一致的改进,其中Change变体提供了更强的信号。与自然出现的上下文进行比较表明,我们的合成叙事比纯真实文本产生了更强的增益,这表明受控的话语构建可以揭示真实文本中隐含的信号。同时,仍有很大的改进空间,这表明长尾实体类型的进展需要在话语感知建模和叙事构建两方面都取得进步,而不仅仅是我们这里研究的单一维度。

我们的贡献是:(i) Narrative-UFET,一个受控的叙事级UFET扩展,包含两个变体(Maintain和Change);(ii) 证据表明叙事上下文改进了长尾实体的类型,其中Change提供了最强的信号;(iii) 与自然上下文的比较表明,合成叙事揭示了真实文本中隐含的信号。

## 2 相关工作
**叙事生成与评估。** 随着强大生成模型的兴起,大型语言模型(LLM)越来越多地被用于生成高质量的长短叙事,这些叙事展现出更细致的情节发展和风格变化[Goldfarb-Tarrant等人,2020 (https://arxiv.org/html/2606.27598#bib.bib9); Yang等人,2022 (https://arxiv.org/html/2606.27598#bib.bib27); Harel-Canada等人,2024 (https://arxiv.org/html/2606.27598#bib.bib11)]。此外,最近的工作探索了使用LLM评估叙事质量。这是一项复杂的任务,因为质量是多方面的,有时是主观的。先前的工作评估了作为语言流畅性的语法[Naismith等人,2023 (https://arxiv.org/html/2606.27598#bib.bib18)]、作为叙事新颖性指标的创造力和原创性,以及情节和角色发展的一致性以评估故事的连贯性[Chhun等人,2022 (https://arxiv.org/html/2606.27598#bib.bib1); Tian等人,2024 (https://arxiv.org/html/2606.27598#bib.bib24)]。最近的研究还强调了提示工程在引导LLM生成更连贯和上下文适当的叙事方面的重要性[Tang等人,2024 (https://arxiv.org/html/2606.27598#bib.bib23)]。尽管先前的工作推进了叙事生成和评估,但模型如何能将实体-上下文对扩展成一个完整连贯且在进行实体类型评估时保持可靠的叙事,这一点仍不清楚。为了构建Narrative-UFET,我们进行了模型和提示测试以生成叙事。然后,我们通过自动和人工评估验证了Narrative-UFET的有效性。

**UFET与预训练语言模型。** UFET由Choi等人于2018年提出,他们定义了一个任务:给定目标实体提及所在的句子,预测其自由形式的类型标签。随后的工作利用PLM改进了实体类型性能。许多方法将UFET框架为掩码语言建模问题。Dai等人(2021)使用带有[MASK]标记和BERT的Hearst模式来预测实体类型。类似地,Pan等人(2022)通过在输入句子后附加实体提及和[MASK]标记来生成超细粒度类型预测。Deshmukh等人(2025)在此基础上扩展,探索了此类方法在不频繁或罕见实体上的表现,表明除非引入关于罕见实体的额外知识,否则PLM难以处理长尾实体类型,即使如此,所探索的知识注入策略也不足以解决问题。受这些发现启发,我们使用Narrative-UFET来研究更丰富的话语上下文是否有助于PLM更好地预测长尾类型,并评估了掩码和因果PLM。

## 3 Narrative-UFET
在本节中,我们描述Narrative-UFET的构建和评估。我们基于UFET数据集[Choi等人,2018 (https://arxiv.org/html/2606.27598#bib.bib2)]中众包标注的部分,该部分包含5,994个实体提及,每个提及配有周围的句子上下文和一组人工标注的超细粒度类型(以下简称金标准类型),并均匀分为训练集、开发集和测试集。

### 3.1 叙事生成流水线
对于UFET数据集中的每个实体-句子对,我们生成了一个简短、自包含的叙事,该叙事逐字嵌入了原始句子,同时围绕目标实体构建了一个连贯的叙事链。附录A.1.2 (https://arxiv.org/html/2606.27598#A1.SS1.SSS2) 中显示了一个示例叙事。生成流水线包括三个阶段:模型选择、提示设计以及最终数据集生成。

**模型选择。** 我们为开发集中的前100个实例生成了叙事,方法是指导七个不同的模型¹(GPT-OSS-20B、Llama3.3-70B、Gemma3-27B、Qwen3-8B、Qwen3-14B、Qwen3-32B和Mistral-7B)围绕每个目标实体生成简短、连贯的故事,并要求原始UFET句子逐字出现(提示和示例叙事见附录A.1.1 (https://arxiv.org/html/2606.27598#A1.SS1.SSS1) 和A.1.2 (https://arxiv.org/html/2606.27598#A1.SS1.SSS2))。我们在三个维度上测试质量:(1) **叙事质量**,使用TinyStories框架[Eldan and Li, 2023 (https://arxiv.org/html/2606.27598#bib.bib6)],该框架以1-10分制对语法、创造力、一致性和情节进行评分。提示和其他细节见附录A.2 (https://arxiv.org/html/2606.27598#A1.SS2);(2) **话语连贯性**,分别衡量为上下文到故事的对齐度(叙事中每个句子与原始句子的语义相关程度)和故事内部连贯性(每个句子与其前一句的相关程度)。附录A.3 (https://arxiv.org/html/2606.27598#A1.SS3) 显示了实现细节;(3) **指代密度**,分为两类:指代链长度,计算为叙事中目标实体提及的总数,较长的链表示更丰富的以实体为中心的上下文(因为现在有更多关于该实体的信息);指代密度,使用叙事句子数来归一化指代链长度。当模型生成的句子数不完全相同时,这是一个有用的指标。所有指标被赋予同等重要性。此外,进行了定性分析以判断人工评估是否与分数匹配。该分析由单个人工标注者在没有特定指导方针的情况下进行,依赖个人判断来评估生成的叙事。

我们发现模型在各个评估维度上表现不一致。Gemma3-27B模型仅在叙事质量上表现良好,而Mistral-7B模型仅在本应连贯性上表现出色。Qwen3系列模型在所有三个维度上都表现稳定。定性审查显示,Mistral-7B、Llama3.3-70B和Qwen3-8B经常未能逐字包含原始句子,而GPT-OSS-20B和Gemma3-27B产生了重复的叙事模式,减少了上下文的多样性。基于定量和定性评估的综合,我们选择了Qwen3-32B,它在叙事质量、本章应连贯性和指代密度之间取得了最佳平衡。所有结果的详细图表见附录B.1 (https://arxiv.org/html/2606.27598#A2.SS1)。

**提示设计。** 使用Qwen3-32B,我们系统地变化了两个提示维度,并使用上述相同指标在开发集上评估每个维度。(1) **角色数量**:我们测试了指定2个、3个或任意数量实体的提示。无约束的提示产生了最连贯的叙事,因为固定的角色数量引入了不必要的复杂性。(2) **叙事长度**:我们测试了5、10、15和20个句子的长度。10个句子的叙事在连贯性和指代密度之间提供了最佳权衡,较长的叙事在语法和一致性上出现退化。结合所有最优设置的最终提示见附录A.6 (https://arxiv.org/html/2606.27598#A1.SS6)。所有设计维度的详细结果见附录B.2 (https://arxiv.org/html/2606.27598#A2.SS2)。

**最终数据集生成。** 使用最终提示和Qwen3-32B,我们为UFET众包标注集中的所有5,994个实例生成了叙事。每个叙事是一个10句的段落,逐字嵌入原始句子,不限制角色数量。我们生成了两个变体:Narrative-UFET-Change,其中提示指示生成器在叙事中改变目标实体的类型;以及Narrative-UFET-Maintain,其中提示指示保持类型不变。关键的是,UFET的金标准类型从未展示给生成器。提示仅指定类型是否应变化或保持稳定,而不指定使用哪种类型。这确保了在Narrative-UFET下观察到的任何改进都反映了更丰富的话语上下文,而不是直接接触到标签。

### 3.2 人工验证
为了在自动指标之外验证叙事质量,我们对测试集中随机抽样的100个叙事进行了人工评估,包括Narrative-UFET-Change和Narrative-UFET-Maintain。共有四位不同的标注者,每个数据集两位。标注者使用5点李克特量表对六个维度进行评分:语法、创造力、一致性、情节、上下文到故事的连贯性以及故事内部连贯性。评分标准定义见附录C.1 (https://arxiv.org/html/2606.27598#A3.SS1)。对五个示例的试点研究确认了校准,标注者在所有维度上一致或最多相差1分。我们使用Gwet的AC2报告了标注者间一致性[Gwet, 2014 (https://arxiv.org/html/2606.27598#bib.bib10)]。</s>

相似文章

发现用于实体消歧的类型

OpenAI Blog

OpenAI研究人员提出了一种使用类型发现进行实体消歧的新方法,系统从预选类别集中预测实体类型,以解决歧义引用。该方法在实体消歧数据集上取得了最先进的结果,并通过基于类型的权重实现了高效的O(N)运行时实体排序。

引导用户行为实现个性化多模态生成

arXiv cs.AI

本文提出NaviGen框架,通过双标识符和两阶段SFT+RL流水线将用户行为编码为可执行指令,实现个性化多模态内容生成,在商品、游戏和短视频领域提升了个性化效果。