历史文本中命名实体识别的时间融合策略研究

arXiv cs.CL 2026/06/29 04:00 论文

摘要

本文系统研究了如何将时间元数据结构性地嵌入到面向历史文本的命名实体识别（NER）模型中。通过采用早期或晚期融合机制注入绝对和相对时间表示的实验表明，晚期融合策略在法语和德语历史数据集上展现出更稳健的性能。

arXiv:2606.27881v1 Announce Type: new 摘要：时间变化给历史文本中的命名实体识别（NER）带来了独特挑战，因为实体的表层形式和显著性会随时间漂移。尽管语言模型（LMs）在各种NLP任务中取得了进展，但其在时间性推理方面，尤其是在历时语境下的能力仍然有限或至少值得怀疑。本文系统研究了如何通过一系列轻量级融合策略将时间元数据结构性地嵌入到NER模型中。我们尝试了绝对和相对时间表示，通过早期或晚期融合机制（如交叉注意力、适配器和拼接）注入到基于Transformer的架构中。在法语和德语历史数据集上的评估显示，晚期融合策略在时间泛化性能上更为稳健，尤其是在早期和噪声较大的时期。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:24

# 历史文本命名实体识别中的时间融合策略研究
来源：https://arxiv.org/html/2606.27881
11institutetext:数字人文实验室，EPFL，洛桑，瑞士###### 摘要

时间变化给历史文本中的命名实体识别（NER）带来了独特的挑战，因为实体的表面形式和显著性会随时间漂移。虽然语言模型（LMs）在各种自然语言处理任务中取得了进展，但它们推理时间性（尤其是在历时语境下）的能力仍然有限，或者至少值得怀疑。在本文中，我们系统性地研究了如何使用一系列轻量级融合策略，将时间元数据结构性地嵌入到NER模型中。我们实验了绝对和相对时间表示，并通过早期或晚期融合机制（如交叉注意力、适配器和拼接）将其注入到基于Transformer的架构中。我们在法语和德语历史数据集上的评估显示，晚期融合策略在鲁棒性和时间泛化性能上表现更佳，尤其是在早期和有噪声的时期。

## 1引言

语言本质上是具有时间性的：其词汇、结构和指称对象都随时间演变。然而，尽管语言模型具有泛化能力，它们仍在时间推理方面存在困难[7 (https://arxiv.org/html/2606.27881#bib.bib29),16 (https://arxiv.org/html/2606.27881#bib.bib3),20 (https://arxiv.org/html/2606.27881#bib.bib38),21 (https://arxiv.org/html/2606.27881#bib.bib32),23 (https://arxiv.org/html/2606.27881#bib.bib33),24 (https://arxiv.org/html/2606.27881#bib.bib5),39 (https://arxiv.org/html/2606.27881#bib.bib35),27 (https://arxiv.org/html/2606.27881#bib.bib24),36 (https://arxiv.org/html/2606.27881#bib.bib25),37 (https://arxiv.org/html/2606.27881#bib.bib1)]。研究表明，即使是像GPT-4这样的先进（生成式）模型，也存在方向性偏差[25 (https://arxiv.org/html/2606.27881#bib.bib27)]、随时间校准不良[2 (https://arxiv.org/html/2606.27881#bib.bib28)]，以及难以保留或推理时间锚定事实的问题[6 (https://arxiv.org/html/2606.27881#bib.bib4)]。这一限制在历史文本的命名实体识别（NER）等任务中尤为突出，因为实体随时间演变、漂移或完全消失[3 (https://arxiv.org/html/2606.27881#bib.bib44),8 (https://arxiv.org/html/2606.27881#bib.bib10),9 (https://arxiv.org/html/2606.27881#bib.bib9),10 (https://arxiv.org/html/2606.27881#bib.bib21),pawłowski2024nlpfordigital,28 (https://arxiv.org/html/2606.27881#bib.bib12)]。虽然时间性在基于视频的推理中研究较多[18 (https://arxiv.org/html/2606.27881#bib.bib36),21 (https://arxiv.org/html/2606.27881#bib.bib32)]，但在NLP任务如问答[1 (https://arxiv.org/html/2606.27881#bib.bib15),4 (https://arxiv.org/html/2606.27881#bib.bib34),13 (https://arxiv.org/html/2606.27881#bib.bib41),17 (https://arxiv.org/html/2606.27881#bib.bib40),30 (https://arxiv.org/html/2606.27881#bib.bib26),33 (https://arxiv.org/html/2606.27881#bib.bib31),37 (https://arxiv.org/html/2606.27881#bib.bib1)]或检索增强[11 (https://arxiv.org/html/2606.27881#bib.bib6)]中，历史NER仍然相对未被充分探索。

最近的研究引入了诸如时间向量[24 (https://arxiv.org/html/2606.27881#bib.bib5)]、时间戳感知预训练[6 (https://arxiv.org/html/2606.27881#bib.bib4)]、时间图[19 (https://arxiv.org/html/2606.27881#bib.bib42),22 (https://arxiv.org/html/2606.27881#bib.bib43),29 (https://arxiv.org/html/2606.27881#bib.bib47),32 (https://arxiv.org/html/2606.27881#bib.bib49)]和动态知识编辑[38 (https://arxiv.org/html/2606.27881#bib.bib2)]等时间表示，以帮助模型编码时间信号。然而，这些方法仍然与NER等令牌级别任务脱节。诸如探测[14 (https://arxiv.org/html/2606.27881#bib.bib48),34 (https://arxiv.org/html/2606.27881#bib.bib46)]和TEMPLAMA[6 (https://arxiv.org/html/2606.27881#bib.bib4)]等时间诊断测试的可解释性研究证实，时间信息在模型权重中往往只被弱表示。

在NER领域，早期应对时间漂移的努力集中在高变动环境（如社交媒体不同平台）中的采样或数据增强[5 (https://arxiv.org/html/2606.27881#bib.bib8),28 (https://arxiv.org/html/2606.27881#bib.bib12),35 (https://arxiv.org/html/2606.27881#bib.bib18)]。与此同时，历史NER引入了复合挑战：历时漂移、OCR退化以及多语言变异。诸如HIPE[8 (https://arxiv.org/html/2606.27881#bib.bib10),9 (https://arxiv.org/html/2606.27881#bib.bib9),10 (https://arxiv.org/html/2606.27881#bib.bib21)]等基准测试奠定了基础，更新的工作开始探索通过上下文检索[29 (https://arxiv.org/html/2606.27881#bib.bib47)]、时间知识图注入[12 (https://arxiv.org/html/2606.27881#bib.bib14)]或基于LLM的推理[15 (https://arxiv.org/html/2606.27881#bib.bib17)]来实现时间感知的接地。虽然这是一个良好的开端，但没有人系统地比较架构融合策略或直接评估模型在实践中是否内化时间信息。

在本文中，我们 (1) 使用显式年份嵌入系统性地将时间信息注入Transformer架构，(2) 设计并比较一套模块化、可解释的融合策略，这些策略在模型的不同点（例如，早期与晚期）纳入时间信息，以及 (3) 跨年代和语言对其影响进行基准测试，同时探测模型是否真正内化时间信号。我们希望这项研究能够有助于更清晰地理解如何将时间结构性地整合到令牌级别模型中，并为未来在（实用）历史NLP和时间感知序列建模方面的工作提供信息。

## 2将时间性纳入NER

##### 任务形式化。

我们将历史命名实体识别（NER）视为一个直接的令牌分类任务，只是增加了时间维度。每个输入由一个令牌序列X=\(x_1,x_2,...,x_n\)以及文档的出版年份year∈ℕ组成。目标是为每个令牌x_i分配一个标签l_i，从标准实体分类法中选择或标记为非实体。我们使用基于Transformer的架构，其中编码器生成上下文化的令牌表示H=Encoder(X)∈ℝ^(T×d)，其中T是令牌数量，d是隐藏层大小。每个标签l_i然后从h_i∈ℝ^d（令牌x_i的上下文化表示）预测。

##### 时间融合策略。

为了实现令牌分类模型的时间适应，我们引入了一个时间融合模块，将时间上下文整合到令牌表示中。该模块使用几种策略之一，将上下文化的编码器输出与特定年份的嵌入融合。我们将其分为两种融合类型：

- •早期融合，在编码之前或期间注入时间信息；以及
- •晚期融合，将时间信息应用于编码器输出。

我们以两种时间信息编码模式探索这些策略：

- •绝对模式，嵌入索引直接对应出版年份（例如，1889）；以及
- •时间距离模式，我们计算文档出版日期与固定参考年（即2025年）之间的年数，为更近期的文档分配较低的索引。

更具体地说，令y=Emb(year)∈ℝ^d表示文档出版年份的嵌入。

##### 基线。

此策略完全跳过时间融合，即\~H_t=H_t，并作为控制条件。

### 早期融合

##### 交叉注意力融合（早期交叉注意力）。

在编码*之前*，通过令牌嵌入和年份嵌入之间的交叉注意力注入时间信息：

\~H=H+MultiHeadAttention(Q=H,K=y,V=y),

其中H表示输入令牌嵌入，y是年份嵌入，广播以匹配输入长度。此机制允许每个令牌在编码期间直接关注时间上下文。

### 晚期融合

##### 适配器融合（适配器）。

一个轻量级MLP（适配器）处理年份嵌入并将结果添加到每个令牌：

\~H_t=H_t+MLP(y),   MLP:ℝ^d→ℝ^d.

##### 拼接融合（concat）。

许多任务中的通用融合技术。年份嵌入与每个令牌向量拼接并投影回原始维度：

\~H_t=W·[H_t;y],   W∈ℝ^(2d×d).

##### 相对时间融合（relative）。

一个非线性编码器将年份嵌入转换为相对时间表示，用于类似特征级线性调制（FiLM）的调制[26 (https://arxiv.org/html/2606.27881#bib.bib7)]：

y'=LayerNorm(SiLU(Wy)),
\~H_t=γ(y')⊙H_t+β(y'),

其中：SiLU(x)=x·σ(x)是S型线性单元，σ(x)是逻辑S型函数。

##### 交叉注意力融合（晚期交叉注意力）。

使用交叉注意力将时间信息与编码器输出融合，类似于早期融合，但在编码*之后*进行：

\~H=H+MultiHeadAttention(Q=H,K=y,V=y).

## 3实验设置

##### 数据集。

我们的实验基于hipe2020数据集，该数据集包含在HIPE-2022共享任务中[10 (https://arxiv.org/html/2606.27881#bib.bib21)]。我们仅关注法语和德语子集，它们包含时间建模所需的出版年份元数据（由于缺少训练数据，排除了英语子集）。我们使用粗粒度实体分类法（loc, org, pers, time, prod），并保留所有文档，无论其时间跨度如何。法语数据涵盖1798–2018年，包含10,923个标注提及，平均OCR噪声率约为≈33%；德语子集涵盖1798–1950年，包含6,584个提及，OCR噪声率约为≈43%。虽然所有分割都覆盖了广泛的时间范围，但我们的目标不是模拟时间泛化，而是分析模型中时间信息的结构性纳入。

##### 评估与超参数。

我们使用微观平均F1分数评估所有模型，在实体级别计算。所有模型均使用标准Transformer架构进行微调，以多语言历史变体为基础模型¹¹（https://huggingface.co/dbmdz/bert-base-historic-multilingual-cased）[31 (https://arxiv.org/html/2606.27881#bib.bib45)]，最大序列长度为512个令牌。模型以批量大小16训练5个epoch，使用固定种子（2025）以确保可重复性。

#### 3.0.1 跨时间策略的NER性能。

为了评估时间条件化的有效性，我们在图1 (https://arxiv.org/html/2606.27881#S3.F1) 中绘制了每种融合策略在两种时间模式（绝对和时间距离）下跨出版年份的F1分数。乍一看，我们可能看不到显著的改进，但我们确实观察到两种语言中一些细微的时间模式：

参见图注

参见图注

图1：在HIPE-2020的法语（顶部）和德语（底部）子集上，两种时间模式（绝对（左）和时间距离（右））下随时间变化的F1分数。
- •1800–1850：早期时期的F1分数表现出高变异性，可能是由于OCR噪声和稀疏的标注。晚期融合策略在鲁棒性方面表现出显著优势，特别是在时间距离模式下，优于基线和早期融合。
- •1850–1900：所有模型的性能趋于稳定。虽然所有策略都受益于数据质量的提高，但晚期融合仍然保持轻微优势，尤其是在法语中。早期融合对时间编码选择更为敏感。
- •1900–1950：F1分数再次波动，尤其是在德语中，在1940–1950年左右出现下降。这可能是由于文档稀缺或历史正字法不一致。晚期融合再次表现出更强的弹性。
- •1950–2000：基线模型迎头赶上，但晚期融合策略仍保持优越性，特别是在德语子集中。性能差距缩小，表明在现代几十年中，时间条件化的边际收益递减。
- •2000–2018：由于更好的OCR和更标准化的数据，所有模型稳步提高。然而，晚期融合策略仍然略微优于其他策略，反映了即使时间漂移较低时，它们也能跨时间泛化的能力。

总体而言，我们观察到所有时间融合策略，特别是晚期融合策略，在两种语言中持续提高了NER性能，一些好处在早期或有噪声的时期最为明显。但在确定这些结果的显著性之前，我们接下来分析其他可能的影响因素。

#### 3.0.2 绝对时间与基于距离的编码。

我们通过计算每种策略的平均F1分数差异（图2 (https://arxiv.org/html/2606.27881#S3.F2)），比较绝对时间编码与时间距离编码的影响。

参见图注(a)法语
参见图注(b)德语

图2：时间距离模式与绝对时间模式之间的平均F1分数差异，为每种融合策略计算。正值表示性能改善。

我们看到，在德语中，像concat、relative和adapter这样的策略受益于时间距离编码（最高+3 F1），表明时间泛化能力得到改善。然而，在法语中，效果不太一致：虽然concat略有提升，但其他策略如adapter和晚期交叉注意力在绝对编码下表现更好。这些结果表明，虽然时间模式的选择次于融合策略，但它仍然可以影响结果，并且应该根据每种语言和设置进行调整。

#### 3.0.3 实体长度敏感性。

为了探索时间策略是否对不同表面复杂性的实体提及产生不同影响，我们根据字符长度对实体进行分类：10个字符或以下的视为*短实体*，11到20个字符之间的视为*中等实体*，超过20个字符的视为*长实体*。对于每组，我们计算平均F1分数，并分析长实体和短实体之间的性能差距，记为ΔF1 = F1_长 - F1_短。

参见图注

参见图注

图3：法语（顶部）和德语（底部）中长实体提及与短实体提及之间的F1分数差异（ΔF1 = F1_长 - F1_短），跨年代和每种时间模式的融合策略。

图3 (https://arxiv.org/html/2606.27881#S3.F3) 展示了HIPE-2020语料库法语（左）和德语（右）子集的长度敏感性分析。我们观察到，晚期融合策略在两种语言中，对于较长实体，往往表现出更稳定或略微积极增益，尤其是在早期年代，那时表面形式往往更长或结构更复杂。这种效果是

历史文本中命名实体识别的时间融合策略研究

相似文章

融合并非放之四海而皆准：面向时间-事件建模的跨模态表示对齐

HIPE-2026 概述：从多语言历史文本中抽取人物-地点关系

通过人口统计条件融合嵌入学习视角主义社会意义

时间序列基础模型是否已准备好处理电子鼻数据？对其嵌入表示的实证评估

@mayhewsw 新论文：我知道现在流行把算力规模扩大10倍，让模型一步步思考并使用工具，但……

提交意见反馈