结构引导实体解析：微调大语言模型实现复杂语言环境下的鲁棒姓名匹配

arXiv cs.CL 2026/05/25 04:00 论文

entity-resolution fine-tuning llm name-matching linguistic-diversity acl-2026 production-deployment

摘要

本文提出结构引导实体解析（SGER）框架，通过课程学习微调大语言模型，在语言多样化环境中实现鲁棒的人名匹配，在印度身份数据上达到99.02%准确率，并已在Dream11部署。

arXiv:2605.23597v1 公告类型：新摘要：在异质记录间匹配人名是实体解析的核心挑战，尤其在语言和文化复杂的环境中。命名惯例的差异、不同文字间的不一致音译以及频繁的数据录入错误，使得统一用户身份变得困难，而这是了解你的客户（KYC）合规的基本要求。尽管大语言模型在理解自然语言方面展现出潜力，但它们往往难以处理特定领域设置中的结构化歧义。本文提出结构引导实体解析（SGER），一种新颖的框架，通过两阶段课程微调大语言模型。模型首先被训练解析人名的语法和语义结构，然后针对二元实体匹配的下游任务进行优化。我们在印度身份数据这一全球语言最多样化、噪声最多的环境中评估SGER。SGER在5万个真实世界配对保留集上达到99.02%准确率和0.994的F1值，优于GPT-4o少样本提示和单阶段微调基线。该系统已全面部署在全球最大的梦幻体育平台Dream11的生产环境中，服务超过2.5亿用户。我们的结果表明，课程引导训练能够在大规模多语言现实系统中实现鲁棒、高精度的实体解析。

查看原文

查看缓存全文

缓存时间: 2026/05/25 09:02

# 结构引导的实体解析：在复杂语言背景下微调大语言模型以实现稳健姓名匹配提交至 ACL 2026。此为作者预印本版本；最终版本将发表于计算语言学协会第64届年会论文集。
来源：https://arxiv.org/html/2605.23597
Hitesh Kapoor Dream Sports hitesh\.p\.kapoor@gmail\.com Nilesh Patil Dream Sports nilesh@urgrad\.rochester\.edu

###### 摘要

在跨异构记录中匹配人名是实体解析的核心挑战，尤其是在语言和文化复杂的环境中。命名惯例的差异、跨文字的音译不一致以及频繁的数据录入错误，使得统一用户身份变得困难，而这是“了解你的客户”（KYC）合规性的基本要求。尽管大语言模型在理解自然语言方面展现了潜力，但它们常常难以处理此类领域特定场景中存在的结构歧义。本文提出结构引导的实体解析（Structure-Guided Entity Resolution, SGER），一种通过两阶段课程微调大语言模型的新框架。该模型首先被训练解析人名的语法和语义结构，然后针对下游的二元实体匹配任务进行优化。我们在印度身份数据这一全球语言最多样且噪声最大的环境中评估SGER。在50,000个真实世界配对组成的留出集上，SGER达到了99.02%的准确率和0.994的F1分数，优于GPT-4o的少样本提示和单阶段微调基线。该系统已在全球最大的奇幻体育平台Dream11中全面部署，服务于2.5亿+用户。我们的结果表明，课程引导的训练能够在大规模、真实世界的多语言系统中实现稳健、高精度的实体解析。

# 结构引导的实体解析：在复杂语言背景下微调大语言模型以实现稳健姓名匹配††感谢：已提交至ACL 2026。此为作者预印本版本；最终版本将发表于计算语言学协会第64届年会论文集。

Shivam ChourasiaDream Sportschshivam@utexas\.eduHitesh KapoorDream Sportshitesh\.p\.kapoor@gmail\.comNilesh PatilDream Sportsnilesh@urgrad\.rochester\.edu

## 1 引言

实体解析（Entity Resolution, ER）是识别指向同一真实世界实体的记录的任务（Elmagarmid等人，2007 (https://arxiv.org/html/2605.23597#bib.bib3)；Fellegi and Sunter, 1969 (https://arxiv.org/html/2605.23597#bib.bib19)）。在KYC和AML等合规性要求较高的领域，实体解析的质量直接影响运营和监管。这一挑战在文化和语言多样化的背景下尤为突出，因为姓名并非稳定的键，它们随文化惯例、书写系统、数据录入实践以及数字化的种种问题而变化。

这些困难在印度尤其明显。不同地区和社区的命名惯例各异，且没有统一标准来界定哪些成分属于名、中间名或姓。同一个人的姓名可能包含父名、种姓名或村庄名作为组成部分，这些惯例因地区和社区而异。诸如“-bhai”和“-ji”之类的敬语和社会后缀在日常使用中出现，在正式记录中却消失。文字不同，从天城文、孟加拉文、泰米尔文等文字到拉丁字母的转写也不统一（国际标准化组织，2001 (https://arxiv.org/html/2605.23597#bib.bib23)；Steinberger等人，2013 (https://arxiv.org/html/2605.23597#bib.bib18)）。操作流水线增加了其他变异来源：手动录入引入打字错误，OCR则合并令牌并删除空格。同一个人可能在PAN卡上显示为“Shubham Kumar Singh”，在银行记录中为“Shubham K Singh”，在水电费账单扫描件中为“ShubhamKumarSingh”。表1 (https://arxiv.org/html/2605.23597#S1.T1)列出了具体例子。

我们的平台Dream11是服务于2.5亿+用户的全球最大奇幻体育平台，每天都面临这些变异。遗漏的链接会阻止合法用户完成验证，虚假链接则可能无法标记试图创建多个账户的欺诈者。这种碎片化是大规模平台每天面临的高量级挑战。传统方法的局限性导致高假阳性率和假阴性率，带来了显著的运营成本和监管风险。编辑距离、Jaro-Winkler和语音编码等经典技术提供了有用的信号，但难以应对问题的完整结构（Cohen等人，2003 (https://arxiv.org/html/2605.23597#bib.bib20)；Christophides等人，2020 (https://arxiv.org/html/2605.23597#bib.bib2)）。

大语言模型改变了格局，因为它们能够捕捉超出局部字符编辑的规律性。先前的工作表明，微调后的LLM可以超越传统的实体解析系统（Peeters等人，2024 (https://arxiv.org/html/2605.23597#bib.bib9)；Steiner等人，2024 (https://arxiv.org/html/2605.23597#bib.bib7)；Li等人，2024 (https://arxiv.org/html/2605.23597#bib.bib11)；Fan等人，2024 (https://arxiv.org/html/2605.23597#bib.bib12)；Xin等人，2024 (https://arxiv.org/html/2605.23597#bib.bib13)）。然而，直接在二元决策上训练会迫使模型同时学习姓名结构和决策边界，在结构强但隐式的领域中留下了性能未被充分利用的空间。

我们提出结构引导的实体解析（SGER）。我们采用Llama 3 8B并进行两阶段微调。阶段一教会模型将原始姓名映射到包含first_name、middle_name和last_name字段的JSON模式。阶段二从阶段一的检查点开始，训练一个二元分类器。在来自印度KYC工作流的50,000个独立验证对中，SGER达到了99.02%的准确率和0.994的F1分数。我们描述了部署在生产环境中处理身份验证请求的系统，该系统在大规模下运行并具有可衡量的业务影响。

本文的主要贡献是一个在语言多样环境下进行基于姓名的实体匹配的高精度部署系统，该系统利用结构化、基于课程的微调策略。我们证明，这种方法使模型能够内化印度姓名的语言和文化细微差别，达到了最先进的准确率，并为复杂多语言领域的实体解析设立了新标准。

表1：多语言背景下姓名匹配挑战示例（印度案例研究）
## 2 相关工作

姓名匹配的相关研究涵盖基本字符串比较、语音启发式方法、经典监督学习和现代神经网络方法。我们总结相关线索，并将SGER置于该领域之中。

#### 启发式方法和规则：
编辑距离、Jaro-Winkler和语音编码捕捉表面相似性，但难以处理令牌重排、空格合并和跨文字转写（Cohen等人，2003 (https://arxiv.org/html/2605.23597#bib.bib20)；Christen，2012 (https://arxiv.org/html/2605.23597#bib.bib21)）。Soundex和Metaphone等语音算法专为英语发音调整，不适合印度语言，因为形态和跨文字变异占主导（Mhaske等人，2022 (https://arxiv.org/html/2605.23597#bib.bib17)）。

#### 经典机器学习：
在深度学习之前，使用字符串相似性特征和手工规则的监督模型优于单个启发式方法，但需要大量特征工程（Christophides等人，2020 (https://arxiv.org/html/2605.23597#bib.bib2)）。

#### 深度学习与PLM：
预训练语言模型如BERT（Devlin等人，2019 (https://arxiv.org/html/2605.23597#bib.bib22)）在微调用于实体解析时，通过捕捉更丰富的语义信息显著优于先前方法（Li等人，2023 (https://arxiv.org/html/2605.23597#bib.bib5)）。

#### 大语言模型用于实体匹配：
Peeters和Bizer（2023 (https://arxiv.org/html/2605.23597#bib.bib6)）的综述描绘了该领域的地图，而Steiner等人（2024 (https://arxiv.org/html/2605.23597#bib.bib7)）证明微调非常有效。Huang（2024 (https://arxiv.org/html/2605.23597#bib.bib8)）提出了一种基于关系的方法用于高风险任务。我们的SGER方法隐式解决了这一问题：通过首先训练模型理解姓名组件之间的结构关系（阶段一），使其能够在后续的二元设置中消除困难案例的歧义。我们是首个经验验证针对姓名实体解析的两阶段课程学习框架（Feng等人，2023 (https://arxiv.org/html/2605.23597#bib.bib4); Soviany等人，2022 (https://arxiv.org/html/2605.23597#bib.bib14)）在复杂真实世界环境中有效性的工作。

我们认为，在具有隐式“语法”（例如文化多样的姓名）的领域中，标准微调并非最优，因为它迫使模型同时学习结构模式和执行分类。我们的课程学习策略将这些问题分离，从而带来性能提升。尽管先前的工作探索了印度语言中姓名处理的若干方面（Bahad等人，2024 (https://arxiv.org/html/2605.23597#bib.bib1)），但尚未有采用结构化、多阶段训练范式，在下游决策之前逐步建立语言理解的方法。

## 3 方法论：基于课程的实体解析

为应对上述挑战，我们开发了SGER系统。其核心是一种两阶段、基于课程的微调方法，使预训练的大语言模型在训练匹配任务之前掌握姓名结构的专门知识。我们的核心假设是，通过将结构理解与匹配任务解耦，模型能够对姓名形成更稳健且可泛化的内部表征，为下游分类任务提供强大的归纳偏置。

两阶段训练流水线的概览如图1 (https://arxiv.org/html/2605.23597#S3.F1)所示。阶段一聚焦于姓名结构理解，模型被微调以从完整姓名字符串输出结构化的JSON表示。在阶段二中，微调后的模型作为二元姓名匹配的起点，用于判断两个姓名变体是否指向同一人。

### 3.1 系统架构

SGER使用Meta的Llama 3 8B作为基础模型（Grattafiori等人，2024 (https://arxiv.org/html/2605.23597#bib.bib25)）。该选择在准确性与成本之间取得了平衡：模型足够大以捕捉印度姓名的规律性，又足够小以高效微调和部署。Llama 3 8B是开源、文档完善且在学术和工业环境中广泛采用的模型，因此是一个自然且可复现的选择。我们的任务语言复杂但范围狭窄且高度结构化，这使得我们能够使用中等规模的模型而不牺牲准确性。正如我们的结果所示，基于课程的微调流水线使Llama 3 8B能够达到近乎完美的准确性，表明更大型的模型并非专门实体解析任务的必要选择。推理时的输入是一对姓名字符串，输出是一个单一令牌：“Yes”或“No”。创新之处在于训练路径，而非网络组件。

阶段一：学习姓名结构输入：单个姓名字符串（例如“Kirtan Singh Rathore”）Llama 3 8B模型（带LoRA的SFT）输出：结构化JSON{"first_name": "Kirtan","middle_name": "Singh","last_name": "Rathore"}阶段二：二元姓名匹配输入：姓名对（例如“Rajeshk”和“Rajesh Kumar”）结构感知LLM（带LoRA的SFT）输出：二元分类“Yes”将权重转移至阶段二

图1：结构引导的实体解析（SGER）方法。阶段一使用带LoRA的SFT将Llama 3 8B微调为将姓名解析为结构化JSON。学习到的权重转移至阶段二，模型在此执行二元姓名匹配。
### 3.2 阶段一：姓名结构理解

阶段一通过从单个姓名字符串到列出其主要组件的JSON对象的监督映射，教会模型姓名的内部语法。

输入：一个单一的姓名字符串，例如“Kirtan Singh Rathore”。输入经过空格修剪和小写化，以便模型遇到真实数据中出现的相同问题。

输出：一个结构化的JSON对象：

``
{
  "first_name": "Kirtan",
  "middle_name": "Singh",
  "last_name": "Rathore"
}
``

训练数据：我们构建了一个包含约10,000个印度姓名的数据集，并手动标注了其结构组件。这些姓名从匿名身份记录中采样，并通过合成生成的姓名进行扩充，以提高覆盖率和多样性。特别注重捕捉广泛的区域、语言和文化命名模式，包括非标准拼写、不同的姓名顺序以及合并或缩写形式。该数据集与第4.1节 (https://arxiv.org/html/2605.23597#S4.SS1)中描述的二元姓名匹配对不同，它作为上游预训练语料库，使模型在针对匹配任务微调之前具备结构感知能力。

优化：我们对Llama 3 8B应用带LoRA的监督微调。该任务鼓励模型构建关于姓名如何组成的稳定内部表征，降低阶段二的难度。我们使用混合精度训练和早停。

通过完成此任务，模型学会识别常见的名字、姓氏和中间名（如“Kumar”或“Lal”）。它还学会处理结构变异，例如识别“SinghKirtan”很可能是名字和姓氏的合并形式。此阶段相当于一种领域特定的预训练，使模型在二元匹配任务之前具备姓名语义的内部表征。

### 3.3 阶段二：二元姓名匹配

阶段二从阶段一的检查点继续，并在姓名对上训练分类器。

输入：每个实例包含一个简短的指令、一个包含示例的少样本块以及目标对：

> [指令] [少样本示例] 姓名1: "A" | 姓名2: "B" -> 匹配？

提示设计：指令和少样本提示与风险运营团队共同设计，以反映生产环境中真实世界姓名歧义的全部范围。这包括处理缩写、合并令牌、来自区域文字的音译不一致、组件重排以及敬语或后缀变体。相同的指令模板在所有少样本和微调模型设置中使用，确保训练和推理期间的一致性。

输出：一个单一的分类令牌：“Yes”或“No”，指示两个输入姓名是否指向同一人。在推理时，我们提取模型对答案令牌“Yes”和“No”的分数，应用softmax获得匹配概率，并在概率超过选定用于最大化验证集F1的决策阈值时将一对分类为正例。这产生了确定性的、校准的二元决策。

训练数据：在有标签的姓名对上使用带LoRA的SFT（第4.1节 (https://arxiv.org/html/2605.23597#S4.SS1)）。训练过程中使用提示模板以匹配评估设置。

## 4 实验设置

### 4.1 数据

评估语料库是专有的，取自我们平台的历史KYC验证工作流。记录