结构引导实体解析:微调大语言模型实现复杂语言环境下的鲁棒姓名匹配
摘要
本文提出结构引导实体解析(SGER)框架,通过课程学习微调大语言模型,在语言多样化环境中实现鲁棒的人名匹配,在印度身份数据上达到99.02%准确率,并已在Dream11部署。
arXiv:2605.23597v1 公告类型:新
摘要:在异质记录间匹配人名是实体解析的核心挑战,尤其在语言和文化复杂的环境中。命名惯例的差异、不同文字间的不一致音译以及频繁的数据录入错误,使得统一用户身份变得困难,而这是了解你的客户(KYC)合规的基本要求。尽管大语言模型在理解自然语言方面展现出潜力,但它们往往难以处理特定领域设置中的结构化歧义。本文提出结构引导实体解析(SGER),一种新颖的框架,通过两阶段课程微调大语言模型。模型首先被训练解析人名的语法和语义结构,然后针对二元实体匹配的下游任务进行优化。我们在印度身份数据这一全球语言最多样化、噪声最多的环境中评估SGER。SGER在5万个真实世界配对保留集上达到99.02%准确率和0.994的F1值,优于GPT-4o少样本提示和单阶段微调基线。该系统已全面部署在全球最大的梦幻体育平台Dream11的生产环境中,服务超过2.5亿用户。我们的结果表明,课程引导训练能够在大规模多语言现实系统中实现鲁棒、高精度的实体解析。
查看缓存全文
缓存时间: 2026/05/25 09:02
# 结构引导的实体解析:在复杂语言背景下微调大语言模型以实现稳健姓名匹配提交至 ACL 2026。此为作者预印本版本;最终版本将发表于计算语言学协会第64届年会论文集。
来源:https://arxiv.org/html/2605.23597
Hitesh Kapoor Dream Sports hitesh\.p\.kapoor@gmail\.com Nilesh Patil Dream Sports nilesh@urgrad\.rochester\.edu
###### 摘要
在跨异构记录中匹配人名是实体解析的核心挑战,尤其是在语言和文化复杂的环境中。命名惯例的差异、跨文字的音译不一致以及频繁的数据录入错误,使得统一用户身份变得困难,而这是“了解你的客户”(KYC)合规性的基本要求。尽管大语言模型在理解自然语言方面展现了潜力,但它们常常难以处理此类领域特定场景中存在的结构歧义。本文提出结构引导的实体解析(Structure-Guided Entity Resolution, SGER),一种通过两阶段课程微调大语言模型的新框架。该模型首先被训练解析人名的语法和语义结构,然后针对下游的二元实体匹配任务进行优化。我们在印度身份数据这一全球语言最多样且噪声最大的环境中评估SGER。在50,000个真实世界配对组成的留出集上,SGER达到了99.02%的准确率和0.994的F1分数,优于GPT-4o的少样本提示和单阶段微调基线。该系统已在全球最大的奇幻体育平台Dream11中全面部署,服务于2.5亿+用户。我们的结果表明,课程引导的训练能够在大规模、真实世界的多语言系统中实现稳健、高精度的实体解析。
# 结构引导的实体解析:在复杂语言背景下微调大语言模型以实现稳健姓名匹配††感谢:已提交至ACL 2026。此为作者预印本版本;最终版本将发表于计算语言学协会第64届年会论文集。
Shivam ChourasiaDream Sportschshivam@utexas\.eduHitesh KapoorDream Sportshitesh\.p\.kapoor@gmail\.comNilesh PatilDream Sportsnilesh@urgrad\.rochester\.edu
## 1 引言
实体解析(Entity Resolution, ER)是识别指向同一真实世界实体的记录的任务(Elmagarmid等人,2007 (https://arxiv.org/html/2605.23597#bib.bib3);Fellegi and Sunter, 1969 (https://arxiv.org/html/2605.23597#bib.bib19))。在KYC和AML等合规性要求较高的领域,实体解析的质量直接影响运营和监管。这一挑战在文化和语言多样化的背景下尤为突出,因为姓名并非稳定的键,它们随文化惯例、书写系统、数据录入实践以及数字化的种种问题而变化。
这些困难在印度尤其明显。不同地区和社区的命名惯例各异,且没有统一标准来界定哪些成分属于名、中间名或姓。同一个人的姓名可能包含父名、种姓名或村庄名作为组成部分,这些惯例因地区和社区而异。诸如“-bhai”和“-ji”之类的敬语和社会后缀在日常使用中出现,在正式记录中却消失。文字不同,从天城文、孟加拉文、泰米尔文等文字到拉丁字母的转写也不统一(国际标准化组织,2001 (https://arxiv.org/html/2605.23597#bib.bib23);Steinberger等人,2013 (https://arxiv.org/html/2605.23597#bib.bib18))。操作流水线增加了其他变异来源:手动录入引入打字错误,OCR则合并令牌并删除空格。同一个人可能在PAN卡上显示为“Shubham Kumar Singh”,在银行记录中为“Shubham K Singh”,在水电费账单扫描件中为“ShubhamKumarSingh”。表1 (https://arxiv.org/html/2605.23597#S1.T1)列出了具体例子。
我们的平台Dream11是服务于2.5亿+用户的全球最大奇幻体育平台,每天都面临这些变异。遗漏的链接会阻止合法用户完成验证,虚假链接则可能无法标记试图创建多个账户的欺诈者。这种碎片化是大规模平台每天面临的高量级挑战。传统方法的局限性导致高假阳性率和假阴性率,带来了显著的运营成本和监管风险。编辑距离、Jaro-Winkler和语音编码等经典技术提供了有用的信号,但难以应对问题的完整结构(Cohen等人,2003 (https://arxiv.org/html/2605.23597#bib.bib20);Christophides等人,2020 (https://arxiv.org/html/2605.23597#bib.bib2))。
大语言模型改变了格局,因为它们能够捕捉超出局部字符编辑的规律性。先前的工作表明,微调后的LLM可以超越传统的实体解析系统(Peeters等人,2024 (https://arxiv.org/html/2605.23597#bib.bib9);Steiner等人,2024 (https://arxiv.org/html/2605.23597#bib.bib7);Li等人,2024 (https://arxiv.org/html/2605.23597#bib.bib11);Fan等人,2024 (https://arxiv.org/html/2605.23597#bib.bib12);Xin等人,2024 (https://arxiv.org/html/2605.23597#bib.bib13))。然而,直接在二元决策上训练会迫使模型同时学习姓名结构和决策边界,在结构强但隐式的领域中留下了性能未被充分利用的空间。
我们提出结构引导的实体解析(SGER)。我们采用Llama 3 8B并进行两阶段微调。阶段一教会模型将原始姓名映射到包含first_name、middle_name和last_name字段的JSON模式。阶段二从阶段一的检查点开始,训练一个二元分类器。在来自印度KYC工作流的50,000个独立验证对中,SGER达到了99.02%的准确率和0.994的F1分数。我们描述了部署在生产环境中处理身份验证请求的系统,该系统在大规模下运行并具有可衡量的业务影响。
本文的主要贡献是一个在语言多样环境下进行基于姓名的实体匹配的高精度部署系统,该系统利用结构化、基于课程的微调策略。我们证明,这种方法使模型能够内化印度姓名的语言和文化细微差别,达到了最先进的准确率,并为复杂多语言领域的实体解析设立了新标准。
表1:多语言背景下姓名匹配挑战示例(印度案例研究)
## 2 相关工作
姓名匹配的相关研究涵盖基本字符串比较、语音启发式方法、经典监督学习和现代神经网络方法。我们总结相关线索,并将SGER置于该领域之中。
#### 启发式方法和规则:
编辑距离、Jaro-Winkler和语音编码捕捉表面相似性,但难以处理令牌重排、空格合并和跨文字转写(Cohen等人,2003 (https://arxiv.org/html/2605.23597#bib.bib20);Christen,2012 (https://arxiv.org/html/2605.23597#bib.bib21))。Soundex和Metaphone等语音算法专为英语发音调整,不适合印度语言,因为形态和跨文字变异占主导(Mhaske等人,2022 (https://arxiv.org/html/2605.23597#bib.bib17))。
#### 经典机器学习:
在深度学习之前,使用字符串相似性特征和手工规则的监督模型优于单个启发式方法,但需要大量特征工程(Christophides等人,2020 (https://arxiv.org/html/2605.23597#bib.bib2))。
#### 深度学习与PLM:
预训练语言模型如BERT(Devlin等人,2019 (https://arxiv.org/html/2605.23597#bib.bib22))在微调用于实体解析时,通过捕捉更丰富的语义信息显著优于先前方法(Li等人,2023 (https://arxiv.org/html/2605.23597#bib.bib5))。
#### 大语言模型用于实体匹配:
Peeters和Bizer(2023 (https://arxiv.org/html/2605.23597#bib.bib6))的综述描绘了该领域的地图,而Steiner等人(2024 (https://arxiv.org/html/2605.23597#bib.bib7))证明微调非常有效。Huang(2024 (https://arxiv.org/html/2605.23597#bib.bib8))提出了一种基于关系的方法用于高风险任务。我们的SGER方法隐式解决了这一问题:通过首先训练模型理解姓名组件之间的结构关系(阶段一),使其能够在后续的二元设置中消除困难案例的歧义。我们是首个经验验证针对姓名实体解析的两阶段课程学习框架(Feng等人,2023 (https://arxiv.org/html/2605.23597#bib.bib4); Soviany等人,2022 (https://arxiv.org/html/2605.23597#bib.bib14))在复杂真实世界环境中有效性的工作。
我们认为,在具有隐式“语法”(例如文化多样的姓名)的领域中,标准微调并非最优,因为它迫使模型同时学习结构模式和执行分类。我们的课程学习策略将这些问题分离,从而带来性能提升。尽管先前的工作探索了印度语言中姓名处理的若干方面(Bahad等人,2024 (https://arxiv.org/html/2605.23597#bib.bib1)),但尚未有采用结构化、多阶段训练范式,在下游决策之前逐步建立语言理解的方法。
## 3 方法论:基于课程的实体解析
为应对上述挑战,我们开发了SGER系统。其核心是一种两阶段、基于课程的微调方法,使预训练的大语言模型在训练匹配任务之前掌握姓名结构的专门知识。我们的核心假设是,通过将结构理解与匹配任务解耦,模型能够对姓名形成更稳健且可泛化的内部表征,为下游分类任务提供强大的归纳偏置。
两阶段训练流水线的概览如图1 (https://arxiv.org/html/2605.23597#S3.F1)所示。阶段一聚焦于姓名结构理解,模型被微调以从完整姓名字符串输出结构化的JSON表示。在阶段二中,微调后的模型作为二元姓名匹配的起点,用于判断两个姓名变体是否指向同一人。
### 3.1 系统架构
SGER使用Meta的Llama 3 8B作为基础模型(Grattafiori等人,2024 (https://arxiv.org/html/2605.23597#bib.bib25))。该选择在准确性与成本之间取得了平衡:模型足够大以捕捉印度姓名的规律性,又足够小以高效微调和部署。Llama 3 8B是开源、文档完善且在学术和工业环境中广泛采用的模型,因此是一个自然且可复现的选择。我们的任务语言复杂但范围狭窄且高度结构化,这使得我们能够使用中等规模的模型而不牺牲准确性。正如我们的结果所示,基于课程的微调流水线使Llama 3 8B能够达到近乎完美的准确性,表明更大型的模型并非专门实体解析任务的必要选择。推理时的输入是一对姓名字符串,输出是一个单一令牌:“Yes”或“No”。创新之处在于训练路径,而非网络组件。
阶段一:学习姓名结构输入:单个姓名字符串(例如“Kirtan Singh Rathore”)Llama 3 8B模型(带LoRA的SFT)输出:结构化JSON{"first_name": "Kirtan","middle_name": "Singh","last_name": "Rathore"}阶段二:二元姓名匹配输入:姓名对(例如“Rajeshk”和“Rajesh Kumar”)结构感知LLM(带LoRA的SFT)输出:二元分类“Yes”将权重转移至阶段二
图1:结构引导的实体解析(SGER)方法。阶段一使用带LoRA的SFT将Llama 3 8B微调为将姓名解析为结构化JSON。学习到的权重转移至阶段二,模型在此执行二元姓名匹配。
### 3.2 阶段一:姓名结构理解
阶段一通过从单个姓名字符串到列出其主要组件的JSON对象的监督映射,教会模型姓名的内部语法。
输入:一个单一的姓名字符串,例如“Kirtan Singh Rathore”。输入经过空格修剪和小写化,以便模型遇到真实数据中出现的相同问题。
输出:一个结构化的JSON对象:
``
{
"first_name": "Kirtan",
"middle_name": "Singh",
"last_name": "Rathore"
}
``
训练数据:我们构建了一个包含约10,000个印度姓名的数据集,并手动标注了其结构组件。这些姓名从匿名身份记录中采样,并通过合成生成的姓名进行扩充,以提高覆盖率和多样性。特别注重捕捉广泛的区域、语言和文化命名模式,包括非标准拼写、不同的姓名顺序以及合并或缩写形式。该数据集与第4.1节 (https://arxiv.org/html/2605.23597#S4.SS1)中描述的二元姓名匹配对不同,它作为上游预训练语料库,使模型在针对匹配任务微调之前具备结构感知能力。
优化:我们对Llama 3 8B应用带LoRA的监督微调。该任务鼓励模型构建关于姓名如何组成的稳定内部表征,降低阶段二的难度。我们使用混合精度训练和早停。
通过完成此任务,模型学会识别常见的名字、姓氏和中间名(如“Kumar”或“Lal”)。它还学会处理结构变异,例如识别“SinghKirtan”很可能是名字和姓氏的合并形式。此阶段相当于一种领域特定的预训练,使模型在二元匹配任务之前具备姓名语义的内部表征。
### 3.3 阶段二:二元姓名匹配
阶段二从阶段一的检查点继续,并在姓名对上训练分类器。
输入:每个实例包含一个简短的指令、一个包含示例的少样本块以及目标对:
> [指令] [少样本示例] 姓名1: "A" | 姓名2: "B" -> 匹配?
提示设计:指令和少样本提示与风险运营团队共同设计,以反映生产环境中真实世界姓名歧义的全部范围。这包括处理缩写、合并令牌、来自区域文字的音译不一致、组件重排以及敬语或后缀变体。相同的指令模板在所有少样本和微调模型设置中使用,确保训练和推理期间的一致性。
输出:一个单一的分类令牌:“Yes”或“No”,指示两个输入姓名是否指向同一人。在推理时,我们提取模型对答案令牌“Yes”和“No”的分数,应用softmax获得匹配概率,并在概率超过选定用于最大化验证集F1的决策阈值时将一对分类为正例。这产生了确定性的、校准的二元决策。
训练数据:在有标签的姓名对上使用带LoRA的SFT(第4.1节 (https://arxiv.org/html/2605.23597#S4.SS1))。训练过程中使用提示模板以匹配评估设置。
## 4 实验设置
### 4.1 数据
评估语料库是专有的,取自我们平台的历史KYC验证工作流。记录相似文章
LELA: 一种基于LLM的端到端实体链接框架,支持零样本领域自适应
LELA是一个基于LLM的实体链接框架,将零样本命名实体识别和实体消解整合为端到端的Python库,并在多种场景下验证了其有效性。
在LLM个性化中重新聚焦人类
本文研究了在评估LLM个性化的三个阶段(属性提取、相关性匹配和响应生成)中,合成数据与人类数据之间的差距。结果表明,模型在真实人类数据上表现更差,作者引入了轻量级训练干预措施以改善对齐。
# 语音LLM推理中的实体绑定失败:诊断与思维链干预 ## 摘要 大型语言模型(LLM)在多模态推理任务中表现出色,但当输入来自语音识别系统时,往往会出现一类特定的错误:**实体绑定失败**(Entity Binding Failure)。本文系统诊断了这一问题的成因,并提出了基于思维链(Chain-of-Thought, CoT)提示的干预策略。 --- ## 1. 引言 语音转文本(ASR)系统与LLM的结合已成为对话式AI的核心架构。然而,ASR输出往往包含歧义性转录、同音词混淆以及命名实体识别错误,这些问题会在LLM推理阶段引发所谓的"实体绑定失败"——即模型无法正确地将语义角色与对话中的具体实体关联起来。 典型场景包括: - 多说话人对话中的指代消解错误 - 数字、日期、人名的歧义转录 - 专有名词(产品名、地名)的同音替换 --- ## 2. 实体绑定失败的定义与分类 ### 2.1 定义 **实体绑定失败**是指在推理过程中,模型将某一语义属性(如动作、状态、关系)错误地归属于上下文中的某个实体,而非其正确的指称对象。 ### 2.2 失败类型分类 | 类型 | 描述 | 示例 | |------|------|------| | **同音替换错误** | ASR将实体名替换为发音相似的词 | "苹果" → "平果" | | **指代歧义** | 代词无法确定性地解析到某一实体 | "他说他打了他" | | **跨句实体漂移** | 实体在多轮对话中被错误追踪 | 主语在换话轮后发生偏移 | | **数值实体混淆** | 数字、单位、日期被错误绑定 | "三点" = 时间 vs. 分数 | | **嵌套实体错误** | 复合实体中的成分被错误拆解或合并 | "北京大学医院" 的边界划定 | --- ## 3. 失败诊断方法 ### 3.1 对比探针测试(Contrastive Probing) 通过构造最小对比对(minimal pairs)来定位绑定失败: ``` 输入A(正确转录):张伟批评了李明,因为他迟到了。 输入B(ASR转录):张伟批评了黎明,因为他迟到了。 ``` 观察模型在两种输入下的实体归属判断是否一致,从而识别同音替换导致的绑定错误。 ### 3.2 注意力权重分析 对Transformer架构中的交叉注意力权重进行可视化分析,检测模型在生成实体相关token时的注意力分布是否聚焦于正确的上下文位置。 ### 3.3 自动评估指标 定义**实体绑定准确率(Entity Binding Accuracy, EBA)**: $$\text{EBA} = \frac{\text{正确绑定的实体-属性对数量}}{\text{总实体-属性对数量}}$$ --- ## 4. 思维链干预策略 ### 4.1 显式实体抽取CoT 在推理前,通过CoT提示引导模型首先显式列举并确认所有实体: ``` 提示模板: "在回答问题之前,请先: 1. 列出文本中出现的所有人名/地名/机构名 2. 标注每个实体的首次出现位置 3. 确认是否存在同音或相似的实体名 4. 在此基础上进行推理" ``` ### 4.2 渐进式消歧CoT 针对代词指代歧义,采用逐步消歧的思维链: ``` 步骤1:识别所有代词及其候选先行词 步骤2:利用语境约束(性别、数量、语义角色)逐步排除候选 步骤3:确定最终绑定关系 步骤4:基于确定的绑定关系执行推理 ``` ### 4.3 不确定性感知CoT 当ASR置信度较低时,引导模型进行多假设推理: ``` "ASR转录中存在低置信度片段:[黎明/李明]。 假设A:若实体为'李明',则... 假设B:若实体为'黎明',则... 综合上下文,最可能的解释是..." ``` ### 4.4 自我验证CoT 推理完成后,引导模型对实体绑定结果进行回溯验证: ``` "在给出最终答案前,请检查: - 每个实体的角色归属是否与原文一致? - 是否存在被遗漏或错误替换的实体? - 结论中的每一个断言是否都能追溯到具体的原文实体?" ``` --- ## 5. 实验设置 ### 5.1 数据集 - **AISHELL-NER**:中文语音命名实体识别基准 - **MagicData-RAMC**:多人对话语音数据集 - **自建评估集**:包含500条人工标注的实体绑定失败案例 ### 5.2 模型 | 模型 | 版本 | |------|------| | GPT-4o | 2024-05 | | Claude 3.5 Sonnet | 2024-10 | | Qwen-Audio | Turbo | | Gemini 1.5 Pro | 最新版 | ### 5.3 基线与对比条件 - **Baseline**:直接将ASR输出送入LLM - **CoT-Generic**:通用思维链提示 - **CoT-EBF**:本文提出的实体绑定专用CoT - **Oracle**:使用人工校正的转录文本 --- ## 6. 实验结果 ### 6.1 整体EBA比较 | 方法 | GPT-4o | Claude 3.5 | Qwen-Audio | 平均 | |------|--------|------------|------------|------| | Baseline | 71.3% | 68.9% | 64.2% | 68.1% | | CoT-Generic | 74.8% | 72.1% | 67.5% | 71.5% | | CoT-EBF(本文) | **83.6%** | **81.2%** | **76.4%** | **80.4%** | | Oracle | 91.2% | 89.7% | 85.3% | 88.7% | ### 6.2 按失败类型的改进分析 CoT-EBF在不同失败类型上的EBA提升幅度(相对于Baseline): ``` 同音替换错误: +14.2% ████████████████ 指代歧义: +11.8% █████████████ 跨句实体漂移: +9.3% ██████████ 数值实体混淆: +7.6% ████████ 嵌套实体错误: +12.1% █████████████ ``` ### 6.3 CoT组件消融实验 | CoT组件 | EBA | |---------|-----| | 无(Baseline) | 68.1% | | + 显式实体抽取 | 73.4% | | + 渐进式消歧 | 76.9% | | + 不确定性感知 | 79.1% | | + 自我验证 | 80.4% | --- ## 7. 案例分析 ### 案例1:同音替换导致的绑定失败 **ASR转录**: > "董事会决定让王总接替李总的职务,他将在下月正式就任。" **ASR错误版本**: > "懂事会决定让王总接替李总的职务,他将在下月正式就任。" **Baseline模型输出**(失败): > 模型将"懂事会"解析为某个人名,导致后续代词"他"的绑定对象产生歧义。 **CoT-EBF干预后**: > 模型在推理第一步识别到"懂事会"可能是"董事会"的转录错误,基于语境将其修正为机构实体,并正确将"他"绑定至"王总"。 --- ### 案例2:多轮对话中的实体漂移 **对话记录**: ``` 轮次1 - 用户A:"张三昨天提交了报告。" 轮次2 - 用户B:"他说内容有问题。" 轮次3 - 用户A:"那是谁的责任?" ``` **Baseline失败原因**: 在轮次2中,"他"可能指张三或用户B,模型未能利用说话人身份信息进行消歧,导致责任归属错误。 **CoT-EBF处理**: 渐进式消歧步骤引导模型考虑说话人轮次信息,识别出轮次2中的"他"在语用层面更可能指代不在场的第三方(张三),从而正确锁定责任归属。 --- ## 8. 讨论 ### 8.1 CoT干预的局限性 1. **计算开销**:显式实体抽取和多步推理增加了token消耗,平均增幅约为40-60%。 2. **级联错误风险**:若CoT第一步的实体抽取本身出错,后续步骤可能放大错误。 3. **跨语言迁移**:本文实验主要基于中文语料,CoT模板的跨语言效果有待验证。 ### 8.2 与RAG的结合潜力 将实体绑定CoT与检索增强生成(RAG)相结合,利用知识库对候选实体进行验证,有望进一步提升同音替换场景下的绑定准确率。 ### 8.3 端到端语音LLM的影响 随着端到端语音LLM(如 Qwen-Audio、Gemini 1.5 Pro)的普及,ASR与LLM的分离架构将逐渐减少,但实体绑定问题在端到端模型中仍以隐式形式存在,CoT干预策略同样适用。 --- ## 9. 相关工作 - **实体链接与消歧**:[Sevgili et al., 2022] 对神经实体链接方法的综述。 - **语音识别错误鲁棒性**:[Belinkov & Glass, 2018] 关于NLP模型对输入噪声的脆弱性分析。 - **思维链推理**:[Wei et al., 2022] CoT提示的奠基性工作;[Wang et al., 2023] 自一致性CoT。 - **多模态LLM推理**:[Driess et al., 2023] PaLM-E 中的跨模态实体推理。 - **指代消解**:[Stoyanov et al., 2010] 基于机器学习的共指消解研究。 --- ## 10. 结论 本文系统诊断了语音LLM推理中的实体绑定失败问题,提出了涵盖五种失败类型的分类体系,并设计了由四个模块组成的CoT干预框架(显式实体抽取、渐进式消歧、不确定性感知推理、自我验证)。实验结果表明,CoT-EBF相比Baseline在实体绑定准确率上平均提升 **12.3个百分点**,在同音替换错误和嵌套实体错误类型上尤为显著。 未来工作将聚焦于: - 自动CoT模板生成(减少人工设计成本) - 与端到端语音LLM的深度集成 - 低资源语言场景下的泛化性验证 --- ## 参考文献 1. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. *NeurIPS 2022*. 2. Wang, X., et al. (2023). Self-consistency improves chain of thought reasoning in language models. *ICLR 2023*. 3. Belinkov, Y., & Glass, J. (2018). Analysis methods in neural language processing. *TACL*. 4. Sevgili, Ö., et al. (2022). Neural entity linking: A survey of models based on deep learning. *Semantic Web Journal*. 5. Driess, D., et al. (2023). PaLM-E: An embodied multimodal language model. *ICML 2023*. 6. Stoyanov, V., et al. (2010). Coreference resolution with reconcile. *ACL 2010*. --- *本文为技术分析性文章,实验数据为示意性结果,旨在说明方法论框架。*
本文识别了语音大语言模型(SLLMs)中一种局部化的"实体绑定失败"现象——即涉及实体追踪的逻辑推理准确率骤降至随机水平,并提出了实体感知思维链(EA-CoT)提示方法来解决这一问题,最终实现了高达 24.4% 的绝对准确率提升。
LLMBridge:面向英语端到端指称桥接解析的LLM流水线
LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线,在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。
双层引导的自描述结构化数据:大规模 LLM 知识导航中精准检索的轻量级 RAG 替代方案
SDSR 提出轻量级自描述结构化数据,并辅以双层引导,利用 LLM 的首位偏差,在无向量数据库的情况下实现 100% 路由准确率。