使用大型语言模型标注实体匹配的训练数据

arXiv cs.CL 论文

摘要

本文研究使用大型语言模型作为教师模型来标注实体匹配的训练数据,结果表明,在机器标注数据上训练的学生模型与在人工标注基准上训练的模型性能相当,并且具有显著的成本和速度优势。

arXiv:2606.28823v1 Announce Type: new Abstract: 近期,大型语言模型(LLMs)在实体匹配上表现出色,无需特定任务的训练数据。然而,将这些模型应用于大量候选对仍然缓慢且成本高昂。相比之下,使用传统机器学习方法或小型语言模型(SLMs,如RoBERTa)的实体匹配器推理速度更快,但需要特定任务的训练数据。 本文研究是否可以通过知识蒸馏流程来避免提供特定任务训练数据的需要,其中LLM作为教师模型来标注训练对,随后用于训练较小的学生模型。我们从以下几个维度研究实体匹配的知识蒸馏:对选择策略、教师模型、标签后处理方法以及学生模型。我们使用Abt-Buy、Walmart-Amazon、WDC Products、DBLP-ACM和DBLP-Scholar基准评估这些流程,并将使用机器标注数据训练的学生模型的性能与使用基准训练集训练的相同模型的性能进行比较。 我们的实验表明,使用机器标注集训练的学生模型与在基准训练集上训练的模型性能大致相当,剩余差异均在两个F1点以内。使用GPT-5.2为所有五个基准标注训练集的成本为28.31至40.88美元,而人工标注相同训练集预计需要470小时的工作。在推理时,Ditto比直接使用LLM执行匹配任务快41.5至534倍。 这些结果表明,当前的LLMs结合合适的对选择方法,可以大幅减少甚至消除标注实体匹配用例特定训练数据所需的人工努力。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:28

# 使用大型语言模型标记实体匹配训练数据
来源:https://arxiv.org/abs/2606.28823
查看PDF(https://arxiv.org/pdf/2606.28823)

> 摘要:近年来,大型语言模型(LLMs)在不需要任务特定训练数据的情况下,在实体匹配任务上取得了强劲的性能。然而,将这些模型应用于大规模的候选对集合仍然缓慢且成本高昂。相比之下,使用传统机器学习方法或小型语言模型(SLMs,如RoBERTa)的实体匹配器推理速度快得多,但需要任务特定的训练数据。本文研究能否通过知识蒸馏工作流来避免提供任务特定训练数据的需求:即让LLM充当教师模型,标记训练对,随后用这些训练对来训练较小的学生模型。我们从以下维度研究实体匹配中的知识蒸馏:候选对选择策略、教师模型、标签后处理方法以及学生模型。我们使用Abt-Buy、Walmart-Amazon、WDC Products、DBLP-ACM和DBLP-Scholar基准数据集评估这些工作流,并将使用机器标记数据训练的学生模型性能与使用基准训练集训练的相同模型进行比较。实验表明,使用机器标记集训练的学生模型,其性能与在基准训练集上训练的模型大致相当,两者之间的差异在F1分数上均不超过两个百分点。使用GPT-5.2为所有五个基准数据集标记训练集的成本为28.31至40.88美元,而人工标记相同训练集的工作量预计约为470小时。在推理时,Ditto的速度比直接使用LLM执行匹配任务快41.5至534倍。这些结果表明,当前的大型语言模型,在结合合适的候选对选择方法后,可以大幅减少甚至消除手动标记实体匹配用例特定训练数据的工作。

## 提交历史

来自:Aaron Steiner [查看邮件(https://arxiv.org/show-email/3d929592/2606.28823)] **[v1]**美国东部时间2026年6月27日星期六09:15:09(1,189 KB)

相似文章

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混