使用大型语言模型标注实体匹配的训练数据
摘要
本文研究使用大型语言模型作为教师模型来标注实体匹配的训练数据,结果表明,在机器标注数据上训练的学生模型与在人工标注基准上训练的模型性能相当,并且具有显著的成本和速度优势。
arXiv:2606.28823v1 Announce Type: new
Abstract: 近期,大型语言模型(LLMs)在实体匹配上表现出色,无需特定任务的训练数据。然而,将这些模型应用于大量候选对仍然缓慢且成本高昂。相比之下,使用传统机器学习方法或小型语言模型(SLMs,如RoBERTa)的实体匹配器推理速度更快,但需要特定任务的训练数据。
本文研究是否可以通过知识蒸馏流程来避免提供特定任务训练数据的需要,其中LLM作为教师模型来标注训练对,随后用于训练较小的学生模型。我们从以下几个维度研究实体匹配的知识蒸馏:对选择策略、教师模型、标签后处理方法以及学生模型。我们使用Abt-Buy、Walmart-Amazon、WDC Products、DBLP-ACM和DBLP-Scholar基准评估这些流程,并将使用机器标注数据训练的学生模型的性能与使用基准训练集训练的相同模型的性能进行比较。
我们的实验表明,使用机器标注集训练的学生模型与在基准训练集上训练的模型性能大致相当,剩余差异均在两个F1点以内。使用GPT-5.2为所有五个基准标注训练集的成本为28.31至40.88美元,而人工标注相同训练集预计需要470小时的工作。在推理时,Ditto比直接使用LLM执行匹配任务快41.5至534倍。
这些结果表明,当前的LLMs结合合适的对选择方法,可以大幅减少甚至消除标注实体匹配用例特定训练数据所需的人工努力。
查看缓存全文
缓存时间: 2026/06/30 05:28
# 使用大型语言模型标记实体匹配训练数据 来源:https://arxiv.org/abs/2606.28823 查看PDF(https://arxiv.org/pdf/2606.28823) > 摘要:近年来,大型语言模型(LLMs)在不需要任务特定训练数据的情况下,在实体匹配任务上取得了强劲的性能。然而,将这些模型应用于大规模的候选对集合仍然缓慢且成本高昂。相比之下,使用传统机器学习方法或小型语言模型(SLMs,如RoBERTa)的实体匹配器推理速度快得多,但需要任务特定的训练数据。本文研究能否通过知识蒸馏工作流来避免提供任务特定训练数据的需求:即让LLM充当教师模型,标记训练对,随后用这些训练对来训练较小的学生模型。我们从以下维度研究实体匹配中的知识蒸馏:候选对选择策略、教师模型、标签后处理方法以及学生模型。我们使用Abt-Buy、Walmart-Amazon、WDC Products、DBLP-ACM和DBLP-Scholar基准数据集评估这些工作流,并将使用机器标记数据训练的学生模型性能与使用基准训练集训练的相同模型进行比较。实验表明,使用机器标记集训练的学生模型,其性能与在基准训练集上训练的模型大致相当,两者之间的差异在F1分数上均不超过两个百分点。使用GPT-5.2为所有五个基准数据集标记训练集的成本为28.31至40.88美元,而人工标记相同训练集的工作量预计约为470小时。在推理时,Ditto的速度比直接使用LLM执行匹配任务快41.5至534倍。这些结果表明,当前的大型语言模型,在结合合适的候选对选择方法后,可以大幅减少甚至消除手动标记实体匹配用例特定训练数据的工作。 ## 提交历史 来自:Aaron Steiner [查看邮件(https://arxiv.org/show-email/3d929592/2606.28823)] **[v1]**美国东部时间2026年6月27日星期六09:15:09(1,189 KB)
相似文章
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。
大型语言模型能否可靠地编码定性人道主义数据?一项与人类专家裁决对比的基准研究
这项基准研究评估了46个大型语言模型与人类专家在编码定性人道主义数据方面的表现,发现通过结构化提示和推理,LLM可以达到与人类相当的可靠性,但对于细微主题仍需仔细监督。
我从零开始训练了一个75M参数的LLM,使用18B tokens,它击败了几乎两倍大小的模型
从零开始训练了一个名为KeyLM的75M参数LLM,使用18B tokens,在指令跟随得分上与更大模型竞争,同时使用更少的参数和更少的数据。
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力
本文评估了大语言模型(LLMs)和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明,基于文本的LLMs在下一说话人预测上优于监督模型和人类,而多模态LLMs在其他任务上比纯文本模型有所提升,但表现仍低于人类。