AutoSpecNER:用于车辆规格提取的细粒度命名实体识别数据集

arXiv cs.CL 论文

摘要

介绍AutoSpecNER,一个由专家标注的车辆列表细粒度命名实体识别数据集,包含659条广告,标注了15种实体类型。基准测试结果显示,DeBERTa取得了90%的微平均F1分数,优于基于规则的方法和大型语言模型。

arXiv:2606.24387v1 Announce Type: new Abstract: 车辆广告包含丰富的规格信息,但汽车领域的命名实体识别资源仍然有限。我们介绍AutoSpecNER,一个由专家标注的车辆列表细粒度实体识别数据集。该数据集包含来自一个热门汽车销售网站的659条广告,标注了超过10,000个实体,涵盖15个类别,包括MODEL、ENGINE_SPEC和BATTERY_CAPACITY。通过标注者间一致性验证了标注质量,平均得分达到91.5%。我们对基于规则的提取、微调的Transformer编码器以及大型语言模型进行了基准测试。DeBERTa取得了最佳性能,微平均F1分数为90%,优于基于规则的基线(43%)和最强大的大型语言模型(77.8%)。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:47

# AutoSpecNER:用于车辆规格提取的细粒度命名实体识别数据集  
来源:https://arxiv.org/html/2606.24387  

Jordan Lee¹,²\*, Filippos Ventirozos¹,², Abdirahman Abdullahm¹, Ioanna Nteka², Peter Appleby², Matthew Shardlow¹  
¹英国曼彻斯特城市大学计算与数学系  
²Autotrader 研究组,Autotrader UK  
\{f.ventirozos, m.shardlow\}@mmu.ac.uk  
\*工作完成于 Autotrader UK 实习期间  

###### 摘要  

车辆广告包含丰富的规格信息,但汽车领域的命名实体识别(NER)资源仍然有限。我们引入了 AutoSpecNER,这是一个专为车辆列表中的细粒度实体识别而设计、由专家标注的数据集。该数据集包含来自一个热门汽车销售网站的 659 条广告,涵盖 10,000 多个实体,涉及 15 个类别,包括 MODEL、ENGINE_SPEC 和 BATTERY_CAPACITY。通过一致性检验验证了标注质量,平均得分为 91.5%。我们评估了基于规则的提取方法、微调后的 Transformer 编码器以及大型语言模型。DeBERTa 以 90% 的微观 F1 分数取得了最佳性能,优于基于规则的基线(43%)和最强的大型语言模型(77.8%)。  

AutoSpecNER:用于车辆规格提取的细粒度命名实体识别数据集  
Jordan Lee¹,²\*, Filippos Ventirozos¹,², Abdirahman Abdullahm¹, Ioanna Nteka², Peter Appleby², Matthew Shardlow¹  
¹英国曼彻斯特城市大学计算与数学系  
²Autotrader 研究组,Autotrader UK  
\{f.ventirozos, m.shardlow\}@mmu.ac.uk  
\*工作完成于 Autotrader UK 实习期间  

## 1 引言  

汽车行业通过在线车辆广告产生了大量非结构化文本。这些广告在自由格式的描述中嵌入了有价值的规格信息,但大规模手动提取这些结构化数据是不切实际的。这一问题因近期 AI 生成的广告内容而加剧——这些内容可能包含幻觉,即事实上错误的信息,从而误导消费者。命名实体识别(NER)提供了一种解决方案,能够自动识别并从文本中提取特定信息片段。虽然 NER 已成功应用于生物医学文本 (Majid et al., 2024)、新闻文章 (Tjong Kim Sang and De Meulder, 2003) 和社交媒体 (Derczynski et al., 2017) 等多个领域,但汽车广告领域面临着独特的挑战:  

- •**领域特定术语**:技术规格如“2.0L TDI”、“DSG 变速箱”或“Santorini [黑色]”需要专门的理解。  
- •**细粒度区分**:区分相似概念(例如,外部与内部颜色、电池容量与续航里程)。  
- •**多词实体**:复杂规格通常跨越多个标记(例如,“使用 350kW 充电器充电 18 分钟”)。  
- •**混合内容来源**:广告既包含带有拼写错误和非正式语言的用户生成内容,也包含可能产生幻觉的 AI 生成内容。  

本文提出两大主要贡献。首先,我们推出了 Automotive Specification NER (AutoSpecNER),这是一个全新、公开可用的数据集¹¹¹¹可在 github.com/FilipposVentirozos/AutoSpecNER 获取。,专门针对汽车领域的细粒度 NER。该数据集包含 659 条车辆广告,标注了 15 种对车辆识别和比较至关重要的实体类型。其次,我们提供了在 AutoSpecNER 上的全面基准评估。我们比较了三种不同方法的性能:基于规则的系统、基于 Transformer 的编码器模型,以及使用少样本和自验证技术提示的大型语言模型 (LLMs) (Wang et al., 2023)。我们的分析证实,虽然 NER 是完成此任务的可行技术,但模型的选择对性能有深远影响,微调后的编码器展现出更强的能力。  

## 2 相关工作  

### 2.1 领域特定 NER 与细粒度实体识别  

CoNLL-2003 (Tjong Kim Sang and De Meulder, 2003) 等标准 NER 基准关注粗粒度实体(人物、地点、组织),这对于技术领域来说是不够的。细粒度实体识别 (Ling and Weld, 2012) 需要区分紧密相关的实体类型——这在汽车环境中尤为棘手,因为实体之间存在层次关系(例如,“2024 Ford F-150 Limited”包含 YEAR、MAKE、MODEL 和 TRIM 实体)。  

近期工作探索了产品和属性提取 (Putthividhya and Hu, 2011; Chen et al., 2023),展示了技术 NER 中的独特挑战:领域特定的缩写、重叠的实体边界以及层次化的实体关系。细粒度标注模式已被证明对于捕捉工业领域的技术规格至关重要 (Bikaun et al., 2024),然而汽车领域的专用资源仍然有限。  

### 2.2 汽车 NER 研究  

汽车领域在 NER 研究中受到的关注极少。Hu 和 Ma (2024) 研究了中文汽车配件的 NER,而 Ventirozos 等人 (2024) 近期工作引入了 Auto-AdvER 方法,用于理解英文车辆广告中的状况、历史索赔和销售选项。  

像 FindVehicle (Guan et al., 2024) 这样的近期数据集针对车辆检索,包含车辆颜色、品牌、型号和位置等实体类型,但缺乏技术规格提取所需的粒度。Park 等人 (2023) 引入了 ADMit,结合了对抗训练和多任务学习,用于韩语和英语的汽车 NER。他们的工作侧重于通用术语与汽车特定术语之间的领域自适应,但关注的是 FAQ 系统而非技术规格。我们的工作不同之处在于,目标是对规格验证和幻觉检测至关重要的细粒度车辆可识别属性。  

### 2.3 神经方法与领域自适应  

基于 Transformer 的模型已成为 NER 的标准,BERT (Devlin et al., 2019) 及其变体取得了强大的基准性能。领域特定的预训练显著提高了技术实体识别能力,正如在制造领域所展示的那样,其中形态模式引导实体识别 (Li et al., 2024)。结合知识图谱和对比学习的少样本 NER 方法显示出在低资源领域的潜力 (Zhang et al., 2024),解决了标注汽车数据稀缺的问题。  

虽然 LLMs 通过提示展现出竞争性性能 (Wang et al., 2023),但近期研究 (Naguib et al., 2024) 表明,在低资源技术领域,较小、专门化的模型通常优于 LLMs,使其在汽车应用中更实用。  

## 3 AutoSpecNER 数据集  

### 3.1 数据收集与组成  

我们从英国最大的在线汽车销售网站之一获得了 659 条车辆广告。数据集包含两个不同的来源:  

**用户生成的广告 (350 条)**:该数据集是广告的均匀分布样本,包含个人卖家(按英国不同县分层)和经销商(按英国最大经销商分层)。这些广告包含自然语言变化、非正式描述、拼写错误和不一致的格式。示例:“lovley ford focus 1.8 diesal, 2015 plate, full mot till next yr, grey metallic paint”。  

**AI 生成的广告 (309 条)**:这些广告由前述英国网站公司的团队使用 Google Gemini³³³gemini-2.0-flash-001 和 Meta 的 LLaMA³⁴⁴llama-3.1-8b-instruct 生成,通过在提示中提供车辆规格。它们语法正确、结构良好,但可能包含幻觉。例如,在一则奥迪 RSQ8 的广告中,生成的广告错误地将车辆称为奥迪 RS6:  
> “The Audi **RS6** is a high-performance car that boasts a powerful 4.0-litre V8 engine. This petrol engine is paired with an automatic transmission...”  
还有其他更微妙的幻觉,例如许多广告中插入了规格中未包含的附加信息,但这些信息可能是真实的。示例如下,一则大众 Polo Match 的广告被描述为大众 Polo EVO Match:  
> “With only 21,029 miles on the clock, this 2021 Volkswagen Polo **EVO Match** is manufacturer approved...”  

这种双重来源方法使得研究人员可以探究 NER 模型如何处理人为错误(拼写错误、非正式性)和 AI 错误(幻觉、规格混淆)。关键的是,每条广告都附带有结构化的元数据(事实表),列出了车辆的实际规格。这是一个至关重要的特性,因为它允许对提取的实体进行验证,并为潜在的错误/幻觉检测系统奠定了基础。  

### 3.2 语料库标注与标注者间一致性  

为确保我们提出的 15 标签模式的可靠性和可解释性,我们采取了多阶段标注过程。该过程是迭代的,包括初始模式细化阶段以产生清晰的指南⁵⁵⁵标注指南可在 github.com/FilipposVentirozos/AutoSpecNER 找到。,然后是最终验证阶段以确认其有效性。  

初始阶段由两名标注者独立标注了 50 条广告的试点集,平衡了用户生成和 AI 生成内容。虽然这产生了 0.81 的微观 F1 分数,表现良好,但对分歧的定性分析揭示了系统性的歧义。这一分析对于制定一套明确的标注原则至关重要。从这一细化过程中产生的主要原则包括:  

- •**优先考虑具体细节而非一般描述**:标签仅用于具体的、可量化的细节,而非一般性陈述。例如,短语“低二氧化碳排放”虽然描述了发动机特性,但由于缺乏具体数值,不标注为 ENGINE_SPEC。  
- •**保持相邻不同实体的分离**:当相同类型的多个实体相邻出现但指向不同的细节时,它们必须被标注为单独的实体。例如,在文本“...TDCI 1.6L ECOnetic...”中,每个组成部分(“TDCI”、“1.6L”、“ECOnetic”)都被标记为独立的 ENGINE_SPEC 实体。  
- •**消歧重叠概念**:建立明确的区分以避免混淆。例如,MAKE 标签仅限于主要车辆制造商;在‘...a Ford Focus with a Mercedes...engine’中,只有“Ford”被标注为 MAKE。类似地,像“e-SKYACTIV G Centre-Line”这样的复合名称被拆分为“e-SKYACTIV G”(ENGINE_SPEC)和“Centre-Line”(TRIM)。  
- •**强制执行严格上下文边界**:标注者被指示捕捉完整、自包含的描述性短语。对于 BATTERY_RANGE,捕捉整个短语“maximum range of 280 miles when new”,保留限定性上下文。  
- •**排除推测性和辅助信息**:指南被细化以确保仅标注广告中车辆的直接属性。在广告提及其他可用车型的情况下(例如,“The Golf is also available as a Station Wagon (Estate)”),仅标注主要广告车辆的车身类型(例如“Hatchback”)。  
- •**标注文本本身,而非结构化规格**:标注应反映广告中出现的实体跨度,即使它与附带的规格数据不同或事实上不正确。例如,如果广告将配置描述为“220d Luxury”,标注者将文本中的跨度标注出来,而不是将其规范化为官方规格值“Luxury”。这确保了模型学习提取自由文本广告中所作的声称,稍后可与结构化规格进行比较,以检测不一致或幻觉。  

### 3.3 标注模式概览  

最终模式包含 15 个实体标签,分为四组,并在表 1 中定义了具有代表性的示例。  

表 1:包含 15 个标签的 AutoSpecNER 标注模式,按类别分组,附带定义和代表性示例。  

#### 3.3.1 最终验证与一致性  

在指南细化之后,进行了最终的标注者间一致性研究。三位标注者(本文作者)参与了研究,他们国籍混合,英语是他们的第一或第二专业语言,并且对 NLP 标注任务有不同水平的先前接触。他们标注了一个新的、更大的随机样本,包含 100 条广告(50 条用户生成,50 条 AI 生成)。使用最终确定的指南,这次验证在所有三位标注者中实现了严格匹配的微观 F1 分数⁶⁶⁶在 NER 中,大多数情况下 Kappa 等价于 F1,因此我们仅测量 F1 (Richie et al., 2022; Hripcsak and Rothschild, 2005),平均值为 **91.5%**(标准差:3.2%)。精确率始终比召回率高约 2 个百分点,表明在阳性实体识别上意见高度一致,同时当实体边界或标签模糊时,标注者表现出更大的保守性。  

### 3.4 数据集统计  

数据集总共包含 11,117 个标注实体。实体频率近似幂律分布,从 MODEL(2,426 个实例)到 NO_SEATS(10 个实例)。这反映了自然出现模式——每条广告都提及车型,但座位数仅在值得注意时才被指定。读者可以查看图 1 来分别了解用户生成和 AI 广告生成文本的标签分布。  

总体而言,数据集包含 44 个不同的品牌、237 种独特的车型,车辆范围从较旧的(2006 年首次注册)到最新的(2025 年)。  

参阅图注  
图 1:数据集中每种来源的标签比例。深蓝色表示由 Gemini 或 Llama 生成的文本广告,绿色表示由用户编写的广告。  

## 4 实验  

为了准备用于训练的标注语料库,我们执行了两个关键步骤:将跨度级标注预处理为令牌级格式,并将语料库划分为训练集(约 70%)、验证集(约 15%)和测试集(约 15%)。实体分布可在

相似文章

EmbGen:利用重组语料库进行教学

arXiv cs.CL

EmbGen 是一种合成数据生成流水线,它通过嵌入相似度将语料库重组为实体-描述配对,从而生成多样化的问答对,用于在专业领域微调小型语言模型,显著提升了事实准确性。

GLiNER-Relex:联合命名实体识别与关系提取的统一框架

Hugging Face Daily Papers

GLiNER-Relex 是一个用于联合命名实体识别(NER)与关系提取(RE)的统一框架,利用共享的 Transformer 编码器实现零样本能力。该论文展示了模型在标准基准测试中具有竞争力的性能,并将其作为开源 Python 包发布。

AAbAAC:自身免疫信息提取的标注语料库

arXiv cs.AI

AAbAAC是一个手动标注的语料库,包含115篇PubMed摘要,用于自身免疫信息提取,重点关注自身免疫疾病和自身抗体等实体。研究表明,在该语料库上进行微调后,命名实体识别(NER)性能有所提升。