AutoSpecNER：用于车辆规格提取的细粒度命名实体识别数据集

arXiv cs.CL 2026/06/24 04:00 论文

fine-grained-ner automotive dataset entity-recognition transformer benchmark

摘要

介绍AutoSpecNER，一个由专家标注的车辆列表细粒度命名实体识别数据集，包含659条广告，标注了15种实体类型。基准测试结果显示，DeBERTa取得了90%的微平均F1分数，优于基于规则的方法和大型语言模型。

arXiv:2606.24387v1 Announce Type: new Abstract: 车辆广告包含丰富的规格信息，但汽车领域的命名实体识别资源仍然有限。我们介绍AutoSpecNER，一个由专家标注的车辆列表细粒度实体识别数据集。该数据集包含来自一个热门汽车销售网站的659条广告，标注了超过10,000个实体，涵盖15个类别，包括MODEL、ENGINE_SPEC和BATTERY_CAPACITY。通过标注者间一致性验证了标注质量，平均得分达到91.5%。我们对基于规则的提取、微调的Transformer编码器以及大型语言模型进行了基准测试。DeBERTa取得了最佳性能，微平均F1分数为90%，优于基于规则的基线（43%）和最强大的大型语言模型（77.8%）。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:47

# AutoSpecNER：用于车辆规格提取的细粒度命名实体识别数据集  
来源：https://arxiv.org/html/2606.24387  

Jordan Lee¹,²\*, Filippos Ventirozos¹,², Abdirahman Abdullahm¹, Ioanna Nteka², Peter Appleby², Matthew Shardlow¹  
¹英国曼彻斯特城市大学计算与数学系  
²Autotrader 研究组，Autotrader UK  
\{f.ventirozos, m.shardlow\}@mmu.ac.uk  
\*工作完成于 Autotrader UK 实习期间  

###### 摘要  

车辆广告包含丰富的规格信息，但汽车领域的命名实体识别（NER）资源仍然有限。我们引入了 AutoSpecNER，这是一个专为车辆列表中的细粒度实体识别而设计、由专家标注的数据集。该数据集包含来自一个热门汽车销售网站的 659 条广告，涵盖 10,000 多个实体，涉及 15 个类别，包括 MODEL、ENGINE_SPEC 和 BATTERY_CAPACITY。通过一致性检验验证了标注质量，平均得分为 91.5%。我们评估了基于规则的提取方法、微调后的 Transformer 编码器以及大型语言模型。DeBERTa 以 90% 的微观 F1 分数取得了最佳性能，优于基于规则的基线（43%）和最强的大型语言模型（77.8%）。  

AutoSpecNER：用于车辆规格提取的细粒度命名实体识别数据集  
Jordan Lee¹,²\*, Filippos Ventirozos¹,², Abdirahman Abdullahm¹, Ioanna Nteka², Peter Appleby², Matthew Shardlow¹  
¹英国曼彻斯特城市大学计算与数学系  
²Autotrader 研究组，Autotrader UK  
\{f.ventirozos, m.shardlow\}@mmu.ac.uk  
\*工作完成于 Autotrader UK 实习期间  

## 1 引言  

汽车行业通过在线车辆广告产生了大量非结构化文本。这些广告在自由格式的描述中嵌入了有价值的规格信息，但大规模手动提取这些结构化数据是不切实际的。这一问题因近期 AI 生成的广告内容而加剧——这些内容可能包含幻觉，即事实上错误的信息，从而误导消费者。命名实体识别（NER）提供了一种解决方案，能够自动识别并从文本中提取特定信息片段。虽然 NER 已成功应用于生物医学文本 (Majid et al., 2024)、新闻文章 (Tjong Kim Sang and De Meulder, 2003) 和社交媒体 (Derczynski et al., 2017) 等多个领域，但汽车广告领域面临着独特的挑战：  

- •**领域特定术语**：技术规格如“2.0L TDI”、“DSG 变速箱”或“Santorini [黑色]”需要专门的理解。  
- •**细粒度区分**：区分相似概念（例如，外部与内部颜色、电池容量与续航里程）。  
- •**多词实体**：复杂规格通常跨越多个标记（例如，“使用 350kW 充电器充电 18 分钟”）。  
- •**混合内容来源**：广告既包含带有拼写错误和非正式语言的用户生成内容，也包含可能产生幻觉的 AI 生成内容。  

本文提出两大主要贡献。首先，我们推出了 Automotive Specification NER (AutoSpecNER)，这是一个全新、公开可用的数据集¹¹¹¹可在 github.com/FilipposVentirozos/AutoSpecNER 获取。，专门针对汽车领域的细粒度 NER。该数据集包含 659 条车辆广告，标注了 15 种对车辆识别和比较至关重要的实体类型。其次，我们提供了在 AutoSpecNER 上的全面基准评估。我们比较了三种不同方法的性能：基于规则的系统、基于 Transformer 的编码器模型，以及使用少样本和自验证技术提示的大型语言模型 (LLMs) (Wang et al., 2023)。我们的分析证实，虽然 NER 是完成此任务的可行技术，但模型的选择对性能有深远影响，微调后的编码器展现出更强的能力。  

## 2 相关工作  

### 2.1 领域特定 NER 与细粒度实体识别  

CoNLL-2003 (Tjong Kim Sang and De Meulder, 2003) 等标准 NER 基准关注粗粒度实体（人物、地点、组织），这对于技术领域来说是不够的。细粒度实体识别 (Ling and Weld, 2012) 需要区分紧密相关的实体类型——这在汽车环境中尤为棘手，因为实体之间存在层次关系（例如，“2024 Ford F-150 Limited”包含 YEAR、MAKE、MODEL 和 TRIM 实体）。  

近期工作探索了产品和属性提取 (Putthividhya and Hu, 2011; Chen et al., 2023)，展示了技术 NER 中的独特挑战：领域特定的缩写、重叠的实体边界以及层次化的实体关系。细粒度标注模式已被证明对于捕捉工业领域的技术规格至关重要 (Bikaun et al., 2024)，然而汽车领域的专用资源仍然有限。  

### 2.2 汽车 NER 研究  

汽车领域在 NER 研究中受到的关注极少。Hu 和 Ma (2024) 研究了中文汽车配件的 NER，而 Ventirozos 等人 (2024) 近期工作引入了 Auto-AdvER 方法，用于理解英文车辆广告中的状况、历史索赔和销售选项。  

像 FindVehicle (Guan et al., 2024) 这样的近期数据集针对车辆检索，包含车辆颜色、品牌、型号和位置等实体类型，但缺乏技术规格提取所需的粒度。Park 等人 (2023) 引入了 ADMit，结合了对抗训练和多任务学习，用于韩语和英语的汽车 NER。他们的工作侧重于通用术语与汽车特定术语之间的领域自适应，但关注的是 FAQ 系统而非技术规格。我们的工作不同之处在于，目标是对规格验证和幻觉检测至关重要的细粒度车辆可识别属性。  

### 2.3 神经方法与领域自适应  

基于 Transformer 的模型已成为 NER 的标准，BERT (Devlin et al., 2019) 及其变体取得了强大的基准性能。领域特定的预训练显著提高了技术实体识别能力，正如在制造领域所展示的那样，其中形态模式引导实体识别 (Li et al., 2024)。结合知识图谱和对比学习的少样本 NER 方法显示出在低资源领域的潜力 (Zhang et al., 2024)，解决了标注汽车数据稀缺的问题。  

虽然 LLMs 通过提示展现出竞争性性能 (Wang et al., 2023)，但近期研究 (Naguib et al., 2024) 表明，在低资源技术领域，较小、专门化的模型通常优于 LLMs，使其在汽车应用中更实用。  

## 3 AutoSpecNER 数据集  

### 3.1 数据收集与组成  

我们从英国最大的在线汽车销售网站之一获得了 659 条车辆广告。数据集包含两个不同的来源：  

**用户生成的广告 (350 条)**：该数据集是广告的均匀分布样本，包含个人卖家（按英国不同县分层）和经销商（按英国最大经销商分层）。这些广告包含自然语言变化、非正式描述、拼写错误和不一致的格式。示例：“lovley ford focus 1.8 diesal, 2015 plate, full mot till next yr, grey metallic paint”。  

**AI 生成的广告 (309 条)**：这些广告由前述英国网站公司的团队使用 Google Gemini³³³gemini-2.0-flash-001 和 Meta 的 LLaMA³⁴⁴llama-3.1-8b-instruct 生成，通过在提示中提供车辆规格。它们语法正确、结构良好，但可能包含幻觉。例如，在一则奥迪 RSQ8 的广告中，生成的广告错误地将车辆称为奥迪 RS6：  
> “The Audi **RS6** is a high-performance car that boasts a powerful 4.0-litre V8 engine. This petrol engine is paired with an automatic transmission...”  
还有其他更微妙的幻觉，例如许多广告中插入了规格中未包含的附加信息，但这些信息可能是真实的。示例如下，一则大众 Polo Match 的广告被描述为大众 Polo EVO Match：  
> “With only 21,029 miles on the clock, this 2021 Volkswagen Polo **EVO Match** is manufacturer approved...”  

这种双重来源方法使得研究人员可以探究 NER 模型如何处理人为错误（拼写错误、非正式性）和 AI 错误（幻觉、规格混淆）。关键的是，每条广告都附带有结构化的元数据（事实表），列出了车辆的实际规格。这是一个至关重要的特性，因为它允许对提取的实体进行验证，并为潜在的错误/幻觉检测系统奠定了基础。  

### 3.2 语料库标注与标注者间一致性  

为确保我们提出的 15 标签模式的可靠性和可解释性，我们采取了多阶段标注过程。该过程是迭代的，包括初始模式细化阶段以产生清晰的指南⁵⁵⁵标注指南可在 github.com/FilipposVentirozos/AutoSpecNER 找到。，然后是最终验证阶段以确认其有效性。  

初始阶段由两名标注者独立标注了 50 条广告的试点集，平衡了用户生成和 AI 生成内容。虽然这产生了 0.81 的微观 F1 分数，表现良好，但对分歧的定性分析揭示了系统性的歧义。这一分析对于制定一套明确的标注原则至关重要。从这一细化过程中产生的主要原则包括：  

- •**优先考虑具体细节而非一般描述**：标签仅用于具体的、可量化的细节，而非一般性陈述。例如，短语“低二氧化碳排放”虽然描述了发动机特性，但由于缺乏具体数值，不标注为 ENGINE_SPEC。  
- •**保持相邻不同实体的分离**：当相同类型的多个实体相邻出现但指向不同的细节时，它们必须被标注为单独的实体。例如，在文本“...TDCI 1.6L ECOnetic...”中，每个组成部分（“TDCI”、“1.6L”、“ECOnetic”）都被标记为独立的 ENGINE_SPEC 实体。  
- •**消歧重叠概念**：建立明确的区分以避免混淆。例如，MAKE 标签仅限于主要车辆制造商；在‘...a Ford Focus with a Mercedes...engine’中，只有“Ford”被标注为 MAKE。类似地，像“e-SKYACTIV G Centre-Line”这样的复合名称被拆分为“e-SKYACTIV G”（ENGINE_SPEC）和“Centre-Line”（TRIM）。  
- •**强制执行严格上下文边界**：标注者被指示捕捉完整、自包含的描述性短语。对于 BATTERY_RANGE，捕捉整个短语“maximum range of 280 miles when new”，保留限定性上下文。  
- •**排除推测性和辅助信息**：指南被细化以确保仅标注广告中车辆的直接属性。在广告提及其他可用车型的情况下（例如，“The Golf is also available as a Station Wagon (Estate)”），仅标注主要广告车辆的车身类型（例如“Hatchback”）。  
- •**标注文本本身，而非结构化规格**：标注应反映广告中出现的实体跨度，即使它与附带的规格数据不同或事实上不正确。例如，如果广告将配置描述为“220d Luxury”，标注者将文本中的跨度标注出来，而不是将其规范化为官方规格值“Luxury”。这确保了模型学习提取自由文本广告中所作的声称，稍后可与结构化规格进行比较，以检测不一致或幻觉。  

### 3.3 标注模式概览  

最终模式包含 15 个实体标签，分为四组，并在表 1 中定义了具有代表性的示例。  

表 1：包含 15 个标签的 AutoSpecNER 标注模式，按类别分组，附带定义和代表性示例。  

#### 3.3.1 最终验证与一致性  

在指南细化之后，进行了最终的标注者间一致性研究。三位标注者（本文作者）参与了研究，他们国籍混合，英语是他们的第一或第二专业语言，并且对 NLP 标注任务有不同水平的先前接触。他们标注了一个新的、更大的随机样本，包含 100 条广告（50 条用户生成，50 条 AI 生成）。使用最终确定的指南，这次验证在所有三位标注者中实现了严格匹配的微观 F1 分数⁶⁶⁶在 NER 中，大多数情况下 Kappa 等价于 F1，因此我们仅测量 F1 (Richie et al., 2022; Hripcsak and Rothschild, 2005)，平均值为 **91.5%**（标准差：3.2%）。精确率始终比召回率高约 2 个百分点，表明在阳性实体识别上意见高度一致，同时当实体边界或标签模糊时，标注者表现出更大的保守性。  

### 3.4 数据集统计  

数据集总共包含 11,117 个标注实体。实体频率近似幂律分布，从 MODEL（2,426 个实例）到 NO_SEATS（10 个实例）。这反映了自然出现模式——每条广告都提及车型，但座位数仅在值得注意时才被指定。读者可以查看图 1 来分别了解用户生成和 AI 广告生成文本的标签分布。  

总体而言，数据集包含 44 个不同的品牌、237 种独特的车型，车辆范围从较旧的（2006 年首次注册）到最新的（2025 年）。  

参阅图注  
图 1：数据集中每种来源的标签比例。深蓝色表示由 Gemini 或 Llama 生成的文本广告，绿色表示由用户编写的广告。  

## 4 实验  

为了准备用于训练的标注语料库，我们执行了两个关键步骤：将跨度级标注预处理为令牌级格式，并将语料库划分为训练集（约 70%）、验证集（约 15%）和测试集（约 15%）。实体分布可在

AutoSpecNER：用于车辆规格提取的细粒度命名实体识别数据集

相似文章

DiZiNER: 分歧引导的指令优化通过模拟试点标注实现零样本命名实体识别

EmbGen：利用重组语料库进行教学

GLiNER-Relex：联合命名实体识别与关系提取的统一框架

AAbAAC：自身免疫信息提取的标注语料库

利用专家代理进行自动研究：开发高效且非平凡的训练配方

提交意见反馈