DiZiNER: 分歧引导的指令优化通过模拟试点标注实现零样本命名实体识别
摘要
DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。
arXiv:2604.15866v1 公告类型:新
摘要:大语言模型(LLMs)通过支持零样本和少样本命名实体识别(NER)推动了信息提取(IE)的发展,但其生成输出仍存在持续且系统性的错误。尽管通过指令微调取得了进展,零样本NER仍然远远落后于监督系统。这些反复出现的错误类似于人类标注早期阶段通过试点标注解决分歧时观察到的不一致性。受此类比启发,我们提出了DiZiNER(通过模拟试点标注进行分歧引导的指令优化以实现零样本命名实体识别),该框架模拟了试点标注过程,使用LLMs同时作为标注者和监督者。多个异构LLMs对共享文本进行标注,然后一个监督模型分析模型间的分歧以优化任务指令。在18个基准测试中,DiZiNER在14个数据集上取得了零样本SOTA结果,比之前的最好结果提升了8.0个F1点,并将零样本与监督之间的差距缩小了超过11个点。它也始终优于其监督模型GPT-5 mini,表明改进来自于分歧引导的指令优化,而非模型能力。模型间的成对一致性与NER性能表现出强相关性,进一步支持了这一发现。
查看缓存全文
缓存时间: 2026/04/20 08:30
# DiZiNER:基于分歧引导的指令精炼与预标注模拟,用于零样本命名实体识别
来源: https://arxiv.org/html/2604.15866
Siun Kim Seltasquare 首尔, 韩国 sukim@seltasquare\.com & Hyung\-Jin Yoon 首尔大学医学院 首尔, 韩国 hjyoon@snu\.ac\.kr 本工作主要于首尔大学医院生物医学研究所完成。
###### 摘要
大型语言模型(LLMs)通过支持零样本和少样本命名实体识别(NER)推动了信息抽取(IE)的发展,但其生成输出仍存在持续的系统性错误。尽管指令微调取得了进展,零样本NER仍远落后于监督系统。这些反复出现的错误类似于早期人工标注过程中通过预标注解决分歧时观察到的不一致性。受此类比启发,我们提出了DiZiNER(Disagreement\-guided Instruction Refinement via Pilot Annotation Simulation for Zero\-shot Named Entity Recognition),一个模拟预标注过程的框架,利用LLMs同时充当标注者和监督者。多个异构LLMs对共享文本进行标注,监督模型分析模型间的分歧以精炼任务指令。在18个基准测试中,DiZiNER在14个数据集上实现了零样本SOTA结果,将先前最优值平均提高了+8.0 F1,并将零样本与监督之间的差距缩小了超过11个百分点。它还持续优于其监督模型GPT-5 mini,表明改进源于分歧引导的指令精炼而非模型能力。模型间的成对一致性与NER性能强相关,进一步支持了这一发现。111代码和提示词可在https://github.com/SiunKim/diziner-ner/获取。
DiZiNER: Disagreement\-guided Instruction Refinement via Pilot Annotation Simulation for Zero\-shot Named Entity Recognition
Siun Kim††thanks:本工作主要于首尔大学医院生物医学研究所完成。 Seltasquare 首尔, 韩国 sukim@seltasquare\.com Hyung\-Jin Yoon 首尔大学医学院 首尔, 韩国 hjyoon@snu\.ac\.kr
## 1 引言
信息抽取(IE)将非结构化文本转换为结构化数据,命名实体识别(NER)作为入口,识别并分类实体跨度。大型语言模型(LLMs)的最新进展极大地拓展了IE的潜力(Luet al.,2022 (https://arxiv.org/html/2604.15866#bib.bib23);Bogdanovet al.,2024 (https://arxiv.org/html/2604.15866#bib.bib20)),使得NER的上下文学习(ICL)策略得以实现,如少样本(Chenet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib21); Jianget al.,2024 (https://arxiv.org/html/2604.15866#bib.bib26))和零样本学习(Xieet al.,2023a (https://arxiv.org/html/2604.15866#bib.bib22); Sainzet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib55))。尽管取得了这些进展,最先进(SOTA)模型仍严重依赖人工标注数据,监督微调(SFT)与ICL之间仍存在巨大性能差距(Xieet al.,2023a (https://arxiv.org/html/2604.15866#bib.bib22); Naguibet al.,2024 (https://arxiv.org/html/2604.15866#bib.bib19))。
LLMs表现出反复出现的NER错误模式,包括难以遵循复杂指南(Panget al.,2023 (https://arxiv.org/html/2604.15866#bib.bib18); Sainzet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib55); Qiet al.,2024 (https://arxiv.org/html/2604.15866#bib.bib48))、跨度边界检测的模糊性(Guoet al.,2024a (https://arxiv.org/html/2604.15866#bib.bib15); Dinget al.,2024 (https://arxiv.org/html/2604.15866#bib.bib56))以及频繁的实体类型混淆(Liet al.,2024a (https://arxiv.org/html/2604.15866#bib.bib27); Kimet al.,2024 (https://arxiv.org/html/2604.15866#bib.bib28))。先前的工作通过在不同数据集上进行指令微调(Wanget al.,2023a (https://arxiv.org/html/2604.15866#bib.bib45))、开放NER框架(Sainzet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib55))和大规模合成数据生成(Zhouet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib53))来解决这些问题。然而,监督方法仍显著优于它们(表2 (https://arxiv.org/html/2604.15866#S4.T2))。
在此背景下,我们注意到这些LLM错误与人工标注早期阶段观察到的错误相似(Tanabeet al.,2005 (https://arxiv.org/html/2604.15866#bib.bib13); Bernier\-Colborne and Vajjala,2024 (https://arxiv.org/html/2604.15866#bib.bib14))。黄金标准数据集通常通过预标注构建,这是一个解决标注者分歧并精炼指南的迭代过程(Walkeret al.,2006 (https://arxiv.org/html/2604.15866#bib.bib42); Weischedelet al.,2011 (https://arxiv.org/html/2604.15866#bib.bib57); Finlayson and Erjavec,2017 (https://arxiv.org/html/2604.15866#bib.bib12))。监督者分析分歧,更新模糊指令,并使标注与下游应用需求对齐(Fortet al.,2009 (https://arxiv.org/html/2604.15866#bib.bib10), 图1 (https://arxiv.org/html/2604.15866#S1.F1))。
基于这一类比,我们提出了DiZiNER(Disagreement\-guided Instruction Refinement via Pilot Annotation Simulation for Zero\-shot Named Entity Recognition),一个利用LLMs同时作为标注者和监督者模拟预标注过程的框架。多个异构开源LLMs作为标注者对共享文本进行标注,监督LLM分析和分类模型间分歧,以精炼通用和模型特定的指令。这种标注、分歧分析和指令精炼的迭代循环与人工预标注工作流程平行,使LLMs无需任何参数更新即可适应特定NER任务。
在18个NER基准测试中,DiZiNER在14个数据集上实现了零样本SOTA结果,将先前最优值平均提高了+8.0 F1,并将零样本与监督性能之间的差距从-32.0缩小到-20.9个百分点。LLM标注者之间的一致性指标在迭代中持续增加,并与NER性能强相关。值得注意的是,DiZiNER超越了其监督模型GPT-5 mini,表明观测到的改进源于分歧引导的精炼而非监督者本身的能力。
参见标题图1:DiZiNER框架概述。多个异构LLMs作为独立标注者。从其输出构建分歧档案,监督LLM迭代精炼模式和标注者特定指令直至收敛。
## 2 相关工作
#### NER的指令微调
标准指令微调在IE任务中常常难以遵循复杂的标注指南并生成结构化输出(Qiet al.,2024 (https://arxiv.org/html/2604.15866#bib.bib48))。InstructUIE和GoLLIE通过整理NER数据集用于指令微调来解决这些挑战,从而提高了零样本性能和指南遵循能力(Wanget al.,2023b (https://arxiv.org/html/2604.15866#bib.bib54); Sainzet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib55))。开放NER框架放宽标签约束,使LLMs能够更好地利用其语言理解能力进行NER(Etzioniet al.,2011 (https://arxiv.org/html/2604.15866#bib.bib16))。UniversalNER在合成数据上蒸馏ChatGPT(Zhouet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib53)),而GLiNER和NuNER采用仅编码器架构以减少推理成本(Zaratianaet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib52); Bogdanovet al.,2024 (https://arxiv.org/html/2604.15866#bib.bib20))。最近的工作致力于统一异构语料库,并通过边界感知学习解决跨度模糊性(Yanget al.,2024 (https://arxiv.org/html/2604.15866#bib.bib50); Dinget al.,2024 (https://arxiv.org/html/2604.15866#bib.bib56); Guoet al.,2024a (https://arxiv.org/html/2604.15866#bib.bib15))。尽管取得了这些进展,与监督系统的性能差距仍然很大,对微调的依赖限制了快速适应不断发展的LLMs的能力。
#### 无需指令微调的生成式NER
与此同时,研究人员探索利用LLMs固有的指令遵循能力来执行生成式NER,而无需额外的指令微调。早期工作通过类代码的模式表示约束输出(Liet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib7); Sainzet al.,2023 (https://arxiv.org/html/2604.15866#bib.bib55); Guoet al.,2024b (https://arxiv.org/html/2604.15866#bib.bib9); Liet al.,2024b (https://arxiv.org/html/2604.15866#bib.bib51))或将标注重新表述为令牌生成(Wanget al.,2023a (https://arxiv.org/html/2604.15866#bib.bib45))。后续方法引入了基于推理的提示,如自一致性和自验证方法,以更好地传达复杂的标注指令(Xieet al.,2023a (https://arxiv.org/html/2604.15866#bib.bib22); Kimet al.,2024 (https://arxiv.org/html/2604.15866#bib.bib28); Panget al.,2023 (https://arxiv.org/html/2604.15866#bib.bib18))。
基于自一致性和ICL的成功,用于生成式NER的近期方法采用迭代自我改进策略,生成伪示例,对其进行过滤,并提供作为上下文演示(Xieet al.,2023b (https://arxiv.org/html/2604.15866#bib.bib49); Tonget al.,2025 (https://arxiv.org/html/2604.15866#bib.bib47))。我们的工作遵循这种迭代、免微调的研究路线,但独特地利用模型间分歧作为改进NER性能的信号,类似于人工标注者在黄金标准数据集构建过程中精炼指南和调和判断的方式。
## 3 DiZiNER
DiZiNER框架通过迭代的预标注循环运行,包括三个阶段:(1) 独立交叉标注,其中多个LLM标注者在同一组文档上独立执行NER标注;(2) 分歧分析,识别具有高标注分歧的“热点”跨度,将分歧模式分类和总结为结构化报告;(3) 指令精炼,其中监督模型利用生成的结构化报告精炼任务指令,并在迭代中减少模型间分歧。
### 3.1 任务形式化
LLM标注者形成一个异构池M=\{Mk\}k=1K\mathcal{M}=\{M_{k}\}_{k=1}^{K},由独立开发的模型组成,以最小化相关错误。标签集为L=\{li\}i=1n\mathcal{L}=\{\ell_{i}\}_{i=1}^{n},NER模式为
Σ=\{\(l,dl,Pl,Nl\)\}l∈L,\Sigma=\big\{( \ell,\ d_{\ell},\ \mathcal{P}_{\ell},\ \mathcal{N}_{\ell} ) \big\}_{\ell\in\mathcal{L}},其中dld_{\ell}是实体类型l\ell的定义,Pl,Nl\mathcal{P}_{\ell},\mathcal{N}_{\ell}是正例和负例。模式Σ\Sigma在迭代中保持不变,以保持任务一致性并防止任务漂移。
在迭代tt时,标注者MkM_{k}接收任务配置
Θk\(t\)=\(Σ,C\(t\),Rk\(t\),G\(t\)\),\Theta_{k}^{(t)}=\big(\Sigma,\ C^{(t)},\ R_{k}^{(t)},\ G^{(t)}\big),其中C\(t\)C^{(t)}是通用指令,Rk\(t\)R_{k}^{(t)}是模型特定指令,G\(t\)G^{(t)}是最终任务目标。给定输入句子xx,标注者预测
y∼PMk\(y\|x,Θk\(t\)\),y\sim P_{M_{k}}\!\big(y\,\big|\,x,\Theta_{k}^{(t)}\big),标注输出y=\{\(ej,lej\)\}y=\{(e_{j},\ \ell_{e_{j}})\},其中eje_{j}是实体跨度,lej∈L\ell_{e_{j}}\in\mathcal{L}是其标签。
### 3.2 独立交叉标注
在每次迭代中,文档按词汇多样性分组,然后在各组内随机抽样代表性子集,形成迭代文档集D\(t\)\mathcal{D}^{(t)}。M\mathcal{M}中的所有标注者根据其任务配置Θk\(t\)\Theta_{k}^{(t)}独立地对集合中的每个样本进行标注。为了能够进行模型间的令牌级比较,跨度级标注被转换为BIO序列表示。对于输入x=\(w1,...,wm\)x=(w_{1},\dots,w_{m}),标签集定义为
T=\{B−l,I−l,O∣l∈L\}.\mathcal{T}=\{\mathrm{B}\!-\!\ell,\ \mathrm{I}\!-\!\ell,\ \mathrm{O}\mid\ell\in\mathcal{L}\}.转换产生BIO序列
zk\(x\)=\(zk,1\(x\),...,zk,m\(x\)\),zk,i\(x\)∈T,\mathbf{z}_{k}(x)=(z_{k,1}(x),\dots,z_{k,m}(x)),\quad z_{k,i}(x)\in\mathcal{T},表示从标注者MkM_{k}的跨度级标注yy派生的令牌级标注输出。
### 3.3 分歧分析
该阶段识别模型间存在强烈分歧的“热点”跨度。跨标注者的令牌级不一致性被量化以标记高分歧区域。
#### 模型权重与共识
模型权重根据标注者间的成对严格跨度F1分数计算,对于模型MiM_{i}和MjM_{j},
F1ij=2\|Si∩Sj\|\|Si\|+\|Sj\|,\mathrm{F1}_{ij}=\frac{2\,\|\mathcal{S}_{i}\cap\mathcal{S}_{j}\|}{\|\mathcal{S}_{i}\|+\|\mathcal{S}_{j}\|},其中Sk\mathcal{S}_{k}表示模型MkM_{k}预测的实体跨度集合。每个模型的权重wkw_{k}计算为与所有其他模型的成对F1分数平均值,然后归一化使权重之和为1。“精英集”定义为权重最高的标注者子集,按降序排列时其累积权重首次达到0.5。计算出的模型权重也用作后续分析中每个标注者的一致性分数。
句子xx中令牌ii的共识标签通过加权多数投票获得,
τ^\(x,i\)=argmaxτ∈Tpτ\(x,i\),\widehat{\tau}(x,i)=\arg\max_{\tau\in\mathcal{T}}p_{\tau}(x,i),其中pτ\(x,i\)=∑kwk1\[zk,i\(x\)=τ\]p_{\tau}(x,i)=\sum_{k}w_{k}\,\mathbf{1}[z_{k,i}(x)=\tau]表示标签τ\tau的加权令牌级概率。
#### 热点跨度识别
我们计算三个互补的令牌级度量,捕捉不同形式的标注分歧。(1) 标签冲突量化BIO标签的分散性:
Dconf\(x,i\)=1−∑τ∈Tpτ\(x,i\)2.D_{\mathrm{conf}}(x,i)=1-\sum_{\tau\in\mathcal{T}}p_{\tau}(x,i)^{2}.(2) 类型混淆反映实体类型上的分歧:
Dtype\(x,i\)=1−∑l∈L\(pB−l\(x,i\)\+pI−l\(x,i\)1−pO\(x,i\)\)2D_{\mathrm{type}}(x,i)=1-\sum_{\ell\in\mathcal{L}}\left(\frac{p_{\mathrm{B}-\ell}(x,i)+p_{\mathrm{I}-\ell}(x,i)}{1-p_{\mathrm{O}}(x,i)}\right)^{2}(3) 边界不确定性衡量实体边界处的不一致性:
qs\(x,i\)=∑l∈LpB−l\(x,i\),qi\(x,i\)=∑l∈LpI−l\(x,i\).q_{s}(x,i)=\sum_{\ell\in\mathcal{L}}p_{\mathrm{B}-\ell}(x,i),\quad q_{i}(x,i)=\sum_{\ell\in\mathcal{L}}p_{\mathrm{I}-\ell}(x,i).Ubnd\(x,i\)=max\{\displaystyle U_{\mathrm{bnd}}(x,i)=\max\Big\{4qs\(x,i\)\(1−qs\(x,i\)\),\displaystyle 4q_{s}(x,i)(1-q_{s}(x,i)),4qi\(x,i\)\(1−qi\(x,i\)\)\}.\displaystyle 4q_{i}(x,i)(1-q_{i}(x,i))\Big\}.
最终的令牌级分歧分数定义为
U⋆\(x,i\)=max\{Dconf,Dtype,Ubnd\}.U_{\star}(x,i)=\max\{D_{\mathrm{conf}},D_{\mathrm{type}},U_{\mathrm{bnd}}\}.相似文章
GLiNER-Relex:联合命名实体识别与关系提取的统一框架
GLiNER-Relex 是一个用于联合命名实体识别(NER)与关系提取(RE)的统一框架,利用共享的 Transformer 编码器实现零样本能力。该论文展示了模型在标准基准测试中具有竞争力的性能,并将其作为开源 Python 包发布。
RemoteZero:实现零人工标注的地理空间推理
RemoteZero 是一个框架,通过利用多模态大语言模型(MLLMs)的语义验证能力,消除了地理空间推理中对人工标注框监督的需求,从而实现了从未经标注的遥感数据中进行自我演进的定位能力。
MindZero:零标注下的在线心智推理学习
MindZero 提出了一种自监督强化学习框架,用于训练多模态大语言模型,使其能够高效且鲁棒地进行在线心智推理,而无需心智状态标注,在准确性和效率上均优于基于模型的方法。
ReacTOD: 用于零样本对话状态跟踪的有界神经符号智能NLU
ReacTOD提出了一种用于零样本对话状态跟踪的有界神经符号架构,采用带有确定性验证的自校正ReAct循环。它在MultiWOZ和Schema-Guided Dialogue基准上取得了最先进的结果,将联合目标准确率提升了多达14个百分点。
零样本嵌入漂移检测:一种针对LLM中提示注入的轻量级防御方法
本文介绍了零样本嵌入漂移检测(ZEDD),这是一种轻量级框架,通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击,在多种架构上实现了超过93%的准确率和低于3%的假阳性率。