发现用于实体消歧的类型
摘要
OpenAI研究人员提出了一种使用类型发现进行实体消歧的新方法,系统从预选类别集中预测实体类型,以解决歧义引用。该方法在实体消歧数据集上取得了最先进的结果,并通过基于类型的权重实现了高效的O(N)运行时实体排序。
我们构建了一个系统,通过让神经网络判断一个词是否属于大约100个自动发现的“类型”(非排他性类别),来自动确定该词所指的对象。
查看缓存全文
缓存时间: 2026/04/20 14:56
# 为实体消歧发现类型
来源:https://openai.com/index/discovering-types-for-entity-disambiguation/
例如,给定一个句子 like “the prey saw the jaguar cross the jungle”,系统不直接推理 jaguar 指的是汽车、动物还是其他事物,而是用预先选定的类别集玩“20个问题”。这种方法在多个实体消歧数据集上显著提升了当前最优性能。
利用我们类型系统优化得到的最佳方案,现在可以用类型系统生成的标签来标注来自维基百科的数据。基于这些数据(在我们的实验中,英语和法语各 4 亿个 token),我们可以训练一个[双向 LSTM](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)(在新窗口打开),让它独立预测每个词的所有类型归属。在维基百科源文本上,我们只对内部维基链接有监督信号,但这已经足够训练出一个深度神经网络,其类型预测的 [F1](https://en.wikipedia.org/wiki/F1_score)(在新窗口打开) 超过 0.91。
通过束搜索发现的一个类型系统,包含了像 `Aviation`、`Clothing` 和 `Games` 这样的类型(以及一些出乎意料具体的类型,比如 `1754 in Canada`——这表明 1754 年在它所训练的 1000 篇维基百科文章数据集中是个令人兴奋的年份);你也可以查看[完整的](https://cdn.openai.com/discovering-types-for-entity-disambiguation/greedy.txt)(在新窗口打开)类型系统。
文档中实体的预测通常依赖不同实体之间的“连贯性”指标,比如衡量每个实体与其他实体的匹配程度,其复杂度为文档长度的 `O(N^2)`。而我们的运行时复杂度是 `O(N)`,因为我们只需在一个将短语映射到其可能含义的字典树中查找每个短语。我们根据维基百科中看到的链接频率对每个可能的实体进行排序,并通过类型分类器下每个实体的似然度进行加权调整。新实体只需指定其类型归属(人物、动物、原籍国、时间段等)即可添加。
相似文章
GATHER:面向零样本细胞类型注释的以汇聚为中心的超实体检索
本文介绍了 GATHER,这是一种基于知识图谱的以汇聚为中心的检索方法,用于零样本细胞类型注释。与现有的 KG-RAG 基线方法相比,该方法提高了准确性并降低了大语言模型(LLM)的成本。
结构引导实体解析:微调大语言模型实现复杂语言环境下的鲁棒姓名匹配
本文提出结构引导实体解析(SGER)框架,通过课程学习微调大语言模型,在语言多样化环境中实现鲁棒的人名匹配,在印度身份数据上达到99.02%准确率,并已在Dream11部署。
Narrative-UFET:面向超细粒度实体类型识别的叙事生成
本文介绍了Narrative-UFET,一种生成简短叙事以提供超细粒度实体类型识别更广泛上下文的方法,与句子级别的基线相比,它提高了长尾类型的性能。
先定位后排序:重新审视基于知识的VQA中的免训练实体识别
本文提出了一种免训练的“先识别后回答”(IBA)框架,用于基于知识的视觉问答(KB-VQA),该框架将实体识别与证据排序解耦,在降低复杂度的同时优于微调的多模态检索增强生成基线。
DiZiNER: 分歧引导的指令优化通过模拟试点标注实现零样本命名实体识别
DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。