发现用于实体消歧的类型

OpenAI Blog 论文

摘要

OpenAI研究人员提出了一种使用类型发现进行实体消歧的新方法,系统从预选类别集中预测实体类型,以解决歧义引用。该方法在实体消歧数据集上取得了最先进的结果,并通过基于类型的权重实现了高效的O(N)运行时实体排序。

我们构建了一个系统,通过让神经网络判断一个词是否属于大约100个自动发现的“类型”(非排他性类别),来自动确定该词所指的对象。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:56

# 为实体消歧发现类型 来源:https://openai.com/index/discovering-types-for-entity-disambiguation/ 例如,给定一个句子 like “the prey saw the jaguar cross the jungle”,系统不直接推理 jaguar 指的是汽车、动物还是其他事物,而是用预先选定的类别集玩“20个问题”。这种方法在多个实体消歧数据集上显著提升了当前最优性能。 利用我们类型系统优化得到的最佳方案,现在可以用类型系统生成的标签来标注来自维基百科的数据。基于这些数据(在我们的实验中,英语和法语各 4 亿个 token),我们可以训练一个[双向 LSTM](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)(在新窗口打开),让它独立预测每个词的所有类型归属。在维基百科源文本上,我们只对内部维基链接有监督信号,但这已经足够训练出一个深度神经网络,其类型预测的 [F1](https://en.wikipedia.org/wiki/F1_score)(在新窗口打开) 超过 0.91。 通过束搜索发现的一个类型系统,包含了像 `Aviation`、`Clothing` 和 `Games` 这样的类型(以及一些出乎意料具体的类型,比如 `1754 in Canada`——这表明 1754 年在它所训练的 1000 篇维基百科文章数据集中是个令人兴奋的年份);你也可以查看[完整的](https://cdn.openai.com/discovering-types-for-entity-disambiguation/greedy.txt)(在新窗口打开)类型系统。 文档中实体的预测通常依赖不同实体之间的“连贯性”指标,比如衡量每个实体与其他实体的匹配程度,其复杂度为文档长度的 `O(N^2)`。而我们的运行时复杂度是 `O(N)`,因为我们只需在一个将短语映射到其可能含义的字典树中查找每个短语。我们根据维基百科中看到的链接频率对每个可能的实体进行排序,并通过类型分类器下每个实体的似然度进行加权调整。新实体只需指定其类型归属(人物、动物、原籍国、时间段等)即可添加。

相似文章