DiscoExplorer:多语言篇章关系研究的开放接口

arXiv cs.CL 论文

摘要

介绍 DiscoExplorer,一个用于搜索和可视化跨16种语言的篇章关系数据集的开源网络接口,使 DISRPT 共享任务数据可公开访问。

arXiv:2605.15304v1 公告类型:新 摘要:连接语篇中命题的关系,例如原因(A because B)或让步(A although B),是计算语言学和语用学中备受关注的研究课题,但跨语言的研究和比较具有挑战性。近年来,在数据集之间标准化篇章关系清单的进展为促进此类研究提供了潜力,但相关数据的复杂性和缺乏易于访问的分析接口阻碍了进展。在本文中,我们介绍了 DiscoExplorer,一种新的开源网络接口,能够在本地计算机上运行,我们用它来公开 DISRPT 共享任务中关于篇章关系分类的数据集,涵盖16种不同语言。我们介绍了查询语言、关系和信号装置(如连接词)的搜索与可视化功能,以及一些示例研究。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:30

# 研究多语言话语关系的开放接口
来源:https://arxiv.org/html/2605.15304
###### 摘要

话语中连接命题的关系,例如原因(A 因为 B)或让步(A 尽管 B),是计算语言学和语用学中备受关注的主题,但在跨语言研究和比较上颇具挑战性。近年来,在跨数据集标准化话语关系清单方面取得了进展,有望促进此类研究,但受到相关数据复杂性以及缺乏易于访问的接口来分析这些数据的阻碍。在本文中,我们介绍了 DiscoExplorer,一个新的开源网络界面,能够在本地计算机上运行,我们用它来公开 DISRPT 共享任务中关于话语关系分类的数据集,涵盖 16 种不同语言。我们介绍了查询语言、搜索和可视化功能,用于关系和信号设备(如连接词),以及一些示例研究。

DiscoExplorer: An Open Interface for the Study of Multilingual Discourse Relations

Amir Zeldes
Georgetown University
[email protected]

## 1 引言

话语关系是当多个命题在文本或对话中并置时产生的隐性或显性的语义/语用连接。例如,在 (1) 中,显性连接词 'when' 表示两个论元 1 和 2 之间的时序关系,而 1 和 3 之间的因果关系则是隐性的(Jin 因为 Kim 离开而不安)。

\ex

.\[\[Kim left\]1\]\_\{1\}\[\[when Jin arrived\.\]2\]\_\{2\}\[\[Jin is upset now\.\]3\]\_\{3\}

已有多种理论试图描述话语关系并构建相关数据集,包括修辞结构理论(RST, Mann and Thompson 1988)、分段话语表征理论(SDRT, Asher and Lascarides 2003)、宾州话语树库(PDTB, Prasad et al. 2014)以及话语依存理论(Morey et al. 2018)。然而,由于每种理论和数据集倾向于使用不同的关系清单和数据结构(例如层次树、图、或文本片段对),跨语言甚至同语言内数据集的比较一直很有挑战性。

最近,DISRPT 共享任务(Braud et al. 2024)通过聚焦于这些形式主义的共同点——即文本各部分之间关系的设定,以及可选的信号设备信息(例如上述隐性关系和显性关系的区分)——在统一这些形式化的数据方面取得了进展。在其最新版本中,共享任务还统一了 16 种语言中 38 个数据集的关系标签(Braud et al. 2025),首次实现了跨语言比较,类似于通用依存关系(UD, de Marneffe et al. 2021)等项目为描述多语言句法功能而整合标签的倡议。然而与 UD 等项目相比,缺失的是一个易于访问的接口来搜索和比较数据、识别错误以及可视化数据集中的模式。本短文的主要贡献旨在填补这一空白:

- 我们提供了一个高性能、开源、完全由纯 JavaScript 实现的客户端界面,可在任何 PC 上运行
- 我们将 DISRPT 共享任务的数据集公开上线,供公众搜索
- 我们提出了一种简单灵活的查询语言,方便新用户使用

## 2 相关工作

尽管已有许多针对语言数据的本地图搜索工具,例如 Semgrex、Ssurgeon 或 Semgrex-Plus(Tamburini 2017; Bauer et al. 2023),但几乎所有这些工具都局限在句子边界内搜索,因此无法表示整个文本中的关系。一些在线界面已支持对句法甚至语义标注的树库进行搜索(Guibon et al. 2020; Amblard et al. 2022),但专门针对话语关系的界面很少,且通常只针对单一资源和理论,例如西班牙语(da Cunha et al. 2011)和巴斯克语(Iruskieta et al. 2013)的 RST 树库界面。存在一些将 RST 数据转换到 ANNIS(Krause and Zeldes 2016)等通用多层语料库搜索界面的转换器。然而,该系统较为笨重、速度较慢,且查询语言复杂,不专为话语关系设计,目前也无法导入其他话语形式或 DISRPT 格式的数据。

我们的工作主要受 Grew Match 搜索界面(用于 UD 树库,Guibon et al. 2020)的启发,该界面利用 UD 项目一致的格式和标签清单,允许用户使用一致的查询语言和架构访问树库。

## 3 DiscoExplorer

### 3.1 架构

我们的架构设计有三个目标:1. 最小化计算成本,避免需要专用(且昂贵)的服务器;2. 使拥有专有数据、无法在线公开的用户能够在本地运行界面;3. 实现快速响应的搜索,且依赖最少。为实现这些目标,我们使用 React 实现了一个纯客户端 JavaScript 解决方案,没有数据库后端,没有专门的索引(例如 Meilisearch)或可视化库(例如 D3.js)。相反,我们尽可能使用纯 JavaScript、HTML 和 CSS,以确保软件的稳定性和长久性。

我们的数据模型以话语关系作为搜索的基本实例,关系与文档中的词元位置对齐,并跨越两个可能不连续的论元跨度(例如因果关系中的原因和结果)。对于不覆盖整个句子的关系,还会关联上下文跨度,指示同一句子中论元之前、之后或之间的词语,确保每个匹配都提供完整的句子上下文。最后,关系带有标签、方向(1>2 或 1<2),以及可能的类型化和子类型化信号词列表(针对标记连接词或其他信号类型的数据集)。

### 3.2 基本界面

网络界面围绕两个区域排列:顶部为图1中的查询表单,底部为结果区域,该区域可显示定性搜索的索引行,或切换到“频率”选项卡进行定量分析。该界面最初在乔治城大学的一门话语计算模型研讨课(LING-8415)上由学生测试,根据学生反馈,添加了一个用于数据集间比较的选项卡。我们还计划收集 CODI 与会者和 DISRPT 社区的反馈,以开发更多功能。

参照图注
图 1: DiscoExplorer 搜索界面:用户可以输入查询并选择过滤器。下划线显示查询匹配,信号词高亮(例如红色表示话语标记,黄色表示词汇信号)。

基本查询表单通过在下拉过滤器中公开可用数据集及其标签,旨在用户友好。过滤器的否定通过简单的复选框实现——例如,选择 condition 标签并对任何信号类型勾选否定框,在 eng.erst.gum(来自 GUM 语料库,Zeldes 2017)中会得到隐性条件句的实例,如 (1) 所示。更复杂的查询必须使用第 3.3 节中描述的 DiscoExplorer 查询语言 (DEQL)。

\ex

.\[\[you take this painting,\]1\]\_\{1\}\[\[I want that recorder\]2\]\_\{2\}\(=if you take this painting\)

### 3.3 查询语言 – DEQL

我们的查询语言旨在简单而强大:一方面,它应该对简单地在搜索框中输入单词做出预期响应;另一方面,它允许用户进行精确序列或灵活匹配查询、限制在关系的第一个/第二个或源/目标跨度内搜索,以及利用词元注释。由于 DISRPT 数据随附 UD 注释发布,我们直接提供 UD 词性标签、依存标签和词元供查询。所有查询都可以通过 UI 限制到从下拉列表中选择的特定关系标签(可以是通用的 DISRPT 标签,或每个数据集的原始标签,或两者兼有)、数据中可用的特定信号类型或子类型(例如显性连接词)以及关系方向。精确查询可以通过可共享链接保存和重现。

作为简单文本查询及其与论元跨度交互的示例,考虑以下查询之间的差异,所有这些查询都关闭了“精确序列”匹配并选择了 condition 标签: [1] UI 过滤器以红色表示,不是查询字符串的一部分,但存储在可重现的共享查询链接中。

\ex

.condition if then(查找包含 'if' 和 'then' 任意位置的 condition 关系)

\ex

.condition if \|\| then(相同,但确保 'if' 和 'then' 分别位于 arg1 和 arg2 中)

\ex

.condition if \-\|\|\> then(相同,但 'if' 必须在关系源中,'then' 必须在目标中,忽略文本顺序)

在第 3.3 节中,我们只保证 'if' 和 'then' 出现在某处;在第 3.3 节中,我们要求它们以该文本顺序出现,每个论元一个。相比之下,第 3.3 节要求 'if' 出现在关系的源(条件前件)中,'then' 出现在目标(条件后件)中,无论文本顺序如何。

熟悉 UD 注释的高级用户可能还想使用词元注释来限制查询。为此,我们使用格式 word|lemma|pos|deprel,其中每个元素都可能缺失。如果指定的注释少于三个,系统会根据搜索值隐式识别键,因为词性标签和依存关系具有封闭词汇。因此,以下搜索找到:

\ex

.purpose exact to|PART|VERB|advcl -\|\|\> (目的关系,带有 to-不定式)

\ex

.temporal exact when|ADJ|advcl -\|\|\> (时序关系,带有 'when' 后接简化的形容词性状语从句)

第 3.3 节中的示例将找到以 'to' 标记为 PART 的词后立即跟有引导状语从句(UD advcl)的 VERB。界面自动检测 VERB 是词性标签值,advcl 是依存关系。在第 3.3 节中,我们找到 'when possible' 类型的简化时序从句,因为 'when' 后必须紧跟一个引导状语从句的形容词。最终运算符 -\|\|\> 确保两个搜索都只考虑关系的源跨度,忽略文本顺序。

### 3.4 频率界面

频率选项卡提供用户从“分解”下拉菜单(参见图2)中选择的类别或数值变量的原始计数、百分比和图表。类别变量包括 DISRPT 标签、原始标签、关系方向、信号类型/子类型以及任何可用的元数据(例如文体,如果已知)。如果查询中为这些选择了过滤器,则还会提供所选特征的二元是/否分解。更新查询会立即更新匹配、数字和图表,原始结果也可下载为 .tsv 文件。

参照图注
图 2: DISRPT 标签的频率分解。

第二个下拉菜单叫做“交叉制表”,允许用户从相同选项中选择第二个维度并生成交叉表,结合卡方残差图,指示哪些组合出现得比预期更多或更少,并显示显著性代码。例如,图3展示了英语 PDTB 语料库中显性连接词信号与 DISRPT 标签的关联图,表明 concession、condition 和 conjunction 大部分是显性的,causal 关系更常是隐性的,而 contrast 关系则更为平衡。

参照图注
图 3: PDTB 中显性度与标签的关联。

如果选择数值变量进行分解,界面将绘制箱线图(单变量)或散点图(两个交叉制表的数值变量)或多个箱线图(数值与类别交叉制表)。当前可用的数值变量包括:论元长度(词元数)、在文档中的百分位位置(按文本顺序的论元 1 或 2)、源或目标论元的相同信息(忽略文本顺序)、论元之间的词元距离,以及该关系的信号数量(如果可用)。

### 3.5 比较界面

根据学生反馈,数据集间的比较是一个期望的功能,我们以类似于交叉制表的方式实现这一点,但使用数据集标识而不是类别变量。然而,由于每个数据集对每个变量都有自己的分布,我们并排显示每个值的结果,主要选定的数据集用蓝色,比较数据集用橙色,并带有成对图。如图4所示,对于类别变量(标签类型),使用条形图比较 eRST GUM 语料库和 eRST GENTLE 语料库(语言评估的体裁测试,Aoyama et al. 2023),后者遵循相同的标注方案但包含 8 个具有挑战性的体裁,如医学文本、诗歌甚至课程大纲。

参照图注
图 4: GUM 与 GENTLE 中的关系标签。

该图表明 conjunction 在 GENTLE 中更常见(橙色),这主要是由于包含许多列表的体裁,如医学笔记和课程大纲。相比之下,elaboration 标签的普遍性非常相似。

与频率类似,数值变量使用并排箱线图。图5显示了每个关系的信号数量,这次过滤为仅显示 mode 关系(方式和手段)。这些关系在 GENTLE 中信号明显更少,主要归因于来自诗歌和医学体裁的数据。

参照图注
图 5: 每个 mode 关系的信号比较。

## 4 评估

#### 数据

我们导入 DISRPT 2025 中包含话语关系的 38/39 个数据集(其余数据集仅包含话语单元切分信息,无标签)。这些数据集来自五个不同的框架:RST、PDTB、SDRT、eRST(Zeldes et al. 2025)和话语依存。总计,这些数据集涵盖了超过 300,000 个关系,跨越 500 万个词元,近 10,000 个文档(完整细节见附录 A 中的表2)。最大的数据集是英语 PDTB(Prasad et al. 2014)。

相似文章

Disco-RAG: 话语感知检索增强生成

arXiv cs.CL

Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。