CobSeg: 对话主题分割中的连贯边界建模

arXiv cs.CL 2026/06/01 04:00 论文

dialogue-topic-segmentation coherence-boundary topic-segmentation natural-language-processing multi-branch-architecture text-segmentation

摘要

CobSeg是一种用于对话主题分割的多分支架构，它建模连贯边界并改进词汇转换检测，在多个基准测试上优于先前的非LLM方法。

arXiv:2605.30668v1 公告类型: 新摘要: 对话主题分割在许多人类与AI协作的应用中至关重要，它需要识别异质的边界线索，包括话语边缘附近的词汇转换以及跨话语的语义不连续性。现有的话语模型常常稀释这些局部词汇信号。我们提出CobSeg，一种新颖的多分支架构，它将连贯性层面的语义连续性与词汇边界转换分离，并通过方向性边界预测恢复两者。CobSeg进一步使用边界信息量加权来强调高实用性的话语位置，并融合了从语料库中提取的主题连贯性线索与学习到的组合权重。尽管CobSeg是在监督式黄金边界训练和自动诱导边界的伪标签设置下作为紧凑的可训练分割器进行评估的，但它在推理期间无需调用LLM即可执行增强的边界预测。在五个基准测试中，当局部词汇线索突出时，它尤其改善了$P_k$和$W_d$: 在黄金监督下，它在VHF上将$P_k$降低了0.7个点，$W_d$降低了0.6个点，并在DialSeg711上达到了$P_k$为1.0; 在诱导边界下，它将VHF上的$P_k$降低了14.8个点，DialSeg711上降低了1.5个点，TIAGE上降低了1.1个点，优于先前的非LLM方法。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:27

# CobSeg: 面向对话主题分割的连贯边界建模
来源: https://arxiv.org/html/2605.30668
###### 摘要

对话主题分割在许多人类-AI协作应用中至关重要，它需要识别异质的边界线索，包括话语边缘附近的词汇转换和跨话语的语义不连续性。现有的话语模型常常稀释这些局部的词汇信号。我们提出CobSeg，一种新颖的多分支架构，它将连贯层面的语义连续性与词汇边界转换分离开，并通过方向性边界预测恢复两者。CobSeg进一步使用边界信息量加权来强调高实用性的话语位置，并融合了一个从语料库中提取的、带有学习到的组合权重的主题连贯性线索。尽管CobSeg在监督式金边界训练和带有自动诱导边界的伪标签设置中被评估为一个紧凑的可训练分割器，但它在推理过程中无需调用LLM即可实现增强的边界预测。在五个基准测试中，它在局部词汇线索突出的情况下尤其改进了Pk和Wd指标：在监督式金边界下，它在VHF上将Pk降低了0.7个点，Wd降低了0.6个点，在DialSeg711上达到了1.0的Pk；在诱导边界下，它在VHF上将Pk降低了14.8个点，在DialSeg711上降低了1.5个点，在TIAGE上降低了1.1个点，超越了先前的非LLM方法。

CobSeg: 面向对话主题分割的连贯边界建模

## 1 引言

参见图注 图1: CobSeg的整体结构。对话主题分割识别多轮对话中的主题转换，并将对话划分为连贯的主题单元，使得在客户服务分析、会议回顾、交通通信、监控与管理等实际应用中，长而杂乱无章的对话更易于组织和处理。它支持下游任务，如对话理解(Wang et al.,2020 (https://arxiv.org/html/2605.30668#bib.bib47))、检索(Xu et al.,2021a (https://arxiv.org/html/2605.30668#bib.bib53))和摘要(Qi et al.,2021 (https://arxiv.org/html/2605.30668#bib.bib36))。特别是，它有助于增强船舶交通服务(VTS)和空中交通管制(ATC)系统中的人机协作。近期工作涵盖了基于金边界训练的监督模型(Koshorek et al.,2018 (https://arxiv.org/html/2605.30668#bib.bib22); Jiang et al.,2023 (https://arxiv.org/html/2605.30668#bib.bib21))、从连贯性模式中诱导边界的无监督方法(Gao et al.,2023 (https://arxiv.org/html/2605.30668#bib.bib13); Xing and Carenini,2021 (https://arxiv.org/html/2605.30668#bib.bib51))、利用辅助信号进行伪标签训练(Artemiev et al.,2024 (https://arxiv.org/html/2605.30668#bib.bib1))，以及基于LLM的推理(Lee et al.,2025 (https://arxiv.org/html/2605.30668#bib.bib23); Das et al.,2024 (https://arxiv.org/html/2605.30668#bib.bib7))。

然而，直接使用LLM推理与可训练的分割模型代表了不同的操作模式。基于LLM的方法通常依赖于通用大型模型和测试时的基于提示的推理，而可训练的分割器旨在学习任务特定的边界预测器，训练后可独立部署。这种区别在实际环境中很重要，因为推理成本、延迟、可重复性、本地部署要求以及数据隐私使得反复调用LLM不太理想。

如图̃1 (https://arxiv.org/html/2605.30668#S1.F1)所示，核心挑战是通过整合话语级内容、切割级转换证据和序列级解码，为候选边界分配可靠的决策信号。

现有工作从话语层级建模DTS任务，这引入了局限性。(Devlin et al.,2019 (https://arxiv.org/html/2605.30668#bib.bib8); Liu et al.,2019 (https://arxiv.org/html/2605.30668#bib.bib26))将话语下的句子级编码器压缩成固定向量，对边界相邻的标记和话语中间内容进行平均，从而稀释了标记主题转换的词汇转换。近期的话语对框架(Yang et al.,2025 (https://arxiv.org/html/2605.30668#bib.bib57); Somasundaran et al.,2020 (https://arxiv.org/html/2605.30668#bib.bib41))完全在话语层级运作，无法恢复这些标记级线索。(Li et al.,2018 (https://arxiv.org/html/2605.30668#bib.bib24); Nair et al.,2023 (https://arxiv.org/html/2605.30668#bib.bib31))将容量均匀分配到所有位置，而只有一小部分话语位置承载决定性的转换信号。(Gao et al.,2023 (https://arxiv.org/html/2605.30668#bib.bib13); Park et al.,2023 (https://arxiv.org/html/2605.30668#bib.bib32); Glavaš et al.,2016 (https://arxiv.org/html/2605.30668#bib.bib15); Gong et al.,2022 (https://arxiv.org/html/2605.30668#bib.bib16))使用语料级主题连贯性作为固定的预处理启发式，而不是理解多话语配对的深层模式。

提出的CobSeg通过针对性的设计解决了每个局限性，同时遵循上述可训练分割器范式：它使用紧凑的任务特定模型进行边界预测，推理过程中不需要调用LLM。词汇边界检测器通过在池化前提高话语边缘标记的权重来保留标记级转换证据。话语边界信息量加权(UBIW)学习每个位置的信息量分数，将容量集中在高实用性的切割位置上。来自无监督关键词归纳的主题连贯性线索提供了带有学习系数的统计边界证据，在logit层面注入，使得模型可以在训练期间增强或抑制该信号。方向性边界头部分别建模主题总结和主题启动，反映了这两个信号的不对称性。

主要贡献如下：

- • 我们提出CobSeg，一个紧凑的可训练多分支框架，将词汇转换线索与语义连贯性信号分离开，用于DTS，实现了无需推理时LLM调用的高效边界预测。
- • 我们引入UBIW和方向性预测头，用于对主题转换周围稀疏、不对称的证据进行建模。
- • 我们在五个基准测试上，在监督式和伪标签设置下评估CobSeg，展示了在Pk和Wd指标上的改进，并进行了有针对性的消融实验。

## 2 方法论

### 2.1 整体结构

参见图注 图2: CobSeg的详细架构。给定一个包含T个话语的对话D={u1,...,uT}，对话主题分割预测每个相邻话语对是否构成一个主题边界。边界序列定义为y={y1,...,yT−1}，其中yt=1表示在ut和ut+1之间存在一个主题边界。因此，每个预测关联到一个切割位置t∈{1,...,T−1}，而不是单个话语。CobSeg使用线性链CRF对所有候选切割位置进行结构化边界预测：

y∗=arg⁡maxy∈{0,1}T−1⁡\[∑t=1T−1st(yt;D)+∑t=1T−2Ayt,yt+1\], (1)

其中st(yt;D)是切割位置t处的局部发射分数，A∈R2×2是学习到的转移矩阵。

图̃2 (https://arxiv.org/html/2605.30668#S2.F2)展示了CobSeg的整体架构。该模型从对话的三个互补视角计算每个切割级发射分数：一个连贯性编码器，用于建模跨话语的语义连续性；一个词汇边界检测器，用于保留话语边缘附近标记级的转换线索；以及一个主题结构提取器，用于提供基于语料库的主题连贯性证据。相同的架构用于监督式和伪标签设置；唯一的区别是边界监督的来源。训练最小化CRF在切割位置上的负对数似然，并辅以轻量级的辅助损失，鼓励稀疏的UBIW分数和边界相邻标记的基于间隔的分离(Koshorek et al.,2018 (https://arxiv.org/html/2605.30668#bib.bib22))；完整超参数列于表̃7 (https://arxiv.org/html/2605.30668#A3.T7)。

### 2.2 多视角转换表示

对于一个话语ut，令xt(s)∈Rd表示通过均值池化主编码器(Devlin et al.,2019 (https://arxiv.org/html/2605.30668#bib.bib8); Liu et al.,2019 (https://arxiv.org/html/2605.30668#bib.bib26))的隐藏状态得到的连贯性编码器表示。令vt,j∈Rd表示ut中第j个标记的上下文状态，pj其位置嵌入，mt,j∈{0,1}标记掩码，ρt,j∈[0,1]归一化标记位置。遵循TextSeg骨干(Koshorek et al.,2018 (https://arxiv.org/html/2605.30668#bib.bib22))，词汇边界检测器在话语内部应用一个时间敏感的结构进行标记序列建模。双向上下文建模允许编码器从过去和未来的标记中捕获依赖关系(Schuster and Paliwal,1997 (https://arxiv.org/html/2605.30668#bib.bib38))。令Enctok表示一个双向LSTM编码器，用于处理每个话语内的标记序列：

ht,j=Enctok(vt,j+pj), (2)

得到的标记状态使用边缘感知加权规则进行池化：

πt,j=α+(1−α)|2ρt,j−1|γ, xt(w)=Ww∑jmt,jπt,jht,j∑jmt,jπt,j, (3)

这提高了话语边界附近标记的权重。对于主题结构提取器，xt(t)∈Rd表示通过在一个面向连贯性的编码器(Gao et al.,2021 (https://arxiv.org/html/2605.30668#bib.bib14))上对ut进行均值池化得到的静态主题表示。

对于每个分支b∈{s,w,t}，CobSeg将话语表示转换为面向切割的转换特征。在切割位置t处，左右话语状态通过下式比较：

zt(b)=[xt(b);xt+1(b);|xt+1(b)−xt(b)|;xt(b)⊙xt+1(b)], (4)

这总结了持续性、变化幅度和特征交互。然后，分支状态通过两个不对称的门控残差适配器更新，它们共享相同的转换映射φb、标量门gb和转换特征zt(b)，但锚定在切割的两侧：

rt(b,end)=(1−σ(gb))xt(b)+σ(gb)φb(zt(b)), rt(b,start)=(1−σ(gb))xt+1(b)+σ(gb)φb(zt(b)), (5)

其中rt(b,end)锚定到左话语ut用于建模主题总结，rt(b,start)锚定到右话语ut+1用于建模主题启动。学习到的标量门gb控制转换校正替换每个方向上基础话语表示的程度。

相同的NSP融合和上下文化步骤应用于两个方向性适配器输出。为简洁起见，以下方程中rt(b)代表rt(b,end)或rt(b,start)。在表̃1 (https://arxiv.org/html/2605.30668#S2.T1)中报告的监督式主要结果中，NSP通道被禁用；在这些实验中，rt(b,nsp)=rt(b)且βnsp=0。NSP通道仅在伪标签设置中启用，其中交叉编码器边界概率qt提供额外的连贯性信号，以补偿较嘈杂的训练目标。当可选的NSP通道启用时，相邻话语对由交叉编码器编码，产生一个辅助对表示nt和一个成对边界概率qt(Devlin et al.,2019 (https://arxiv.org/html/2605.30668#bib.bib8))。辅助表示通过下式注入到每个分支：

rt(b,nsp)=rt(b)+σ(λb)nt, (6)

其中λb是每个分支特定的融合门。当NSP通道不存在时，rt(b,nsp)=rt(b)。然后，每个分支通过一个时间敏感的结构在对话级别进行序列建模上下文化，遵循TextSeg架构(Koshorek et al.,2018 (https://arxiv.org/html/2605.30668#bib.bib22))。上下文化器聚合对话序列中的信息，允许每个切割位置访问前后上下文(Schuster and Paliwal,1997 (https://arxiv.org/html/2605.30668#bib.bib38); Vaswani et al.,2017 (https://arxiv.org/html/2605.30668#bib.bib45))：

ft(b)=Cb(r1:T−1(b,nsp),t)+Wbrt(b,nsp), (7)

其中Cb是一个堆叠在转换特征之上的时间敏感序列编码器，残差投影Wb保留了对话级编码后的局部切割位置信号。

### 2.3 话语边界信息量加权

在典型的多轮对话中，只有一小部分话语承载关于主题转换的决定性证据。大多数轮次继续正在进行的主题，不引入词汇转换。将每个话语位置视为同等信息量会稀释模型的表示预算。

CobSeg通过话语边界信息量加权来解决这个问题，它学习为每个切割位置根据其预测的边界预测效用打分，并相应地对分支状态进行重新加权。该模块在每个分支的结束视图和开始视图上独立运作。这允许模型学习不同的话语对于识别主题总结与主题启动可能具有不同的信息量。例如，总结前一个主题的话语对于左向（结束）信号信息量丰富，而开始一个新主题的话语对于右向（开始）信号信息量丰富。

相似文章

# 语音LLM推理中的实体绑定失败：诊断与思维链干预 ## 摘要大型语言模型（LLM）在多模态推理任务中表现出色，但当输入来自语音识别系统时，往往会出现一类特定的错误：实体绑定失败（Entity Binding Failure）。本文系统诊断了这一问题的成因，并提出了基于思维链（Chain-of-Thought, CoT）提示的干预策略。 --- ## 1. 引言语音转文本（ASR）系统与LLM的结合已成为对话式AI的核心架构。然而，ASR输出往往包含歧义性转录、同音词混淆以及命名实体识别错误，这些问题会在LLM推理阶段引发所谓的"实体绑定失败"——即模型无法正确地将语义角色与对话中的具体实体关联起来。典型场景包括： - 多说话人对话中的指代消解错误 - 数字、日期、人名的歧义转录 - 专有名词（产品名、地名）的同音替换 --- ## 2. 实体绑定失败的定义与分类 ### 2.1 定义实体绑定失败是指在推理过程中，模型将某一语义属性（如动作、状态、关系）错误地归属于上下文中的某个实体，而非其正确的指称对象。 ### 2.2 失败类型分类 | 类型 | 描述 | 示例 | |------|------|------| | 同音替换错误 | ASR将实体名替换为发音相似的词 | "苹果" → "平果" | | 指代歧义 | 代词无法确定性地解析到某一实体 | "他说他打了他" | | 跨句实体漂移 | 实体在多轮对话中被错误追踪 | 主语在换话轮后发生偏移 | | 数值实体混淆 | 数字、单位、日期被错误绑定 | "三点" = 时间 vs. 分数 | | 嵌套实体错误 | 复合实体中的成分被错误拆解或合并 | "北京大学医院" 的边界划定 | --- ## 3. 失败诊断方法 ### 3.1 对比探针测试（Contrastive Probing）通过构造最小对比对（minimal pairs）来定位绑定失败： ``` 输入A（正确转录）：张伟批评了李明，因为他迟到了。输入B（ASR转录）：张伟批评了黎明，因为他迟到了。 ``` 观察模型在两种输入下的实体归属判断是否一致，从而识别同音替换导致的绑定错误。 ### 3.2 注意力权重分析对Transformer架构中的交叉注意力权重进行可视化分析，检测模型在生成实体相关token时的注意力分布是否聚焦于正确的上下文位置。 ### 3.3 自动评估指标定义实体绑定准确率（Entity Binding Accuracy, EBA）： $$\text{EBA} = \frac{\text{正确绑定的实体-属性对数量}}{\text{总实体-属性对数量}}$$ --- ## 4. 思维链干预策略 ### 4.1 显式实体抽取CoT 在推理前，通过CoT提示引导模型首先显式列举并确认所有实体： ``` 提示模板： "在回答问题之前，请先： 1. 列出文本中出现的所有人名/地名/机构名 2. 标注每个实体的首次出现位置 3. 确认是否存在同音或相似的实体名 4. 在此基础上进行推理" ``` ### 4.2 渐进式消歧CoT 针对代词指代歧义，采用逐步消歧的思维链： ``` 步骤1：识别所有代词及其候选先行词步骤2：利用语境约束（性别、数量、语义角色）逐步排除候选步骤3：确定最终绑定关系步骤4：基于确定的绑定关系执行推理 ``` ### 4.3 不确定性感知CoT 当ASR置信度较低时，引导模型进行多假设推理： ``` "ASR转录中存在低置信度片段：[黎明/李明]。假设A：若实体为'李明'，则... 假设B：若实体为'黎明'，则... 综合上下文，最可能的解释是..." ``` ### 4.4 自我验证CoT 推理完成后，引导模型对实体绑定结果进行回溯验证： ``` "在给出最终答案前，请检查： - 每个实体的角色归属是否与原文一致？ - 是否存在被遗漏或错误替换的实体？ - 结论中的每一个断言是否都能追溯到具体的原文实体？" ``` --- ## 5. 实验设置 ### 5.1 数据集 - AISHELL-NER：中文语音命名实体识别基准 - MagicData-RAMC：多人对话语音数据集 - 自建评估集：包含500条人工标注的实体绑定失败案例 ### 5.2 模型 | 模型 | 版本 | |------|------| | GPT-4o | 2024-05 | | Claude 3.5 Sonnet | 2024-10 | | Qwen-Audio | Turbo | | Gemini 1.5 Pro | 最新版 | ### 5.3 基线与对比条件 - Baseline：直接将ASR输出送入LLM - CoT-Generic：通用思维链提示 - CoT-EBF：本文提出的实体绑定专用CoT - Oracle：使用人工校正的转录文本 --- ## 6. 实验结果 ### 6.1 整体EBA比较 | 方法 | GPT-4o | Claude 3.5 | Qwen-Audio | 平均 | |------|--------|------------|------------|------| | Baseline | 71.3% | 68.9% | 64.2% | 68.1% | | CoT-Generic | 74.8% | 72.1% | 67.5% | 71.5% | | CoT-EBF（本文） | 83.6% | 81.2% | 76.4% | 80.4% | | Oracle | 91.2% | 89.7% | 85.3% | 88.7% | ### 6.2 按失败类型的改进分析 CoT-EBF在不同失败类型上的EBA提升幅度（相对于Baseline）： ``` 同音替换错误： +14.2% ████████████████ 指代歧义： +11.8% █████████████ 跨句实体漂移： +9.3% ██████████ 数值实体混淆： +7.6% ████████ 嵌套实体错误： +12.1% █████████████ ``` ### 6.3 CoT组件消融实验 | CoT组件 | EBA | |---------|-----| | 无（Baseline） | 68.1% | | + 显式实体抽取 | 73.4% | | + 渐进式消歧 | 76.9% | | + 不确定性感知 | 79.1% | | + 自我验证 | 80.4% | --- ## 7. 案例分析 ### 案例1：同音替换导致的绑定失败 ASR转录： > "董事会决定让王总接替李总的职务，他将在下月正式就任。" ASR错误版本： > "懂事会决定让王总接替李总的职务，他将在下月正式就任。" Baseline模型输出（失败）： > 模型将"懂事会"解析为某个人名，导致后续代词"他"的绑定对象产生歧义。 CoT-EBF干预后： > 模型在推理第一步识别到"懂事会"可能是"董事会"的转录错误，基于语境将其修正为机构实体，并正确将"他"绑定至"王总"。 --- ### 案例2：多轮对话中的实体漂移对话记录： ``` 轮次1 - 用户A："张三昨天提交了报告。" 轮次2 - 用户B："他说内容有问题。" 轮次3 - 用户A："那是谁的责任？" ``` Baseline失败原因：在轮次2中，"他"可能指张三或用户B，模型未能利用说话人身份信息进行消歧，导致责任归属错误。 CoT-EBF处理：渐进式消歧步骤引导模型考虑说话人轮次信息，识别出轮次2中的"他"在语用层面更可能指代不在场的第三方（张三），从而正确锁定责任归属。 --- ## 8. 讨论 ### 8.1 CoT干预的局限性 1. 计算开销：显式实体抽取和多步推理增加了token消耗，平均增幅约为40-60%。 2. 级联错误风险：若CoT第一步的实体抽取本身出错，后续步骤可能放大错误。 3. 跨语言迁移：本文实验主要基于中文语料，CoT模板的跨语言效果有待验证。 ### 8.2 与RAG的结合潜力将实体绑定CoT与检索增强生成（RAG）相结合，利用知识库对候选实体进行验证，有望进一步提升同音替换场景下的绑定准确率。 ### 8.3 端到端语音LLM的影响随着端到端语音LLM（如 Qwen-Audio、Gemini 1.5 Pro）的普及，ASR与LLM的分离架构将逐渐减少，但实体绑定问题在端到端模型中仍以隐式形式存在，CoT干预策略同样适用。 --- ## 9. 相关工作 - 实体链接与消歧：[Sevgili et al., 2022] 对神经实体链接方法的综述。 - 语音识别错误鲁棒性：[Belinkov & Glass, 2018] 关于NLP模型对输入噪声的脆弱性分析。 - 思维链推理：[Wei et al., 2022] CoT提示的奠基性工作；[Wang et al., 2023] 自一致性CoT。 - 多模态LLM推理：[Driess et al., 2023] PaLM-E 中的跨模态实体推理。 - 指代消解：[Stoyanov et al., 2010] 基于机器学习的共指消解研究。 --- ## 10. 结论本文系统诊断了语音LLM推理中的实体绑定失败问题，提出了涵盖五种失败类型的分类体系，并设计了由四个模块组成的CoT干预框架（显式实体抽取、渐进式消歧、不确定性感知推理、自我验证）。实验结果表明，CoT-EBF相比Baseline在实体绑定准确率上平均提升 12.3个百分点，在同音替换错误和嵌套实体错误类型上尤为显著。未来工作将聚焦于： - 自动CoT模板生成（减少人工设计成本） - 与端到端语音LLM的深度集成 - 低资源语言场景下的泛化性验证 --- ## 参考文献 1. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022. 2. Wang, X., et al. (2023). Self-consistency improves chain of thought reasoning in language models. ICLR 2023. 3. Belinkov, Y., & Glass, J. (2018). Analysis methods in neural language processing. TACL. 4. Sevgili, Ö., et al. (2022). Neural entity linking: A survey of models based on deep learning. Semantic Web Journal. 5. Driess, D., et al. (2023). PaLM-E: An embodied multimodal language model. ICML 2023. 6. Stoyanov, V., et al. (2010). Coreference resolution with reconcile. ACL 2010. --- 本文为技术分析性文章，实验数据为示意性结果，旨在说明方法论框架。

arXiv cs.CL

本文识别了语音大语言模型（SLLMs）中一种局部化的"实体绑定失败"现象——即涉及实体追踪的逻辑推理准确率骤降至随机水平，并提出了实体感知思维链（EA-CoT）提示方法来解决这一问题，最终实现了高达 24.4% 的绝对准确率提升。

CobSeg: 对话主题分割中的连贯边界建模

相似文章

基于对比 LLM 微调对齐对话附和信号与语境表征

CobwebTM：用于终身学习和分层主题建模的概率概念形成

SFL-MTSC：利用语义框架级多任务自一致性实现鲁棒的多意图口语理解

面向低资源口语方言的线性语义分割

提交意见反馈