等等！还有出路：一种预测对话脱轨的决策机制

arXiv cs.CL 2026/05/29 04:00 论文

摘要

提出了一种用于预测对话脱轨的决策机制，该机制将触发决策与脱轨可能性估计分离，通过前瞻性模拟，在可能恢复时延迟警报，从而减少误报。

arXiv:2605.29243v1 公告类型：新摘要：预测对话脱轨的任务是在对话进行过程中，预测其是否会最终演变为人身攻击。由于预测模型在线运行，它们必须在每次发言后决定是否“触发”警报——例如，通知参与者或版主对话有脱轨风险。现有方法仅根据先前发言估计的脱轨可能性来做出这一决定，隐含地假设对话的未来轨迹是固定的。因此，它们忽视了未来恢复的可能性，导致了不必要的高误报率。在这项工作中，我们提出了一种将触发决策与脱轨可能性估计分离的方法。我们的方法受该任务首个人类基线的启发，该基线表明，人类通过选择性地推迟触发决策（当他们预期紧张局势可能缓解时），实现了显著更低的误报率。我们利用一个延迟机制将这一洞察付诸实践，该机制使用前瞻性模拟来评估紧张时刻是否存在合理的恢复路径。将该机制融入最先进的预测模型中，大幅减少了误报，同时未牺牲预测准确性。更广泛地说，这项工作凸显了将决策制定作为预测系统一等公民组件的价值。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:17

# 对话脱轨预测的决策机制  
来源：https://arxiv.org/html/2605.29243  
Laerdon Kim, Vivian Nguyen, Cristian Danescu-Niculescu-Mizil  
康奈尔大学  
{lyk25, vn72}@cornell.edu  
[email protected]  

###### 摘要  

预测对话脱轨，是指在对话过程中预测其最终是否会演变为人身攻击。由于预测模型以在线方式运行，它们必须在每句话之后决定是否“触发”警报——例如，通知参与者或管理员对话有脱轨风险。现有方法仅根据当前上下文估计的脱轨概率来做出这一决策，隐含地假设对话的未来轨迹是固定的。因此，它们忽略了未来可能恢复的可能性，并导致不必要的虚警率。在这项工作中，我们提出了一种方法，将触发决策与脱轨概率估计解耦。我们的方法受该任务第一个人工基线的启发，该基线表明，通过有选择地推迟触发决策（当他们预见到紧张情绪可能消退时），人类能够实现显著更低的虚警率。我们通过一个延迟机制来操作这一见解，该机制使用前瞻性模拟来评估紧张时刻是否存在合理的恢复路径。将该机制整合到当前最先进的预测模型中，可以在不牺牲预测准确性的情况下大幅减少虚警率。更广泛地说，这项工作强调了将决策制定作为预测系统第一类组件的价值。

等等！有出路：一种对话脱轨预测的决策机制  
Laerdon Kim, Vivian Nguyen, Cristian Danescu-Niculescu-Mizil  
康奈尔大学  
{lyk25, vn72}@cornell.edu  
[email protected]  

## 1. 引言  

> “预测未来的最好方法就是创造未来。” – 艾伦·凯  

见图1所示：当前的对话脱轨预测系统将紧张程度估计与触发警报的决策混为一谈。如该示例所示，这可能导致虚警。我们设计了一种机制，当预见到可能缓和时（通过前瞻性模拟），会推迟触发决策。背景颜色表示根据到该语句为止的上下文计算出的脱轨概率（从低到高）。  

对话预测是指预测对话中最终是否会发生的某种事件——例如人身攻击（Chang和Danescu-Niculescu-Mizil, 2019 (https://arxiv.org/html/2605.29243#bib.bib3)）、参与度下降（Nguyen等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib1)）或亲社会行为（Bao等人, 2021 (https://arxiv.org/html/2605.29243#bib.bib16)）——的能力。这种预测能力被认为是主动对话支持系统的关键组成部分（Jurgens等人, 2019 (https://arxiv.org/html/2605.29243#bib.bib11)；Korre等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib22)），其潜力已通过学术用户研究（Chang等人, 2022 (https://arxiv.org/html/2605.29243#bib.bib13)；Schluger等人, 2022 (https://arxiv.org/html/2605.29243#bib.bib25)）和实际产品部署（Li, 2022 (https://arxiv.org/html/2605.29243#bib.bib23)）得以展示。预测的核心挑战之一——使其区别于传统的静态分类任务——是目标事件的“未知时间窗”（Chang等人, 2022 (https://arxiv.org/html/2605.29243#bib.bib13)）。以本文重点关注的对话脱轨预测为例：人身攻击可能在任何时刻发生，这就要求预测系统在每次评论后决定是触发警报还是等待对话进一步发展。过早触发可能导致基于有限信息的虚假警报，而延迟触发则可能错失及时干预的机会。因此，有效的预测模型必须将信念估计与决策制定分开：除了估计当前的脱轨风险（图1左）外，还必须决定到目前为止观察到的证据是否足以触发警报，或者是否更倾向于等待更多信息（图1右）。

然而，所有现有模型都将信念估计与决策制定混为一谈，通过一个固定的脱轨概率阈值来触发警报，无论这个概率是通过层次递归神经网络（Chang和Danescu-Niculescu-Mizil, 2019 (https://arxiv.org/html/2605.29243#bib.bib3)）、图卷积网络（Altarawneh等人, 2023 (https://arxiv.org/html/2605.29243#bib.bib17)）、Transformer架构（Kementchedjhieva和Søgaard, 2021 (https://arxiv.org/html/2605.29243#bib.bib24)）、层次Transformer架构（Yuan和Singh, 2023 (https://arxiv.org/html/2605.29243#bib.bib19)）还是LLM提示（Olpadkar等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib5)）计算得出的。实际上，这些模型的功能类似于分类器，它们估计截止到当前时刻的对话紧张程度，一旦超过预定阈值就会触发警报（在图1中，现有模型会在`u_k`之后立即触发）。因此，这类模型无法感知对话紧张情绪随后可能消退的可能性（图1中从`u_{k+1}`开始就展示了这种可能性）。因此，当前的预测系统无法在触发之前推理等待更多证据的价值。

除了理论上的局限性，缺乏独立的决策组件对预测系统及其实际部署也具有重要的实际后果。特别是，无法考虑对话紧张情绪日后可能缓解的可能性，直接导致虚假警报（即虚警），而最终用户认为这是此类系统最显著的缺陷，其中62%的用户报告虚警是一个常见问题（Chang等人, 2022 (https://arxiv.org/html/2605.29243#bib.bib13)）。

在这项工作中，我们提出了第一种将触发决策与脱轨可能性估计解耦的方法。我们首先研究人类如何解决预测任务，并在此过程中建立了第一个人工基线。我们发现，人类通过等待更长时间才触发警报，实现了比最先进预测模型低一半以上的虚警率。至关重要的是，这种推迟决策是有选择性的：人类似乎能够预见到对话紧张情绪何时可能消退。为了操作这一见解，我们设计了一种基于模拟的方法，用于区分哪些紧张时刻之后有可能恢复——也就是说，存在“一条出路”（图1，“我们的系统”）。我们实现了一种延迟机制，它（仅在这些紧张时刻）谨慎行事，等待下一条语句，而不是立即触发警报。将该机制集成到最先进的预测模型之上，在不牺牲整体准确性的情况下，显著减少了虚警。总之，在这项工作中，我们：

- •概念化并解开了对话预测中先前被混为一谈的两个组成部分：信念估计和决策制定；
- •引入了预测对话脱轨的首个人工基线，表明人类做出更有效的触发决策，从而实现远低于最先进模型的虚警率；
- •提出了一种受此见解启发的决策机制，在不牺牲整体准确性的情况下缩小了虚警差距。

更广泛地说，这项工作说明了在预测系统中将触发决策与信念估计解耦的价值，为更复杂和更有效的触发策略打开了大门。为了鼓励在这一方向的进一步进展，我们以模块化的形式公开发布了我们的代码，明确分离了两个组件，使其向前兼容其他紧张估计模型和决策机制。¹¹代码和数据作为ConvoKit（https://convokit.cornell.edu/）的一部分发布。

## 2. 背景与相关工作  

**对话失控。** 对话预测模型的发展得益于“对话失控”（CGA）任务的提出（Zhang等人, 2018 (https://arxiv.org/html/2605.29243#bib.bib2)；Chang等人, 2022 (https://arxiv.org/html/2605.29243#bib.bib13)；Tran等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib15)）。在此任务中，待预测的事件是人身攻击的发生。相应地，模型一次处理一条语句，目标仅当确定对话很可能以人身攻击告终时**触发**警报。对于模型而言，成功意味着要么在人身攻击发生**之前**触发警报（如果存在攻击），要么在没有人身攻击时正确避免触发并让对话自然结束。该任务包含两个数据集。CGA-CMV由Chang和Danescu-Niculescu-Mizil（2019 (https://arxiv.org/html/2605.29243#bib.bib3)）引入，后由Tran等人（2025 (https://arxiv.org/html/2605.29243#bib.bib15)）扩展到20,576条从Change My View子论坛收集的对话。标签源于版主标记的违反Change My View规则2的行为：“不要对其他用户粗鲁或敌对。”CGA-WIKI（Zhang等人, 2018 (https://arxiv.org/html/2605.29243#bib.bib2)）是一个更小的数据集，包含4,188条维基百科编辑者之间的对话，由众包人员人工标记是否以人身攻击结束，并过滤掉最终轮次之前的任何“粗鲁、侮辱或不尊重”的评论。由于这种额外的过滤，CGA-WIKI不太自然：不太可能包含展示缓和或恢复轨迹的对话。因此，在这项工作中我们聚焦于CGA-CMV，但为了完整性，在附录C（https://arxiv.org/html/2605.29243#A3）中报告了CGA-WIKI的结果。

**未知时间窗。** 任务的在线形式导致了前述对话预测中固有的“未知时间窗”挑战（Chang和Danescu-Niculescu-Mizil, 2019 (https://arxiv.org/html/2605.29243#bib.bib3)）。因为人身攻击——如果发生——可能出现在交互的任何时刻，模型无法提前知道何时必须行动。相反，它必须在每条语句后反复决定是行动还是等待，而不知道额外的证据是否会到来，或者对话是否即将结束。因此，模型必须平衡过早行动（基于不充分信息）的风险与过晚行动（干预可能不再有效）的风险。尽管这一挑战和固有的探索-利用权衡在任务首次提出时就被认识到，并反映在评估协议中——即未能在对话脱轨前干预的预测器会受到惩罚——但当前的预测系统缺乏决定何时行动的明确机制。相反，它们实际上作为传统的基于阈值的分类器运作，只要估计的脱轨概率超过固定的临界值就触发警报。

**预测形式化：信念估计。** 形式上，预测器的信念估计部分持续评估第`k`条语句`u_k`之后，给定先前上下文的情况下的未来脱轨概率：`P(derailment | u_1, u_2, ..., u_k)`。已经提出了多种模型来估计这个概率，采用了层次递归神经网络（Chang和Danescu-Niculescu-Mizil, 2019 (https://arxiv.org/html/2605.29243#bib.bib3)）、图卷积网络（Altarawneh等人, 2023 (https://arxiv.org/html/2605.29243#bib.bib17)）、Transformer（Kementchedjhieva和Søgaard, 2021 (https://arxiv.org/html/2605.29243#bib.bib24)）、层次Transformer（Yuan和Singh, 2023 (https://arxiv.org/html/2605.29243#bib.bib19)）以及基于解码器的生成式大语言模型（Olpadkar等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib5)；Tran等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib15)）等架构。这些架构最近使用CGA任务的官方公开基准进行了比较（Tran等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib15)）。在基准测试的CGA-CMV和CGA-WIKI两部分中，表现最好的模型是Gemma2 9B（Team, 2024 (https://arxiv.org/html/2605.29243#bib.bib27)），因此我们将其视为该任务的当前最先进（SOTA）模型。这类仅解码器模型会在训练数据上进行微调；脱轨概率`P(derailment | u_1, u_2, ..., u_k)`通过提示模型回答在`u_k`之后对话是否会脱轨、采样“是”和“否”的logits、并对“是”的概率进行softmax操作来获取（Tran等人, 2025 (https://arxiv.org/html/2605.29243#bib.bib15)）。训练预测器模型的一个关键挑战是监督信号仅在对话层面可用：每条对话仅通过其最终是否以人身攻击结束来标记，没有语句级别的监督（Chang, 2024 (https://arxiv.org/html/2605.29243#bib.bib4)）。因此，先前的工作训练模型使用先前上下文`u_1, ..., u_{n-1}`来预测最后一条语句`u_n`的标签——尽管在测试时，模型必须在每条语句后产生脱轨概率，而不仅仅是最后一条。虽然这种策略在部分对话上的表现优于训练（Altarawneh等人, 2023 (https://arxiv.org/html/2605.29243#bib.bib17)），但它结构性地偏向于检测即时紧张，而不是学习更长期的对话动态。因此，这些模型无法解释更复杂的对话轨迹，例如那些（或看起来）紧张但随后感知紧张度下降的时刻。这种恢复可以通过缓和自然产生（如图1所示），也可以通过误解或误判的修复（例如，一条最初看似讽刺但后来被澄清为真诚的评论；Tsai等人, 2024 (https://arxiv.org/html/2605.29243#bib.bib30)；Drew, 1997 (https://arxiv.org/html/2605.29243#bib.bib32)）。

**预测形式化：决策制定。** 在每条语句`u_k`之后，预测系统的决策组件必须选择是触发警报（`g_k = 1`）还是等待下一条语句（`g_k = 0`）。该组件的责任在触发警报时结束——此时对话被认为“正在失控”——或者在对话无警报地到达终点时结束，此时认为对话“保持平静”。当前系统，包括SOTA，使用基于简单阈值的决策，当估计的紧张度超过在验证集上固定的阈值`T`时触发：`g_k := I{ P(derai`

等等！还有出路：一种预测对话脱轨的决策机制

相似文章

从预测排行榜到部署决策：一种失效关闭认证协议

当证据稀疏时：对话与LLM-Agent轨迹中的弱监督早期故障预警

智胜变色龙：直播风险评估中战术性分布外偏移的反事实解耦

将预测未来行为作为一项学习任务

SeDT: Sentence-Transformer Decision-Transformer条件化用于多轮对话可靠性

提交意见反馈