SeDT: Sentence-Transformer Decision-Transformer条件化用于多轮对话可靠性
摘要
本文介绍了SeDT,一种无需训练、推理时的方法,通过用来自三种信号的累积相关性分数标注对话历史,提高多轮对话中LLM的可靠性,在Lost-in-Conversation基准测试上实现了高达+37.7%的性能提升。
arXiv:2605.26788v1 公告类型:新
摘要:大语言模型(LLMs)在单轮中完整指定任务时表现出色,但相同任务在多个轮次中逐步揭示时,同一模型性能损失高达39%,该现象被大规模记录为“Lost in Conversation”。关键在于,这种性能崩溃几乎完全是可靠性失败;在最佳情况下,能力仅下降16%,而不可靠性却增加了一倍以上(+112%)。我们认为根本原因在于结构性的:扁平的对话历史对每个先前轮次赋予相同的隐含权重,使模型无法区分关键约束和偶然对话。我们提出SeDT(Sentence-transformer Decision-Transformer),一种无需训练、推理时的方法,通过引入离线强化学习中的return-to-go条件化来解决此问题。SeDT用来自三种互补信号(语义、词汇和位置)的累积相关性分数标注每个对话片段,并在最后一轮向模型呈现完整的标注历史,无需改变权重、无需训练数据、无需丢弃上下文。在Lost-in-Conversation基准测试上,使用三种LLM和三种生成任务进行评估,SeDT在所有九种模型-任务组合中均优于分片基线,平均性能P提升高达+37.7%,同时在九种组合中有七种的不可靠性降低。简而言之,告诉模型哪些过去的轮次重要,就足以显著恢复对话中丢失的性能。
查看缓存全文
缓存时间: 2026/05/27 09:10
# Sentence-Transformer Decision-Transformer 调节用于多轮对话可靠性 来源:https://arxiv.org/html/2605.26788 Ramakrishna Vamsi Setti¹, Jagadeesh Rachapudi², Sachin Chaudhary³, Praful Hambarde², Amit Shukla² ¹独立研究员 ²IIT Mandi 无人机实验室 ³UPES, 德拉敦 [email protected], [email protected], [email protected], {praful, amitshukla}@iitmandi.ac.in ###### 摘要 大型语言模型(LLMs)在单轮中完全指定任务时表现令人印象深刻,但当同一任务通过多轮逐步揭示时,这些模型的性能会下降高达 39%,这种现象被大规模记录为 *Lost in Conversation*。关键在于,这种崩溃几乎完全是 *可靠性* 失败;最佳情况下,能力仅下降 16%,而不可靠性却增加了一倍以上(+112%)。我们认为根本原因是结构性的:扁平化的对话历史对每一轮先前的对话赋予相同的隐式权重,使得模型无法区分关键的约束条件和随意的对话。我们提出了 SeDT(Sentence-transformer Decision-Transformer conditioning),一种无需训练、仅在推理阶段运行的方法,通过引入离线强化学习中的 return-to-go 调节来解决这一问题。SeDT 对每个对话片段标注一个由三种互补信号(语义、词汇和位置)导出的累积相关性分数,并在最后一轮向模型呈现完整的标注历史,无需修改权重、无需训练数据、也无需丢弃上下文。在 Lost-in-Conversation 基准测试中,在三个 LLM 和三个生成任务上,SeDT 在所有九个模型-任务组合中均优于分片基线,平均性能 P̄ 提升高达 +37.7%,同时在九个组合中的七个中同时降低了不可靠性。简而言之,告诉模型哪些过去的轮次重要,就足以在很大程度上恢复在对话中丢失的性能。 SeDT: Sentence-Transformer Decision-Transformer Conditioning 用于多轮对话可靠性 ## 1 引言 让语言模型编写一个函数,它能成功(Rachapudi 等,2026c,b,a)。但若将同一个问题逐个约束条件给出(先给函数名,再给输入格式,最后给边界情况),它就会悄然崩溃。Laban 等人(2025)大规模记录了这一失败:15 个最先进的 LLM 在六项任务上、超过 200,000 次模拟对话中,当同一指令通过多轮而非一次性给出时,平均性能下降 39%。这并非人为设定的场景。对大规模真实世界 LLM 对话的分析证实,多轮、欠指定的交互是常态而非例外(Zheng 等,2023a),并且用户,尤其是新手用户,很少提前指定所有需求(Herlihy 等,2024)。 原因是结构性的。多轮对话被拼接成一个扁平化的上下文窗口,其中每一轮先前的对话都具有相同的隐式权重。模型没有信号来区分哪些轮次指定了关键约束,哪些是对话的铺垫。Transformer 注意力机制加剧了这一点:即使在单轮设置中,模型也会系统地忽略中间上下文信息(Liu 等,2024),而多轮对话则将这种偏差叠加到模型无法从噪声中区分的各个轮次上。由此直接导致四种具体的失败模式:在所有约束揭示之前过早做出回答、过度依赖错误的中间响应、中间轮次的约束被首尾轮次的信息淹没、以及引入错误假设的冗长漂移(Laban 等,2025)。 离线强化学习社区曾面临一个结构相同的问题。从扁平化回放缓冲区学习的智能体没有信号来告知哪些转换是有价值的。Decision Transformer(Chen 等,2021a)通过标注每个轨迹步骤的 return-to-go (RTG) 解决了这一问题,它告诉智能体什么重要,而不是让智能体从扁平缓冲区中推断重要性。同样的见解也适用于多轮 LLM 推理,然而现有的解决方案均存在不足:微调需要精心策划的多轮训练数据和权重修改,在推理时不可行;用户揭示约束是出于必要而非选择(Herlihy 等,2024)。我们直接将这一并行引入推理时的提示构造:多轮对话是一个轨迹;每个 *分片*(即在单个轮次中揭示的原子信息)是一个步骤,该分片与最终输出目标的语义相关性就是奖励。正如 Decision Transformer 告诉智能体哪些步骤重要一样,SeDT 告诉模型哪些轮次重要。 据我们所知,之前没有任何工作将扁平对话上下文中的相等隐式轮次权重识别为多轮可靠性崩溃的结构性驱动因素;先前的工作将失败归因于意图错位(Liu 等,2026)或模型不可靠性(Laban 等,2025),而非上下文表示本身。 我们提出 SeDT(Sentence-transformer Decision-Transformer conditioning),一种无需训练、仅在推理阶段运行的方法,通过为每个先前的分片标注一个累积相关性分数,并在最后一轮向模型呈现完整的 RTG 标注历史,从而解决扁平上下文权重问题。该方法无需修改权重、无需训练数据、也无需丢弃上下文。在 Lost-in-Conversation 基准测试中(Laban 等,2025),SeDT 在所有三个评估的 LLM 和任务上持续优于分片基线,平均性能 P̄ 提升高达 +37.7%,同时降低了不可靠性,这证实了 lost-in-conversation 问题至少部分地是上下文权重问题,可以在推理时无需训练即可解决。SeDT 不需要特定于任务的数据、不需要修改模型,最多只需一次额外的 LLM 调用。 #### 贡献。 我们的主要贡献如下: - **问题识别**:将扁平上下文轮次权重确定为多轮可靠性崩溃的结构性根本原因,并与 Decision Transformer 的 RTG 调节建立了形式上的并行。 - **SeDT**:一种无需训练、仅在推理阶段运行的方法,需要零模型修改和零训练数据。 - **三信号相关性**:一种语义、词汇和位置相关性公式,直接对抗已记录的多轮 LLM 的四种失败模式。 - **基于 RTG 的自校正**:一种双重防护校正机制,在提供保守验证路径的同时引入零伤害情况。 ## 2 背景 ### 2.1 Lost in Conversation Laban 等人(2025)大规模记录了单轮、完全指定的交互与多轮、欠指定的交互之间的系统性性能差距。他们的分片框架将完全指定的指令分解为原子信息分片,每轮揭示一个,从而在保持任务内容不变的情况下实现受控比较。在每个示例上以温度 T=1.0 运行 n 次独立模拟,得到三个指标:平均性能 P̄(平均分)、能力 A₉₀(第 90 百分位,捕捉最佳情况能力)和不可靠性 U(第 90 减去第 10 百分位的差距,越低越好)。核心发现是,lost-in-conversation 问题主要表现为不可靠性爆炸(+112%)而非能力崩溃(-16%)。因此,一个可靠的解决方案必须在改进 P̄ 的同时减少 U。 ### 2.2 相关工作 #### 多轮评估 越来越多的研究通过 *情节性* 基准设置评估 LLM 在多轮场景中的表现,其中每个对话轮次引入一个可独立评估的自包含子任务,无需模型融合跨轮次积累的信息(Zheng 等,2023b;Bai 等,2024;Kwan 等,2024;Wang 等,2023)。尽管这些基准捕捉了重要能力,如改进(基于用户反馈迭代改进响应)和工具使用(跨轮次调用外部 API 或执行代码),但它们不要求模型融合跨轮次积累的欠指定信息,因此系统性高估了多轮性能(Laban 等,2025)。 #### 注意力偏差与长上下文失败 Transformer 模型表现出著名的 U 形注意力偏差,即不成比例地关注长上下文开头和结尾的标记,而忽略中间内容(Liu 等,2024)。这种现象自然延伸到多轮对话中,携带关键约束的中间轮次会收到不足的注意力(Laban 等,2025)。静态自注意力已被确定为长上下文场景中分数稀释的根本原因,从而激发了在查询级别解决这一问题的测试时方法(Bansal 等,2025)。 #### 上下文管理与重述 除了评估之外,另一条工作线通过修改对话历史呈现给模型的方式来解决多轮问题。一种方法使用重述策略,即当前上下文中逐字重述先前用户的轮次,以确保模型能访问所有先前的约束。标准重述将所有先前的分片作为重述附加到最后一轮,而雪球重述则在每一轮累积地增长这个重述(Laban 等,2025)。一种更微妙的替代方案是为每个子任务开始一个新对话,这通过重置扁平上下文在实证上改善了性能(Laban 等,2025),但它完全丢弃了对话历史,并且在约束来自真实用户且逐步到达时不可用。微调通过更新精心策划的多轮数据上的模型权重来解决扁平权重问题,但需要特定于任务的语料库、为每个新模型或领域重新训练,并且在推理时不可用。 #### 意图对齐与指令遵循 当面对不完整或模糊的问题时,LLM 表现出系统性的响应模式。一些模型会含糊其辞,产生模糊或不置可否的答案,避免对不完整规格做出承诺。其他模型会发出澄清请求,要求用户在继续之前提供缺失信息。第三种模式是过早的直接响应,即模型假定最可能的解释并立即响应,而这通常是错误的(Herlihy 等,2024)。所有这三种模式都反映了同一个根本问题:模型无法从不完整的上下文中确定用户意图。改进多轮指令遵循的研究通过演示引导训练(Sun 等,2024)以及通过从对话历史中重构单轮指令以将意图推断与任务执行分离的架构框架(Liu 等,2026)来推进。 #### Return-to-go 调节 离线强化学习的序列建模方法已证明,以期望结果(而非学习价值函数)进行条件调节会产生鲁棒且可控的智能体行为(Chen 等,2021a)。针对语义相似性优化的密集句子表示(Reimers 和 Gurevych,2019;Song 等,2020)随后启用了语言设置中的目标条件推理,为将结果条件序列建模转化为提示级别上下文管理提供了计算基础。SeDT 建立在上述两条工作线上。 ## 3 方法:SeDT ### 3.1 形式并行 Decision Transformer(Chen 等,2021a)与 SeDT 之间的结构类比是精确的。在 Decision Transformer 中,轨迹是智能体与其环境之间的一系列交互,记录为一串步骤。在每个步骤 t,智能体观察描述当前情况的状态 s_t,采取动作 a_t,并接收一个称为 return-to-go 的信号 R̂_t,该信号表示从该步骤到轨迹结束智能体仍可累积的总奖励。通过条件调节于这些 return-to-go 值,Decision Transformer 教会智能体将高价值步骤与高未来奖励关联起来,从而生成完整的轨迹 \([(\hat{R}_1, s_1, a_1), \ldots, (\hat{R}_T, s_T, a_T)]\) 作为输入以生成下一个动作。在 SeDT 中,我们将其直接类比到多轮对话:对话历史扮演轨迹的角色,单个轮次中揭示的每个分片扮演步骤的角色,该分片与最终输出目标的语义相关性扮演奖励的角色。正如 Decision Transformer 标注每个步骤的潜在未来奖励价值一样,SeDT 标注每个分片从该轮次起仍有多少与目标相关的信息,我们也称之为该分片的 return-to-go。因此,对话历史变为 \([(\hat{R}_1, \text{shard}_1), \ldots, (\hat{R}_T, \text{shard}_T)]\),最终答案以 return-to-go 值为条件: DT: \[(\hat{R}_1, s_1, a_1) \; (\hat{R}_2, s_2, a_2) \; \cdots \to a_T\] SeDT: \[(\hat{R}_1, \text{shard}_1) \; (\hat{R}_2, \text{shard}_2) \; \cdots \to \hat{y}_T,\] 其中 \(\hat{R}_t = \sum_{t'=t}^{T-1} \mathrm{rel}(t')\) 是从第 t 轮到最后一轮 T 的累积相关性,T 是对话中分片的总数。在 Decision Transformer 中,高 \(\hat{R}_t\) 告诉智能体从该步骤起仍有大量未来奖励可实现。在 SeDT 中,高 \(\hat{R}_t\) 告诉模型从该轮次起仍有大量与目标相关的信息,模型应仔细关注其后的约束。这一类比并非仅仅是比喻;它直接指导了后续的每一个设计决策。图
相似文章
令牌统计揭示多轮大语言模型交互中的对话漂移
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。
Found in Conversation: LLMs 自我学习以缩小多轮对话差距
本文介绍了 Found in Conversation (FiC),一个使用视图非对称自蒸馏(View-Asymmetric Self-Distillation)的训练框架,旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力,在多种模型系列和规模上实现了 92-100% 的恢复率。
MTR-DuplexBench:全双工语音语言模型多轮对话的综合评估基准
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。
When2Speak: 面向大语言模型的多方对话时序参与与话轮转换数据集
When2Speak是一个合成数据集及流程,用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换,强化学习将漏干预率从50%降至约20%。
Context-Agent: 用于非线性对话的动态话题树
Context-Agent提出了一种新颖框架,将多轮对话历史建模为动态树结构而非扁平序列,更好地捕捉自然对话的层级性和分支性特征。该论文引入NTM基准来评估非线性对话场景,并展示了在各种LLM上的任务完成率和令牌效率的提升。