令牌统计揭示多轮大语言模型交互中的对话漂移
摘要
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。
arXiv:2604.13061v2 宣布类型:替换
摘要:大语言模型(LLM)越来越多地部署在多轮对话场景中,早期的响应会影响后续的响应,使得可靠性取决于对话是否能随时间保持一致。当这种一致性在未被检测的情况下降低时,后续决策会失去其在产生它们的交互中的基础。然而,当前的评估方法只评估孤立的输出,而不是产生它们的交互过程。在本研究中,我们展示对话结构一致性可以直接从令牌频率统计中监控,无需嵌入、辅助评估器或访问模型内部。我们将这个信号形式化为双可预测性P,它衡量上下文、响应和下一提示循环中的共享可预测性相对于轮次总不确定性的比例,并在轻量级辅助架构信息数字孪生(IDT)中实现它。在跨越4,574个对话轮次、34种条件、1个学生模型和3个前沿教师模型的实验中,P建立了稳定的运行时基线,在85%的条件下与结构一致性对齐,但仅在44%的条件下与语义质量对齐,IDT以100%的敏感度检测到了所有测试的矛盾、话题转换和逻辑断裂。这些结果表明,扩展LLM交互中的可靠性不能仅归结为响应质量,从可观察的令牌流进行结构监控可以补充语义评估在部署中的作用。
查看缓存全文
缓存时间: 2026/04/20 08:32
# 代币统计揭示多轮 LLM 交互中的对话偏移 来源:https://arxiv.org/abs/2604.13061 查看 PDF (https://arxiv.org/pdf/2604.13061) > **摘要:** 大语言模型(LLM)越来越多地部署在多轮对话设置中,早期的回应会影响后续的回应,这使得可靠性取决于对话是否能保持一致性。当这种一致性在无法察觉的情况下退化时,下游决策将失去其在产生它们的交互中的基础。然而,当前的评估方法只评估孤立的输出,而不是产生这些输出的交互过程。我们展示了对话结构一致性可以直接从代币频率统计中进行监控,而无需使用嵌入、辅助评估器或访问模型内部。我们将这个信号正式化为双预测性(Bipredictability,P),它衡量在上文、回应、下一提示循环中的共享可预测性相对于轮次总不确定性,并在轻量级辅助架构(信息数字孪生,IDT)中实现。在跨越 34 个条件、1 个学生模型和 3 个前沿教师模型的 4,574 个对话轮次中,P 建立了稳定的运行时基线,在 85% 的条件下与结构一致性相符,但仅在 44% 的情况下与语义质量相符;IDT 以 100% 的敏感性检测了所有测试的矛盾、主题转变和非顺序现象。这些结果表明,扩展 LLM 交互中的可靠性不能仅归结为回应质量,而且可观察代币流中的结构监控可以在部署中补充语义评估。 ## 提交历史 来自:Wael Hafez \[查看邮箱 (https://arxiv.org/show-email/c24f3b3e/2604.13061)\] **[\[v1\]](https://arxiv.org/abs/2604.13061v1)** 2026年3月18日星期三 18:10:37 UTC (607 KB) **\[v2\]** 2026年4月17日星期五 15:43:33 UTC (613 KB)
相似文章
超越熵:从令牌级分布偏差中学习以提升LLM推理
提出独立组合令牌(ICT)框架,利用令牌logit分布之间的Jensen-Shannon散度识别关键分支点,防止RLVR在LLM推理中的熵坍缩和熵爆炸。在Qwen模型上实现了高达14.9%的pass@4改进。
Cross-LLM推理一致性:来自共享交互的证据
本文利用基于交互的解释方法,研究了不同LLM在预测相同词元时是否共享共同的推理模式。结果表明,先进LLM展现出一致的交互模式,暗示它们隐式地优化到了共享的推理机制。
SeDT: Sentence-Transformer Decision-Transformer条件化用于多轮对话可靠性
本文介绍了SeDT,一种无需训练、推理时的方法,通过用来自三种信号的累积相关性分数标注对话历史,提高多轮对话中LLM的可靠性,在Lost-in-Conversation基准测试上实现了高达+37.7%的性能提升。
Found in Conversation: LLMs 自我学习以缩小多轮对话差距
本文介绍了 Found in Conversation (FiC),一个使用视图非对称自蒸馏(View-Asymmetric Self-Distillation)的训练框架,旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力,在多种模型系列和规模上实现了 92-100% 的恢复率。
采用 $\neq$ 适应:野外LLM对话的纵向分析
本文分析了必应Copilot用户的纵向对话轨迹,并与WildChat数据进行比较,发现个体用户习惯具有粘性,且WildChat过度代表了高级用户,挑战了用户与LLM互动的静态观点。