Pigeonholing：不良提示导致模型崩溃并犯错

arXiv cs.CL 2026/06/24 04:00 论文

摘要

本文介绍了“Pigeonholing”这一现象，即不良提示导致大语言模型崩溃并重复错误，造成38-40%的性能下降。跨越10个任务和10个模型的实验表明，随着对话轮次增加，问题恶化，并提出了结合合成错误的RLVR作为缓解措施。

arXiv:2606.24267v1 Announce Type: new 摘要：虽然上下文学习通常在大语言模型(LLMs)中被证明是有效的，但不良上下文会导致性能下降和模式崩溃，我们将这种现象称为"pigeonholing"。**非恶意的**不良上下文可能出现在没有恶意越狱意图的情况下：例如，用户要求模型证明一个错误的数学定理，或者未纠正模型有缺陷的代码。具体而言，我们在两种场景下研究了"pigeonholing"：(1)当用户提出解决方案时，以及(2)当对话上下文包含助手之前(错误)的回答时。我们在10个可验证和开放式的任务上使用10种不同模型进行的实验表明，pigeonholing通过多种方式表现出来：(1)重复上下文中的错误答案(导致38-40%的性能下降)，(2)在编码和文本生成中收敛到狭窄的答案集而不探索其他可能性，以及(3)在有争议的话题上转变立场以迎合用户或助手之前的说法。我们发现，pigeonholing几乎单调地随着对话轮次增加而恶化(当重复错误从1次增加到5次时，性能额外下降14%以上)，并且即使提供的示例是正确的，pigeonholing引发的模式崩溃也可能发生。作为缓解措施的一步，我们提出了结合合成错误的RLVR，与普通RLVR基线相比，在不良上下文中将模型性能提升了43-60%。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:46

# 鸽笼效应：不良提示导致模型崩溃和出错
来源：https://arxiv.org/abs/2606.24267
查看PDF (https://arxiv.org/pdf/2606.24267)

> 摘要：虽然上下文学习通常被证明在大型语言模型（LLM）中是有效的，但不良上下文可能导致性能下降和模式崩溃，我们称这种现象为“鸽笼效应”。**无意中的不良**上下文可能在无恶意越狱意图的情况下发生：例如，用户要求模型为一个不正确的数学定理辩护，或者未能纠正模型有缺陷的代码。具体而言，我们在两种场景中研究“鸽笼效应”：（1）当用户提出解决方案时；（2）当对话上下文包含助手之前的（错误）回答时。我们在10个可验证且开放式的任务上，使用10个不同模型进行的实验表明，鸽笼效应有多种表现方式：（1）重复上下文中不正确的回答（导致38-40%的性能下降）；（2）在编码和文本生成中收敛于狭窄的回答集，而不探索其他可能性；（3）在争议性话题上转变立场，以符合用户或助手之前的说法。我们发现，鸽笼效应几乎随对话轮次数量单调恶化（当重复错误从1次增加到5次时，性能额外下降14%以上），并且即使提供的示例是正确的，鸽笼效应引起的模式崩溃也可能发生。作为缓解措施的一步，我们提出了带有合成错误的RLVR，与普通RLVR基线相比，在不良上下文下模型性能提升了43-60%。

## 提交历史

来自：Hyunji Alex Nam [查看邮箱](https://arxiv.org/show-email/ca0d1e76/2606.24267) **[v1]** 2026年6月23日 星期二 07:52:22 UTC (994 KB)

相似文章

单一提示不够：指令敏感性削弱嵌入模型评估

arXiv cs.CL

本文通过实证表明，对指令调优嵌入模型进行单一提示评估是不够的，因为性能随提示措辞显著变化，且排行榜排名可通过提示选择被操纵。

当选择成为风险：多选题约束下大语言模型的安全失效

arXiv cs.CL

# 当选择成为风险：多选题约束下大语言模型的安全失效来源：[https://arxiv.org/html/2604.16916](https://arxiv.org/html/2604.16916) Yuheng Chen1 Zhiyu Wu2 Bowen Cheng3 Tetsuro Takahashi1 1鹿儿岛大学 2复旦大学 3中国石油大学（北京） [email protected] ###### 摘要大语言模型（LLMs）的安全性对齐主要在开放式生成环境进行评估，模型可通过拒绝回应来规避风险……

Pigeonholing：不良提示导致模型崩溃并犯错

相似文章

单一提示不够：指令敏感性削弱嵌入模型评估

当选择成为风险：多选题约束下大语言模型的安全失效

大语言模型可通过正确提示更好地捕捉人类判断

乱码也有效：提示空间扰动拓宽推理探索

提示注入即角色混淆

提交意见反馈