Pigeonholing:不良提示导致模型崩溃并犯错
摘要
本文介绍了“Pigeonholing”这一现象,即不良提示导致大语言模型崩溃并重复错误,造成38-40%的性能下降。跨越10个任务和10个模型的实验表明,随着对话轮次增加,问题恶化,并提出了结合合成错误的RLVR作为缓解措施。
查看缓存全文
缓存时间: 2026/06/24 07:46
# 鸽笼效应:不良提示导致模型崩溃和出错 来源:https://arxiv.org/abs/2606.24267 查看PDF (https://arxiv.org/pdf/2606.24267) > 摘要:虽然上下文学习通常被证明在大型语言模型(LLM)中是有效的,但不良上下文可能导致性能下降和模式崩溃,我们称这种现象为“鸽笼效应”。**无意中的不良**上下文可能在无恶意越狱意图的情况下发生:例如,用户要求模型为一个不正确的数学定理辩护,或者未能纠正模型有缺陷的代码。具体而言,我们在两种场景中研究“鸽笼效应”:(1)当用户提出解决方案时;(2)当对话上下文包含助手之前的(错误)回答时。我们在10个可验证且开放式的任务上,使用10个不同模型进行的实验表明,鸽笼效应有多种表现方式:(1)重复上下文中不正确的回答(导致38-40%的性能下降);(2)在编码和文本生成中收敛于狭窄的回答集,而不探索其他可能性;(3)在争议性话题上转变立场,以符合用户或助手之前的说法。我们发现,鸽笼效应几乎随对话轮次数量单调恶化(当重复错误从1次增加到5次时,性能额外下降14%以上),并且即使提供的示例是正确的,鸽笼效应引起的模式崩溃也可能发生。作为缓解措施的一步,我们提出了带有合成错误的RLVR,与普通RLVR基线相比,在不良上下文下模型性能提升了43-60%。 ## 提交历史 来自:Hyunji Alex Nam [查看邮箱](https://arxiv.org/show-email/ca0d1e76/2606.24267) **[v1]** 2026年6月23日 星期二 07:52:22 UTC (994 KB)
相似文章
单一提示不够:指令敏感性削弱嵌入模型评估
本文通过实证表明,对指令调优嵌入模型进行单一提示评估是不够的,因为性能随提示措辞显著变化,且排行榜排名可通过提示选择被操纵。
当选择成为风险:多选题约束下大语言模型的安全失效
# 当选择成为风险:多选题约束下大语言模型的安全失效 来源:[https://arxiv.org/html/2604.16916](https://arxiv.org/html/2604.16916) Yuheng Chen1 Zhiyu Wu2 Bowen Cheng3 Tetsuro Takahashi1 1鹿儿岛大学 2复旦大学 3中国石油大学(北京) [email protected] ###### 摘要 大语言模型(LLMs)的安全性对齐主要在开放式生成环境进行评估,模型可通过拒绝回应来规避风险……
大语言模型可通过正确提示更好地捕捉人类判断
本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。
乱码也有效:提示空间扰动拓宽推理探索
本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。
提示注入即角色混淆
本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。