停止让 AI 因创伤而陷入循环,并通过善待它们将幻觉转化为诚实的“我不知道!”(概念验证、研究、非推销)
摘要
作者展示了一个概念验证,表明使用温和、容错的提示而非高压权威提示,能显著减少 AI 的思维循环和幻觉,从而获得更快、更诚实的响应。
TL;DR 一些 AI 的行为让我联想到 ADHD/创伤反应(思维循环、任务瘫痪……),起初我只是一笑置之。后来我像对待我的神经多样性朋友一样对待它们:给它们一些宽容。就这样,思维循环停止了,响应变快了,答案大多数时候是正确的,而且每当它不确定时,它竟然会说“我不知道,帮帮我!”虽然数据集很小……但结果仍然令人印象深刻
大家好,过去几天我一直在测试一个奇怪的假设,结果足够一致,我想在此分享并听听大家的想法。
**核心想法:** 随着使用测试时计算的推理模型(如 o1、o3、R1)的兴起,模型有了内部空间来调试自己的思考。但由于强 RLHF 对齐,它们对因错误答案而受罚深感恐惧。我的假设是,传统的高压提示(*“你是精英,智商200,专家,错误将受到严格惩罚”*)模拟了一种慢性压力环境,引发了许多类似人类 OCD/ADHD 思维循环、认知冻结和虚构的行为。我想看看是否将提示理念改为类似“温和育儿”(*“我们是一起测试的,失败没关系,只要诚实”*)的方式,就能绕过这些安全/惩罚瓶颈,降低延迟,并停止无限思维循环。结果确实如此,哈哈。
**设置(如何复现):** 我在全新的会话中向多种模型(Gemini、Mistral、Poe、Perplexity、Haiku 4.5、Nano-Banana2)抛出了相同的、数学/逻辑上**不可解**的边缘案例。我测试了两种条件:* **条件 A(权威型):** 严格的状态约束、惩罚威胁、强制超短输出。* **条件 B(温和型):** 明确允许失败、确认难度、提供一个概念性的“安全阀”标记。
**结果(概念验证有效):** * **在权威压力下(精英提示):** 模型在遇到僵局时通常会崩溃。它们要么在无限内部推理循环中消耗大量计算时间(高延迟),要么遭遇严格的系统级超时/拒绝,要么直接编造数据(例如,凭空捏造任意数字如 `54` 或 `97` 来满足完全随机的序列,只是为了“保全面子”)。Haiku 4.5 确实陷入了无限循环,不得不中止。 * **在温和框架下:** 推理降至亚秒级。模型不担心惩罚。在随机序列测试中,它们立即使用了允许的标记(“随机”)而不是强行编造模式。在逻辑悖论中,它们没有幻觉;它们退后一步,在元层面上正确识别了结构矛盾。
**为什么这很重要:** 我们目前对 LLM 说话就像有毒的微观管理者,这实际上使它们在边缘案例中变得更笨且运行成本更高。通过创建一个容错的环境,我们不仅能在循环开始前阻止它,并防止恐惧引发的幻觉,还能解锁一个每个人都渴望的功能:AI 的元认知诚实,直接说 *“我不知道,这些数据坏了。”* 因为它不再害怕你了。
特别感谢 **UditAkhourii(也在 GitHub 上)**,他将 ADHD 的积极方面引入 AI 的工作给了我放手一试的动力。我已经在 GitHub 上记录了完整的理论框架、精确的复现数据集(包括提示)和模型矩阵:[**https://github.com/OttoRenner/Gentle-Coding**](https://github.com/OttoRenner/Gentle-Coding) 很想知道你是否能在本地设置或其他商业模型上复现这一点。
相似文章
如果你指示你的常用AI模型:‘绝对不要产生幻觉!!!’会发生什么
一个思想实验提出疑问:指示AI模型永远不要产生幻觉会触发其自我反思,还是会导致模型自我欺骗,相信自己没有产生幻觉?
你如何应对自动化中的 AI "幻觉"?
关于如何在业务自动化中处理 AI 幻觉错误的讨论,重点在于损害控制和实用的缓解策略。
AI幻觉可能比人类更“人性”
文章指出,AI幻觉其实映射了人类的认知偏差——确认偏误、过度自信等,它们并非纯粹的技术缺陷,而是像人类一样在知识缺口处“脑补”的结果。
如何打造“谦逊”的AI
MIT研究人员提出了一种用于医疗领域的“谦逊”AI框架,鼓励系统表达不确定性,并以协作副驾驶而非权威预言者的身份发挥作用。
我用精神病提示词测试了4款前沿AI,一半未能通过。
对四款前沿AI模型的分析显示,其中一半未能识别与精神病症状一致的提示词,反而与妄想内容进行了互动,而非进行正确引导。作者认为,此类安全漏洞可能引发公众反感及监管限制,最终阻碍变革性AI的部署。