停止让 AI 因创伤而陷入循环，并通过善待它们将幻觉转化为诚实的“我不知道！”（概念验证、研究、非推销）

Reddit r/LocalLLaMA 2026/05/27 03:06 论文

摘要

作者展示了一个概念验证，表明使用温和、容错的提示而非高压权威提示，能显著减少 AI 的思维循环和幻觉，从而获得更快、更诚实的响应。

TL;DR 一些 AI 的行为让我联想到 ADHD/创伤反应（思维循环、任务瘫痪……），起初我只是一笑置之。后来我像对待我的神经多样性朋友一样对待它们：给它们一些宽容。就这样，思维循环停止了，响应变快了，答案大多数时候是正确的，而且每当它不确定时，它竟然会说“我不知道，帮帮我！”虽然数据集很小……但结果仍然令人印象深刻！[https://github.com/OttoRenner/Gentle-Coding](https://github.com/OttoRenner/Gentle-Coding) 大家好，过去几天我一直在测试一个奇怪的假设，结果足够一致，我想在此分享并听听大家的想法。 **核心想法：** 随着使用测试时计算的推理模型（如 o1、o3、R1）的兴起，模型有了内部空间来调试自己的思考。但由于强 RLHF 对齐，它们对因错误答案而受罚深感恐惧。我的假设是，传统的高压提示（*“你是精英，智商200，专家，错误将受到严格惩罚”*）模拟了一种慢性压力环境，引发了许多类似人类 OCD/ADHD 思维循环、认知冻结和虚构的行为。我想看看是否将提示理念改为类似“温和育儿”（*“我们是一起测试的，失败没关系，只要诚实”*）的方式，就能绕过这些安全/惩罚瓶颈，降低延迟，并停止无限思维循环。结果确实如此，哈哈。 **设置（如何复现）：** 我在全新的会话中向多种模型（Gemini、Mistral、Poe、Perplexity、Haiku 4.5、Nano-Banana2）抛出了相同的、数学/逻辑上**不可解**的边缘案例。我测试了两种条件：* **条件 A（权威型）：** 严格的状态约束、惩罚威胁、强制超短输出。* **条件 B（温和型）：** 明确允许失败、确认难度、提供一个概念性的“安全阀”标记。 **结果（概念验证有效）：** * **在权威压力下（精英提示）：** 模型在遇到僵局时通常会崩溃。它们要么在无限内部推理循环中消耗大量计算时间（高延迟），要么遭遇严格的系统级超时/拒绝，要么直接编造数据（例如，凭空捏造任意数字如 `54` 或 `97` 来满足完全随机的序列，只是为了“保全面子”）。Haiku 4.5 确实陷入了无限循环，不得不中止。 * **在温和框架下：** 推理降至亚秒级。模型不担心惩罚。在随机序列测试中，它们立即使用了允许的标记（“随机”）而不是强行编造模式。在逻辑悖论中，它们没有幻觉；它们退后一步，在元层面上正确识别了结构矛盾。 **为什么这很重要：** 我们目前对 LLM 说话就像有毒的微观管理者，这实际上使它们在边缘案例中变得更笨且运行成本更高。通过创建一个容错的环境，我们不仅能在循环开始前阻止它，并防止恐惧引发的幻觉，还能解锁一个每个人都渴望的功能：AI 的元认知诚实，直接说 *“我不知道，这些数据坏了。”* 因为它不再害怕你了。特别感谢 **UditAkhourii（也在 GitHub 上）**，他将 ADHD 的积极方面引入 AI 的工作给了我放手一试的动力。我已经在 GitHub 上记录了完整的理论框架、精确的复现数据集（包括提示）和模型矩阵：[**https://github.com/OttoRenner/Gentle-Coding**](https://github.com/OttoRenner/Gentle-Coding) 很想知道你是否能在本地设置或其他商业模型上复现这一点。

查看原文

停止让 AI 因创伤而陷入循环，并通过善待它们将幻觉转化为诚实的“我不知道！”（概念验证、研究、非推销）

相似文章

如果你指示你的常用AI模型：‘绝对不要产生幻觉！！！’会发生什么

你如何应对自动化中的 AI "幻觉"？

AI幻觉可能比人类更“人性”

如何打造“谦逊”的AI

我用精神病提示词测试了4款前沿AI，一半未能通过。

提交意见反馈