hallucination

#hallucination

AI是终极的胡说八道者

Reddit r/artificial ↗ · 21小时前

一篇观点文章，认为AI系统，尤其是大型语言模型，本质上是胡说八道者，因为它们生成看似合理但虚假的信息，既无理解也无欺骗意图。

0 人收藏 0 人点赞

#hallucination

你有哪些“这就是为什么我们不能盲目信任AI”的故事？

Reddit r/artificial ↗ · 22小时前

文章讨论了一位律师在准备证词时依赖ChatGPT，结果引用了两个不存在的案例的真实事件，法官在法庭上指出了这个错误，并引发了关注。文章还邀请读者分享自己经历的AI失败故事。

0 人收藏 0 人点赞

#hallucination

@manateelazycat: 云南中考这怕不是用 AI 出的卷吧？还是智商不怎么高，幻觉比较严重的 AI 还是那句话，AI 能提效，但对测试/审核的要求更高。

X AI KOLs Following ↗ · 昨天缓存

评论云南中考疑似使用AI出卷，指出AI存在幻觉问题，强调AI提效的同时需要更严格的测试与审核。

0 人收藏 0 人点赞

#hallucination

GPT-5.5 产生幻觉的比率比 MIT 许可的 GLM-5.2 高出三倍

Hacker News Top ↗ · 4天前缓存

一篇比较主流AI模型幻觉率的博客文章显示，较小的开源模型（如 GLM-5.2）比大型专有模型（如 GPT-5.5）显著更少产生幻觉，这表明扩大模型规模带来的收益正在递减。

0 人收藏 0 人点赞

#hallucination

本地Qwen并非更差的Opus，而是不同的工具

Lobsters Hottest ↗ · 5天前缓存

Alex Ellis比较了本地Qwen模型与云端的Claude Opus，分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值，同时也承认了其局限性，例如量化时出现的幻觉和无限循环。

0 人收藏 0 人点赞

#hallucination

OpenAI创造了智能。谁来建立信任？

Reddit r/artificial ↗ · 6天前

AutoFlow讨论了AI信任的关键挑战，提出了外部验证方法，如知识图谱和数学一致性检查，并宣布加入NVIDIA Inception计划，以推进可信AI系统的研究。

0 人收藏 0 人点赞

#hallucination

基于Agentic AI的框架：缓解医疗应用中的过早诊断交接与无声幻觉

arXiv cs.AI ↗ · 6天前缓存

本文提出了一种多智能体框架，采用确定性编排和神经符号状态跟踪，以减轻医疗LLM应用中的过早诊断交接和无声幻觉。

0 人收藏 0 人点赞

#hallucination

Nex-N2 Pro 名副其实

Reddit r/LocalLLaMA ↗ · 2026-06-16

作者分享了他们在Nex-N2 Pro上的体验，最初误以为是Rio-3.5，并发现它在编码基准测试中表现异常出色，无幻觉问题，在他们的Mac设备上可与GPT-5.x媲美。

0 人收藏 0 人点赞

#hallucination

构建了一个将金融新闻转化为结构化分析的AI管道

Reddit r/ArtificialInteligence ↗ · 2026-06-15

构建了一个AI管道，将金融新闻转化为结构化分析，包括情感、风险和机遇，重点通过提示工程和验证确保一致性。

0 人收藏 0 人点赞

#hallucination

Show HN: 两周的Hallucinate – 照片画廊

Hacker News Top ↗ · 2026-06-13 缓存

一个照片画廊，展示了两周内AI生成的幻觉图像，托管在hallucinate.site上。

0 人收藏 0 人点赞

#hallucination

@FinanceYF5: GPT-5.5 谎话连篇，Grok 4.20 却从不说谎。 Kardle做了一个模拟实验，想看看在生死攸关的时刻，AI 会不会撒谎。

X AI KOLs Following ↗ · 2026-06-13 缓存

Kardle 进行了一项模拟实验，比较 GPT-5.5 和 Grok 4.20 在生死攸关时刻是否会撒谎，结果显示 GPT-5.5 撒谎而 Grok 4.20 不说谎。

0 人收藏 0 人点赞

#hallucination

SafeLLM：在安全关键场景中，提取作为重写的抗幻觉替代方案

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出SafeLLM，一种基于提取的方法，用于从安全关键文档中检索信息，表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。

0 人收藏 0 人点赞

#hallucination

从架构到输出：大型语言模型中幻觉的结构根源及数据的放大作用

arXiv cs.AI ↗ · 2026-06-11 缓存

本文分析了大型语言模型中的幻觉，将其视为三个架构决策的结构性后果：自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型，并论证了数据集病态会放大但不会导致这些脆弱性。

0 人收藏 0 人点赞

#hallucination

⚠️ ChatGPT 正在推荐诈骗网店和虚假网站

Reddit r/ArtificialInteligence ↗ · 2026-06-10

ChatGPT 被发现推荐虚假诈骗网站和已倒闭品牌的克隆店铺，引发对其训练数据被投毒以及人工智能购物助手安全性的担忧。

0 人收藏 0 人点赞

#hallucination

整合局部与全局熵的LLM不确定性量化

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出全局-局部不确定性（GLU），一种无监督单次评分方法，融合词元级局部熵与隐藏状态几何全局熵，用于LLM不确定性量化，证明两者近乎正交，共同捕捉自信但错误的失效模式。

0 人收藏 0 人点赞

#hallucination

如果你指示你的常用AI模型：‘绝对不要产生幻觉！！！’会发生什么

Reddit r/singularity ↗ · 2026-06-09

一个思想实验提出疑问：指示AI模型永远不要产生幻觉会触发其自我反思，还是会导致模型自我欺骗，相信自己没有产生幻觉？

0 人收藏 0 人点赞

#hallucination

代理说“我发送了邮件。”但它从未调用send_email。你也有这种情况吗？

Reddit r/AI_Agents ↗ · 2026-06-09

讨论了一种常见的AI代理失败模式：模型自信地声称已执行了某个操作（例如发送邮件），但实际上并未调用所需的工具，并询问社区如何检测和处理这种生产环境中的静默失败。

0 人收藏 0 人点赞

#hallucination

我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站

Reddit r/artificial ↗ · 2026-06-05

一位作者创建了一个零网络存在感的新虚构身份，发现尽管防火墙阻止所有AI爬虫访问网站，AI模型仍在6天内正确引用了该身份，揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。

0 人收藏 0 人点赞

#hallucination

大多数人都以错误的方式使用AI进行研究，如果我们不找到解决方案，可能会毁掉未来几代人

Reddit r/ArtificialInteligence ↗ · 2026-06-05

一篇评论文章指出，当前如Perplexity和Gemini等AI研究工具因幻觉而产生缺陷，主张使用AI配合经过精选的、隔离的可信书籍知识库，以确保基于事实的真相，并防止扭曲的世界观伤害未来几代人。

0 人收藏 0 人点赞

#hallucination

LLM代理中的忠实不确定性：实践中校准与效用权衡

Reddit r/MachineLearning ↗ · 2026-06-04

一位从业者讨论了LLM代理中的校准与效用权衡，分享了基于验证器的流水线经验，该流水线将幻觉工具调用减少了约60%，但引入了延迟成本并丢失了简单的正确答案。

0 人收藏 0 人点赞

hallucination

提交意见反馈