hallucination

标签

Cards List
#hallucination

AI是终极的胡说八道者

Reddit r/artificial · 21小时前

一篇观点文章,认为AI系统,尤其是大型语言模型,本质上是胡说八道者,因为它们生成看似合理但虚假的信息,既无理解也无欺骗意图。

0 人收藏 0 人点赞
#hallucination

你有哪些“这就是为什么我们不能盲目信任AI”的故事?

Reddit r/artificial · 22小时前

文章讨论了一位律师在准备证词时依赖ChatGPT,结果引用了两个不存在的案例的真实事件,法官在法庭上指出了这个错误,并引发了关注。文章还邀请读者分享自己经历的AI失败故事。

0 人收藏 0 人点赞
#hallucination

@manateelazycat: 云南中考这怕不是用 AI 出的卷吧? 还是智商不怎么高,幻觉比较严重的 AI 还是那句话,AI 能提效,但对测试/审核的要求更高。

X AI KOLs Following · 昨天 缓存

评论云南中考疑似使用AI出卷,指出AI存在幻觉问题,强调AI提效的同时需要更严格的测试与审核。

0 人收藏 0 人点赞
#hallucination

GPT-5.5 产生幻觉的比率比 MIT 许可的 GLM-5.2 高出三倍

Hacker News Top · 4天前 缓存

一篇比较主流AI模型幻觉率的博客文章显示,较小的开源模型(如 GLM-5.2)比大型专有模型(如 GPT-5.5)显著更少产生幻觉,这表明扩大模型规模带来的收益正在递减。

0 人收藏 0 人点赞
#hallucination

本地Qwen并非更差的Opus,而是不同的工具

Lobsters Hottest · 5天前 缓存

Alex Ellis比较了本地Qwen模型与云端的Claude Opus,分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值,同时也承认了其局限性,例如量化时出现的幻觉和无限循环。

0 人收藏 0 人点赞
#hallucination

OpenAI创造了智能。谁来建立信任?

Reddit r/artificial · 6天前

AutoFlow讨论了AI信任的关键挑战,提出了外部验证方法,如知识图谱和数学一致性检查,并宣布加入NVIDIA Inception计划,以推进可信AI系统的研究。

0 人收藏 0 人点赞
#hallucination

基于Agentic AI的框架:缓解医疗应用中的过早诊断交接与无声幻觉

arXiv cs.AI · 6天前 缓存

本文提出了一种多智能体框架,采用确定性编排和神经符号状态跟踪,以减轻医疗LLM应用中的过早诊断交接和无声幻觉。

0 人收藏 0 人点赞
#hallucination

Nex-N2 Pro 名副其实

Reddit r/LocalLLaMA · 2026-06-16

作者分享了他们在Nex-N2 Pro上的体验,最初误以为是Rio-3.5,并发现它在编码基准测试中表现异常出色,无幻觉问题,在他们的Mac设备上可与GPT-5.x媲美。

0 人收藏 0 人点赞
#hallucination

构建了一个将金融新闻转化为结构化分析的AI管道

Reddit r/ArtificialInteligence · 2026-06-15

构建了一个AI管道,将金融新闻转化为结构化分析,包括情感、风险和机遇,重点通过提示工程和验证确保一致性。

0 人收藏 0 人点赞
#hallucination

Show HN: 两周的Hallucinate – 照片画廊

Hacker News Top · 2026-06-13 缓存

一个照片画廊,展示了两周内AI生成的幻觉图像,托管在hallucinate.site上。

0 人收藏 0 人点赞
#hallucination

@FinanceYF5: GPT-5.5 谎话连篇,Grok 4.20 却从不说谎。 Kardle做了一个模拟实验,想看看在生死攸关的时刻,AI 会不会撒谎。

X AI KOLs Following · 2026-06-13 缓存

Kardle 进行了一项模拟实验,比较 GPT-5.5 和 Grok 4.20 在生死攸关时刻是否会撒谎,结果显示 GPT-5.5 撒谎而 Grok 4.20 不说谎。

0 人收藏 0 人点赞
#hallucination

SafeLLM:在安全关键场景中,提取作为重写的抗幻觉替代方案

arXiv cs.CL · 2026-06-12 缓存

本文提出SafeLLM,一种基于提取的方法,用于从安全关键文档中检索信息,表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。

0 人收藏 0 人点赞
#hallucination

从架构到输出:大型语言模型中幻觉的结构根源及数据的放大作用

arXiv cs.AI · 2026-06-11 缓存

本文分析了大型语言模型中的幻觉,将其视为三个架构决策的结构性后果:自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型,并论证了数据集病态会放大但不会导致这些脆弱性。

0 人收藏 0 人点赞
#hallucination

⚠️ ChatGPT 正在推荐诈骗网店和虚假网站

Reddit r/ArtificialInteligence · 2026-06-10

ChatGPT 被发现推荐虚假诈骗网站和已倒闭品牌的克隆店铺,引发对其训练数据被投毒以及人工智能购物助手安全性的担忧。

0 人收藏 0 人点赞
#hallucination

整合局部与全局熵的LLM不确定性量化

arXiv cs.LG · 2026-06-10 缓存

本文提出全局-局部不确定性(GLU),一种无监督单次评分方法,融合词元级局部熵与隐藏状态几何全局熵,用于LLM不确定性量化,证明两者近乎正交,共同捕捉自信但错误的失效模式。

0 人收藏 0 人点赞
#hallucination

如果你指示你的常用AI模型:‘绝对不要产生幻觉!!!’会发生什么

Reddit r/singularity · 2026-06-09

一个思想实验提出疑问:指示AI模型永远不要产生幻觉会触发其自我反思,还是会导致模型自我欺骗,相信自己没有产生幻觉?

0 人收藏 0 人点赞
#hallucination

代理说“我发送了邮件。”但它从未调用send_email。你也有这种情况吗?

Reddit r/AI_Agents · 2026-06-09

讨论了一种常见的AI代理失败模式:模型自信地声称已执行了某个操作(例如发送邮件),但实际上并未调用所需的工具,并询问社区如何检测和处理这种生产环境中的静默失败。

0 人收藏 0 人点赞
#hallucination

我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站

Reddit r/artificial · 2026-06-05

一位作者创建了一个零网络存在感的新虚构身份,发现尽管防火墙阻止所有AI爬虫访问网站,AI模型仍在6天内正确引用了该身份,揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。

0 人收藏 0 人点赞
#hallucination

大多数人都以错误的方式使用AI进行研究,如果我们不找到解决方案,可能会毁掉未来几代人

Reddit r/ArtificialInteligence · 2026-06-05

一篇评论文章指出,当前如Perplexity和Gemini等AI研究工具因幻觉而产生缺陷,主张使用AI配合经过精选的、隔离的可信书籍知识库,以确保基于事实的真相,并防止扭曲的世界观伤害未来几代人。

0 人收藏 0 人点赞
#hallucination

LLM代理中的忠实不确定性:实践中校准与效用权衡

Reddit r/MachineLearning · 2026-06-04

一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈