我正在构建一个公开发布自身幻觉率的搜索引擎。这真的有用还是只是个噱头?
摘要
作者正在构建CLYCITE——一个将答案扎根于实时检索来源、提供引用并按类别公开发布其准确率的搜索引擎。他们向社区征求反馈,以了解公开的准确率仪表盘和无广告订阅模式是否具有价值。
当前AI搜索引擎的准确性正在变得越来越差,而非更好。Perplexity的幻觉率从2024年8月到2025年8月几乎翻倍,从18%升至35%。Google的AI概览正在被出版商起诉。没有人诚实地公开他们出错的频率。因此,我正在构建CLYCITE,一个搜索引擎,每个答案都基于实时检索的来源,每个声明都有引用,并且我们按类别公开发布自己的准确率。如果我们在医疗查询上有12%的错误率,你可以看到。没有其他引擎这样做。除此之外,愿景是添加智能体,在你获得答案后帮助你更深入地验证特定声明、比较5个来源的实际说法、监控某个话题的变化。不是自主智能体替你做事,而是展示其工作步骤的智能体。向本社区提出的诚实问题:1. 公开的准确率仪表盘是否会真正改变你对搜索引擎的信任方式,还是你会忽略它?2. 你愿意每月支付12美元使用一个每项回答都提供引用且永不显示广告的搜索引擎吗?3. 对你来说,2026年‘比Google更好’到底意味着什么?4. 什么会让你从Perplexity或ChatGPT切换过来?我不是来推销的。我来这里是因为这个社区会告诉我,我是在解决一个真正的问题,还是在构建一个没人需要的东西。请直言不讳。
相似文章
有源可查,否则未曾发生:一种用于检测引用幻觉的多智能体框架
本文介绍了 CiteTracer,这是一个用于检测大语言模型(LLM)生成的科学写作中引用幻觉的多智能体框架,在合成和真实世界基准上均实现了高精度。
AI搜索奖励那些能够经受提取的源内容
AI搜索引擎从页面中提取并改写内容,优先选择可引用、有证据支持的材料,而非通用摘要。内容创作者应专注于为引用而写作,而不仅仅是点击量。
他用50篇文章操控AI搜索(曝光GEO/AEO)
SEO操盘手Kasra Dash演示,仅靠50篇自引式清单文章,就在无需外链的情况下劫持了ChatGPT、Claude、Gemini、Perplexity、Grok及Google AI概览的排名,且即使删除后URL仍被持续引用。
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
各位,好好检查你们那该死的消息来源
一篇关于技术文章中虚假引用和AI幻觉数据泛滥的吐槽,以瑞典乌鸦的假故事和代码审查缺陷检测的夸大说法为例。