我正在构建一个公开发布自身幻觉率的搜索引擎。这真的有用还是只是个噱头?

Reddit r/ArtificialInteligence 产品

摘要

作者正在构建CLYCITE——一个将答案扎根于实时检索来源、提供引用并按类别公开发布其准确率的搜索引擎。他们向社区征求反馈,以了解公开的准确率仪表盘和无广告订阅模式是否具有价值。

当前AI搜索引擎的准确性正在变得越来越差,而非更好。Perplexity的幻觉率从2024年8月到2025年8月几乎翻倍,从18%升至35%。Google的AI概览正在被出版商起诉。没有人诚实地公开他们出错的频率。因此,我正在构建CLYCITE,一个搜索引擎,每个答案都基于实时检索的来源,每个声明都有引用,并且我们按类别公开发布自己的准确率。如果我们在医疗查询上有12%的错误率,你可以看到。没有其他引擎这样做。除此之外,愿景是添加智能体,在你获得答案后帮助你更深入地验证特定声明、比较5个来源的实际说法、监控某个话题的变化。不是自主智能体替你做事,而是展示其工作步骤的智能体。向本社区提出的诚实问题:1. 公开的准确率仪表盘是否会真正改变你对搜索引擎的信任方式,还是你会忽略它?2. 你愿意每月支付12美元使用一个每项回答都提供引用且永不显示广告的搜索引擎吗?3. 对你来说,2026年‘比Google更好’到底意味着什么?4. 什么会让你从Perplexity或ChatGPT切换过来?我不是来推销的。我来这里是因为这个社区会告诉我,我是在解决一个真正的问题,还是在构建一个没人需要的东西。请直言不讳。
查看原文

相似文章

AI搜索奖励那些能够经受提取的源内容

Reddit r/AI_Agents

AI搜索引擎从页面中提取并改写内容,优先选择可引用、有证据支持的材料,而非通用摘要。内容创作者应专注于为引用而写作,而不仅仅是点击量。

他用50篇文章操控AI搜索(曝光GEO/AEO)

YouTube AI Channels

SEO操盘手Kasra Dash演示,仅靠50篇自引式清单文章,就在无需外链的情况下劫持了ChatGPT、Claude、Gemini、Perplexity、Grok及Google AI概览的排名,且即使删除后URL仍被持续引用。

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。