我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站

Reddit r/artificial 论文

摘要

一位作者创建了一个零网络存在感的新虚构身份,发现尽管防火墙阻止所有AI爬虫访问网站,AI模型仍在6天内正确引用了该身份,揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。

我在自己身上做了一次小实验,结果打破了我对AI如何“知道”事物的认知模型,所以分享出来。设置:5月11日,我创建了一个全新的笔名奇幻作者实体(“Marin T. Kael”),此前没有任何网络足迹,也没有已出版的书。然后我每天向5个联网的AI系统问同样的16个问题,持续23天,并对每个答案打分(+1正确/有来源依据,0未找到,-1幻觉)。大约16,000个评分数据点。整个实验在开始前已预注册,n=1,我公开记录了失败情况。这是一次测量,不是成功故事。以下是让我困惑的部分。**第6天,一个AI正确引用了该实体。谷歌在第4天就有了一个知识图谱条目。而在23天中有22天,该网站防火墙对每个AI爬虫返回HTTP 403。** 我不是故意设置这个阻止——Cloudflare现在默认让新域名*退出*AI爬取。所以AI从未读取该网站。它们仍然得到了这个实体,通过在你提问时从知识图谱(维基数据)和第三方提及中拼凑出来。“前门”一直紧锁,但无关紧要。(诚实的说明:因为爬虫被阻止,我无法告诉你任何关于llms.txt或站点优化的信息。)其他惊喜:这不是一个“更聪明模型=更好”的故事,而是一个检索故事。OpenAI最新的网络模型达到每1次幻觉对应4.7次正确;Gemini出现净负值——且仅通过Reddit(17/17)定位到该实体,而OpenAI访问该实体自家域名119次。病毒式传播毫无作用:Reddit声望暴涨23倍但引用提升为零。结构化身份(维基数据、网站、DOI)产生了影响;传播范围没有。控制实验发现模型为没有维基百科页面的实体虚构了“维基百科”来源24次。n=1,我既是调查者又是受试者,这是明显的限制——因此实验预注册并有公开失败记录。所有内容公开: - 报告+数据(Zenodo, CC-BY):https://doi.org/10.5281/zenodo.20549020?utm_source=reddit - 代码(MIT):https://github.com/marintkael/marin-research-tools - 数据集:https://huggingface.co/datasets/marintkael/ai-citation-fidelity
查看原文

相似文章

他用50篇文章操控AI搜索(曝光GEO/AEO)

YouTube AI Channels

SEO操盘手Kasra Dash演示,仅靠50篇自引式清单文章,就在无需外链的情况下劫持了ChatGPT、Claude、Gemini、Perplexity、Grok及Google AI概览的排名,且即使删除后URL仍被持续引用。

AI Agent本质上就是静默爬虫

Reddit r/AI_Agents

文章强调了AI Agent悄无声息地爬取网站的普遍现象,并介绍了Vouched的检测系统。该系统由KYA-OS身份层驱动,通过可验证凭据和简单的提示词集成,来识别代理、机器人和人类流量。