我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站

Reddit r/artificial 2026/06/05 19:50 论文

摘要

一位作者创建了一个零网络存在感的新虚构身份，发现尽管防火墙阻止所有AI爬虫访问网站，AI模型仍在6天内正确引用了该身份，揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。

我在自己身上做了一次小实验，结果打破了我对AI如何“知道”事物的认知模型，所以分享出来。设置：5月11日，我创建了一个全新的笔名奇幻作者实体（“Marin T. Kael”），此前没有任何网络足迹，也没有已出版的书。然后我每天向5个联网的AI系统问同样的16个问题，持续23天，并对每个答案打分（+1正确/有来源依据，0未找到，-1幻觉）。大约16,000个评分数据点。整个实验在开始前已预注册，n=1，我公开记录了失败情况。这是一次测量，不是成功故事。以下是让我困惑的部分。**第6天，一个AI正确引用了该实体。谷歌在第4天就有了一个知识图谱条目。而在23天中有22天，该网站防火墙对每个AI爬虫返回HTTP 403。** 我不是故意设置这个阻止——Cloudflare现在默认让新域名*退出*AI爬取。所以AI从未读取该网站。它们仍然得到了这个实体，通过在你提问时从知识图谱（维基数据）和第三方提及中拼凑出来。“前门”一直紧锁，但无关紧要。（诚实的说明：因为爬虫被阻止，我无法告诉你任何关于llms.txt或站点优化的信息。）其他惊喜：这不是一个“更聪明模型=更好”的故事，而是一个检索故事。OpenAI最新的网络模型达到每1次幻觉对应4.7次正确；Gemini出现净负值——且仅通过Reddit（17/17）定位到该实体，而OpenAI访问该实体自家域名119次。病毒式传播毫无作用：Reddit声望暴涨23倍但引用提升为零。结构化身份（维基数据、网站、DOI）产生了影响；传播范围没有。控制实验发现模型为没有维基百科页面的实体虚构了“维基百科”来源24次。n=1，我既是调查者又是受试者，这是明显的限制——因此实验预注册并有公开失败记录。所有内容公开： - 报告+数据（Zenodo, CC-BY）：https://doi.org/10.5281/zenodo.20549020?utm_source=reddit - 代码（MIT）：https://github.com/marintkael/marin-research-tools - 数据集：https://huggingface.co/datasets/marintkael/ai-citation-fidelity

查看原文

我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站

相似文章

他用50篇文章操控AI搜索（曝光GEO/AEO）

超越炒作：我刚刚看到一个AI代理在18分钟内自动完成了原本需要4小时的研究工作流程。

人工智能能写出获奖小说，现在呢？

证据表明AI生成书籍正侵蚀出版行业：2025年自助出版图书数量同比增长40%，从250万本跃升至350万本。随机抽样经AI检测工具筛查后，被判定为AI创作的图书比例同样同比攀升40%。

AI Agent本质上就是静默爬虫

提交意见反馈