我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站
摘要
一位作者创建了一个零网络存在感的新虚构身份,发现尽管防火墙阻止所有AI爬虫访问网站,AI模型仍在6天内正确引用了该身份,揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。
我在自己身上做了一次小实验,结果打破了我对AI如何“知道”事物的认知模型,所以分享出来。设置:5月11日,我创建了一个全新的笔名奇幻作者实体(“Marin T. Kael”),此前没有任何网络足迹,也没有已出版的书。然后我每天向5个联网的AI系统问同样的16个问题,持续23天,并对每个答案打分(+1正确/有来源依据,0未找到,-1幻觉)。大约16,000个评分数据点。整个实验在开始前已预注册,n=1,我公开记录了失败情况。这是一次测量,不是成功故事。以下是让我困惑的部分。**第6天,一个AI正确引用了该实体。谷歌在第4天就有了一个知识图谱条目。而在23天中有22天,该网站防火墙对每个AI爬虫返回HTTP 403。** 我不是故意设置这个阻止——Cloudflare现在默认让新域名*退出*AI爬取。所以AI从未读取该网站。它们仍然得到了这个实体,通过在你提问时从知识图谱(维基数据)和第三方提及中拼凑出来。“前门”一直紧锁,但无关紧要。(诚实的说明:因为爬虫被阻止,我无法告诉你任何关于llms.txt或站点优化的信息。)其他惊喜:这不是一个“更聪明模型=更好”的故事,而是一个检索故事。OpenAI最新的网络模型达到每1次幻觉对应4.7次正确;Gemini出现净负值——且仅通过Reddit(17/17)定位到该实体,而OpenAI访问该实体自家域名119次。病毒式传播毫无作用:Reddit声望暴涨23倍但引用提升为零。结构化身份(维基数据、网站、DOI)产生了影响;传播范围没有。控制实验发现模型为没有维基百科页面的实体虚构了“维基百科”来源24次。n=1,我既是调查者又是受试者,这是明显的限制——因此实验预注册并有公开失败记录。所有内容公开: - 报告+数据(Zenodo, CC-BY):https://doi.org/10.5281/zenodo.20549020?utm_source=reddit - 代码(MIT):https://github.com/marintkael/marin-research-tools - 数据集:https://huggingface.co/datasets/marintkael/ai-citation-fidelity
相似文章
他用50篇文章操控AI搜索(曝光GEO/AEO)
SEO操盘手Kasra Dash演示,仅靠50篇自引式清单文章,就在无需外链的情况下劫持了ChatGPT、Claude、Gemini、Perplexity、Grok及Google AI概览的排名,且即使删除后URL仍被持续引用。
超越炒作:我刚刚看到一个AI代理在18分钟内自动完成了原本需要4小时的研究工作流程。
作者描述了观察一个AI代理自主完成竞争情报工作流程的过程,该流程通常需要4小时,而它在18分钟内完成,突出了它浏览网站、处理PDF和迭代搜索的能力,暗示着从简单聊天机器人向自主执行的转变。
人工智能能写出获奖小说,现在呢?
一篇文章讨论了一篇获奖短篇小说被指控由人工智能生成引发的争议,以及在大语言模型时代对作者身份和检测的广泛影响。
证据表明AI生成书籍正侵蚀出版行业:2025年自助出版图书数量同比增长40%,从250万本跃升至350万本。随机抽样经AI检测工具筛查后,被判定为AI创作的图书比例同样同比攀升40%。
2025年自助出版图书数量同比增长40%(从250万本增至350万本),AI检测工具识别出的AI创作内容亦同步激增40%,表明抽样小说中近20%含有大量AI生成文本。
AI Agent本质上就是静默爬虫
文章强调了AI Agent悄无声息地爬取网站的普遍现象,并介绍了Vouched的检测系统。该系统由KYA-OS身份层驱动,通过可验证凭据和简单的提示词集成,来识别代理、机器人和人类流量。