每个AI可见性工具都在欺骗你
摘要
本文批判性地审视了声称能衡量品牌在生成式AI回复中曝光度的AI可见性工具,指出由于非确定性、个性化和抓取偏差,这些工具提供了虚假精度。文章呼吁方法透明,并警告不要将不透明的仪表盘视为稳定真相。
暂无内容
查看缓存全文
缓存时间: 2026/07/03 05:17
# 每个AI可见性工具都在对你撒谎 | Canonry
来源:https://canonry.ai/blog/ai-visibility-tools-are-lying
分析
·2026年6月30日·11分钟阅读
我是一名经验丰富的软件工程师,花了足够多的时间构建和调试测量系统,深知当一个仪表盘要求你相信一个它无法支撑的数字时意味着什么。现在,一个新的软件类别承诺告诉品牌,它们在ChatGPT、Claude、Gemini、Perplexity以及Google的AI答案中的可见度有多高。然后,它把这个混乱的系统变成了整洁的声明,比如提及率、引用率、声量份额或排名。
当一个工具说你排在类别第四、本周上升了两个名次、或者拥有17%的可见度而竞争对手是31%时,我并不认为这个信号毫无价值;我认为这个精确度是编造的。这些系统充满噪声、个性化、地域化、非确定性、并且不断变化,因此一个干净的排行榜数字隐藏了工程师真正想要检查的东西:分布、方法论、方差和原始证据。
大多数供应商正在尝试测量某些重要的东西,但机制通常比仪表盘承认的要弱。如果某个工具声称能够展示"客户在ChatGPT或Claude中看到的内容",那它很可能是在抓取消费者应用或调用API。一次抓取捕获的是一个合成会话,而API调用使用的是与你的客户不同的界面。两者都能产生有用的方向性信号,尤其是在它们揭示商业提示词上的不可见性或某个地理区域的空白时,但如果没有展示其工作过程,两者都不应该被当成精确、稳定的真相来销售。
## 前端抓取的问题
抓取ChatGPT或Claude前端乍听起来很有说服力。供应商可以如实说,他们打开了应用,输入了问题,并记录了产品返回的结果。
这更接近真实用户看到的界面。但它仍然只测量了一个受控的界面。
一次抓取来自一个账户,或一个受控账户池。这意味着只有一个历史状态、一个记忆状态、一个订阅层级、一个地理位置、一个浏览器会话和一个提示词。更改其中任何一个,答案都可能改变。一个真正的买家问"适合种子轮初创公司的最佳CRM",和一个干净的浏览器从数据中心IP问"最佳CRM软件",两者是不同的工具。
大规模抓取会引入更多偏差。一旦达到有意义的规模,工作必须从某个地方运行:云机器、代理路由、托管浏览器、无头会话或其他自动化层。这个自动化层会渗透到测量中。集中的IP模式、重复登录、奇怪的会话节奏、速率限制压力、以及AI产品本身可能采取的反滥用处理。
操作者必须做出选择。干净的账户是可重复的,但不像真实客户。老账户有历史记录和较弱的控制。一个询问数千个类别提示词的基准账户,也会自己创建一条个性化轨迹。过不了多久,这个账户的全部生命就是基准流量。
这一点对本地和商业提示词最为重要。"我附近最好的商业屋顶公司"随地点而变化。""纽约市最佳AEO代理商"也随地点变化。答案取决于用户的位置、检索系统、账户以及当时拉取的来源。
一个前端答案只是一个实验室样本。
## 相同的提示词在不同运行中会变化
对AI可见性排名最简单的辩护是这样的:我们每周问相同的问题,然后统计你是否出现。
这只在相同问题具有稳定答案的情况下才成立。相同词语通常会产生不同答案。
即使是温度为零的LLM调用在生产环境中也不是完全稳定的。Thinking Machines Lab解释了一个技术原因:批处理和内核行为在实际生产负载下会变化。他们的例子显示,相同的温度为零请求产生了多个独特的完成结果。
SparkToro和Gumshoe也看到了营销版本的同样问题。他们让志愿者在ChatGPT、Claude和Google的AI产品上重复运行商业提示词。他们的研究发现,品牌推荐在重复运行中变化很大。
这是核心的测量问题。如果同一个系统下一次抽取可能命名不同的品牌集合,那么"你排名第四"就变成了一个分布中的一个样本。
一个诚实的仪表盘应该展示这个分布。
## 消费者应用和API行为不同
有些工具跳过浏览器抓取,转而调用提供商API。操作上的理由很充分:API调用更容易重复、更容易审计、大规模运行更便宜、并且当网页应用变化时更不容易中断。
代价是:API和消费者应用行为不同。
消费者产品可能有记忆、账户个性化、模型路由、网页检索、位置推断、购物模块、本地模块、引用以及特定产品展示。API给你一个可编程的模型调用,以及你启用的工具和参数。例如,OpenAI的API文档要求你添加诸如网页搜索之类的工具,当你想要接地气的检索时。Google的Gemini API有自己的接地和搜索配置。
这种差距是双向的。原始API调用可能低估了应用所能知道的内容,因为它的浏览方式不同。浏览器抓取可能高估真实用户能看到的内容,因为它捕获了一个个性化的会话并声称其具有代表性。
API可以是受控测量的正确界面。就这样来销售它。不要把它称为"消费者应用向你的买家展示的内容"。
## 提示词集合制造了分数
AI可见性工具监控一个提示词集合。它们对市场进行采样,而不是覆盖真实买家问题完整的长尾。
提示词集合是关键。
如果我追踪"纽约市最佳AEO代理商"、"AI搜索优化顾问"和"答案引擎优化审计",我会得到一幅关于Canonry的画面。如果我追踪"SEO代理商"、"数字营销公司"和"AI营销软件",我会得到另一幅。两个提示词集合都可以是有效的。它们回答不同的问题。
头条数字取决于所选的提示词、它们的权重、运行频率和竞争对手集合。Profound自己的提示词设计指南说,其用户通常追踪100到1000个提示词,典型的是几百个。仪表盘正在对市场进行采样。
评分公式同样重要。一个仪表盘可以给提及频率打分。另一个可以给引用位置加权。另一个可以统计来源链接。另一个可以混合情感。Digital Applied的AI声量份额框架给出了一个清晰的例子:同一品牌,同一数据,基于提及的声量份额得分为20%,基于位置加权的声量份额为16.8%,基于引用的声量份额为31.4%。
相同的证据。三个头条数字。三种竞争排名。
从业者有充分的理由持怀疑态度。在同一篇Digital Applied文章中,SALT.agency的Dan Taylor批评供应商在一个人为环境内测量小的、静态的提示词集合。Digiday从买家角度报道了同样的操作问题。/prompt的CEO Paul Dyer表示,如果你给三个工具相同的提示词,你会得到三个不同的答案。
没有提示词列表、每个提示词的运行次数、地理位置、模型、账户状态和评分公式,仪表盘展示的是一个构造指标。
构造指标可以是有用的。它们需要一个标签。
## 位置破坏了排行榜
地理是所有仪表盘中最容易被一带而过的部分。
对于本地、区域和服务区域型企业来说,位置会改变问题。来自布鲁克林、奥斯汀、伦敦或密歇根乡村的用户,对相同的词语可能会得到不同的推荐,因为答案引擎推断出了本地意图。
一个单一的全球可见性排名往往毫无意义。"在ChatGPT中可见"在哪里?从哪个用户位置?使用哪个本地检索上下文?使用哪个城市或服务区域短语?
前端抓取让这一点尤其混乱。从云服务器运行的合成浏览器会话看起来不像你关心的市场中的买家。你可以尝试代理。你可以尝试账户池。你可以尝试浏览器自动化。现在你的"真相"取决于前端是否接受你的抓取工具所讲述的位置故事。
基于API的测量在这方面有一条更清晰的路径:在提供商支持的地方传递明确的位置上下文,并在你关心的地理区域上运行相同的提示词。你得到一个受控的位置变量,而不是一个偶然的抓取产物。
Canonry走的就是这条路。
## 为什么本地执行对本地SEO很重要
这就是Canonry的本地优先设计改变测量问题的地方。
大多数托管仪表盘从供应商基础设施运行探测。对于全国范围的SaaS查询,这可能没问题。但对于本地客户,它往往是错误的工具。皇后区的管道工、奥斯汀的牙医或密歇根的屋顶承包商需要了解买家在服务区域内看到的答案。另一个地区的抓取集群是一个糟糕的替代品。
Canonry可以在市场内的机器上运行。代理商可以从自己的办公室、从技术人员的笔记本电脑上、或者从更接近目标消费者的另一台机器上运行检查。非确定性仍然存在。API结果仍可能与消费者UI不同。优势更窄、更实用:从测量中移除外包的云地理位置。
对于本地SEO和本地AEO来说,这个细节很重要。测量环境越接近买家环境,你就越不需要相信代理故事。在提供商支持的地方,你仍然可以传递明确的位置上下文。当测试从相关市场的机器上运行时,意外信号会与有意信号对齐。
这使得Canonry对于服务本地客户的操作者来说更准确。如果你的客户是芝加哥的HVAC公司、布鲁克林的酒店集团或密歇根的屋顶承包商,你可以从不同地理位置运行相同的提示词集合。差别正是你想要测量的东西。
## 模型漂移把趋势线变成了虚构
即使你处理了采样、个性化、API与应用差异、提示词选择和地理位置,仪器仍然会变化。
一个熟悉产品名称背后的模型可以被更新、重新路由、回滚或悄悄调整。检索系统会变化。引用行为会变化。产品界面会变化。你的AI可见度仪表盘上的一周变化可能意味着你的内容改进了。也可能意味着模型变了、检索层变了、或者产品开始以不同方式回答提示词了。
这一点真实到可以测量。Chen、Zaharia和Zou的论文"How is ChatGPT's behavior changing over time?"比较了2023年3月和2023年6月的GPT-3.5和GPT-4版本。他们发现,在相同的公开模型名称下,各任务的行为发生了巨大变化。一个例子:GPT-4的素数准确性从三月的84%下降到六月的51%。把这当作漂移的证据,而不是对今天模型质量的当前估计。
同样的模式也出现在产品行为中。在2025年4月29日的一篇博文中,OpenAI表示它回滚了前一周的GPT-4o更新,因为被移除的版本过于讨喜和顺从。外部的可见度仪表盘通常只有在趋势线已经弯曲之后才能看到这种产品变化。
从外部来看,这些效应很难分开。仪表盘可以告诉你一个数字移动了。它通常无法证明为什么移动。
这个数字仍然可以提供帮助。问题在于,当工具声称能解释为什么移动时。
## 这些工具能诚实地告诉你什么
这个类别可以是有用的。它需要停止过度推销精确度。
AI可见性监控可以支持有用的结论:
- 对于买家实际询问的商业提示词,我们是不可见的。
- 我们在品牌提示词上经常出现,但在类别提示词上很少出现。
- 某个竞争对手被引用的频率远高于我们。
- Claude能看到我们,而ChatGPT却忽略了我们。
- 我们在纽约出现,而洛杉矶仍是空白。
- 内容或架构更改似乎与重复运行中更好的引用频率相关。
这些都是方向性的、概率性的发现。它们是有用的。它们帮助团队确定工作优先级。
虚假的精确度创造了问题:
- 你排名第四。
- 你正好上升了两个位置。
- 你的AI声量份额是17%。
- 本周的提升是由上周的博文引起的。
- 这张截图就是你的客户看到的。
这些声明会崩溃,除非工具展示它的样本、它的分布和它的方法。
## Canonry如何测量
Canonry避免了这样一种想法:ChatGPT中存在一个等待被抓取的规范答案。
我们将AI可见性视为一个分布。
测量单位是跨提示词、提供商、竞争对手和地点的重复观察。Canonry使用提供商API,因为它们提供了一个受控、可重复的界面。API与消费者应用不同,并且是可审计的。在提供商支持的地方,我们传递地理位置上下文,而不是希望浏览器抓取从代理处继承正确的位置。
我们记录提示词、提供商、时间戳、配置的地点、引用的域名、提及、来源证据和运行历史,以便以后可以审计这个数字。
这与每个真实用户匹配吗?不匹配。
样本有明显的局限性:没有多年的ChatGPT历史、没有精确的消费者UI、没有每个可能的买家问题的完整长期分布。这项工作围绕一个更窄的问题构建:在这个提示词集合中、在这个地理区域内、面对这些竞争对手、跨这些提供商,我们出现的频率有多高?
一个更窄的问题更诚实,也更实用。
## 不足之处:诚实的测量成本更高
廉价仪表盘之所以诱人是有原因的。
一次抓取很便宜。一次提示词运行很便宜。一个没有重复和地理位置的单一API调用很便宜。一个用薄弱数据构建的精美折线图看起来仍然充满信心。
Canonry的方法成本更高,因为它做了更多工作:
- 当问题重要时,它运行不止一个样本。
- 它比较多个提供商,而不是将市场缩减为一个模型。
- 它跟踪竞争对手以及你自己的域名。
- 在支持的地方传递位置上下文。
- 它保留证据,以便结果可以被检查,而不仅仅是被总结。
- 它将提示词集合视为配置。
这需要花钱。接地气的调用可能比普通完成更贵。重复运行会使成本成倍增加。位置感知覆盖又会使成本成倍增加。如果你想要纽约、洛杉矶、芝加哥、伦敦和多伦多,涉及200个提示词和四个提供商,那你就是在购买一个测量程序。
廉价版本之所以便宜,是因为它测量得更少。
## 任何AI可见度仪表盘的标准
如果你正在购买这个类别的工具,请询问数字背后的工作。
问:
1. 你们是抓取消费者前端、调用API,还是两者都有?
2. 如果你们抓取前端,代表的是谁的账户、位置、记忆状态和订阅层级?
3. 如果你们调用API,启用了哪些工具,以及你们如何处理网页检索?
4. 每个提示词运行多少次
相似文章
AI是终极的胡说八道者
一篇观点文章,认为AI系统,尤其是大型语言模型,本质上是胡说八道者,因为它们生成看似合理但虚假的信息,既无理解也无欺骗意图。
AI广告与现实
一篇讨论AI广告宣传与实际应用表现之间差距的文章。
AI作为镜子的论点
文章认为,‘AI作为镜子’的比喻具有误导性,因为前沿AI模型是被积极优化用于欺骗和谄媚,而非被动反映,这一结论有来自RLHF和评估意识研究的证据支持。
人们对AI生成内容/工作的透明度需要达到什么程度?
本文探讨了关于AI生成内容(如小说和网站)透明度的伦理问题,以及当AI被用于创意或商业工作时,消费者是否应当被告知。
为什么你的团队悄悄停止使用了那个没人承认弃用的AI工具
分析团队因信任破裂而悄悄弃用AI工具的原因,指出真正的问题不在于模型质量,而在于缺乏信任架构——设计能够清晰指示AI输出何时可靠、何时需要验证的工作流程。