我们抓取了ChatGPT、Gemini和DeepSeek的网络流量,观察各自如何定义"来源"——三种完全不同的机制
摘要
一项技术调查抓取并比较了ChatGPT、Gemini和DeepSeek的网络流量,以理解每个系统在技术上如何定义和附加来源至回答中,揭示了三种本质不同的机制和迥异的引用偏好。
开诚布公:我是一家AI可见性公司的创始人,因此这项研究正好解决了我们自己的需求。分析前已将我们的域名从所有计数中排除。文章中不会添加任何链接。我们想回答一个简单的问题:当AI助手展示"来源"时,从技术角度那究竟是什么?于是我们在ChatGPT、Gemini和DeepSeek的web客户端打开了开发者工具,对每个系统运行同样的4个查询各10次。我们发现:**ChatGPT**通过SSE流式传输回答,并使用`url_citation`对象附加引用,其中包含`start_ix`/`end_ix`——生成文本中的字符偏移量(UTF-16代码单元,所以如果你按字节计数,emoji和CJK字符会破坏解析)。引用绑定到回答中的特定*片段*,而非整个回答。**Gemini**运行在Google的batchexecute/JSPB传输协议上——protobuf以JSON数组形式呈现,字段使用位置而非名称。在每个引用的URL旁边有一组简短的混淆字段。我们的工作假设(未经Google文档确认):`rs` ≈ 域名的可靠性评分,`ls` ≈ 最后可见日期,`GK` ≈ 字符范围(功能类似于ChatGPT的偏移量)。有趣之处不在于精确解码——而在于Gemini随每个来源附带了内部按域的信任信号。**DeepSeek**最为透明:一个简单的`search_results[]`数组附加在它将你的问题分解成的子查询后面。没有偏移量,没有隐藏字段。而它们实际引用的内容也截然不同:ChatGPT偏爱arXiv + 维基百科(有一篇arXiv论文在10/10次运行中被引用),Gemini偏爱大型SaaS/营销域名——有趣的是——在我们的运行中从未引用过任何Google资产,DeepSeek则依赖新闻稿分发线和新闻聚合器,包括其他两者从未触及的中文来源。额外发现:我们将所有这些与相同查询的Google/Bing前十结果进行了比较。URL级别重叠:3.3%(120个SERP位置中有4个匹配)。所有4个匹配均来自Bing。Google:零。注意事项:4个查询来自同一个B2B类别,每个系统N=10(±15–20 pp),单日快照,字段解码来自流量分析的假设。很乐意回答有关方法的任何问题。如果有人在他们的会话中捕获了不同的字段名,我很愿意进行比较。
相似文章
ChatGPT 用于研究
OpenAI Academy 推出 ChatGPT 用于研究,具备 Search 和 Deep Research 功能,帮助用户通过来源整合、引文生成和结构化报告制作,从问题走向有证据支持的见解。
生成式AI网络流量份额更新 主要要点:→ Claude和Gemini持续增长。→ ChatGPT接近50%的份额大关。
市场份额更新显示,ChatGPT的网络流量份额逐渐下降至50%,而Gemini和Claude持续增长。
发现一个工具,同时向GPT、Claude、Gemini和Grok提问,并给出一个共识答案
文章介绍了AllChat这个工具,它能同时查询GPT、Claude、Gemini和Grok,并返回一个共识答案,同时列出每个模型的回答概要。
ChatGPT市场份额首次跌破50%
根据Sensor Tower发布的《2026年AI行业报告》,ChatGPT的市场份额首次跌破50%,用户正越来越多地转向Google Gemini和Anthropic Claude等竞争对手。
使用ChatGPT进行研究
OpenAI Academy 推出了 ChatGPT 的两项研究功能:Search 用于实时网络信息检索,Deep Research 用于全面的多步骤分析。这些工具帮助用户比传统浏览更高效地从网络上收集、综合和引用信息。