@sdianahu: 1/ 快速AI推理即将重现搜索引擎的历史教训：低延迟为何如此重要

X AI KOLs Following 2026/06/14 23:48 新闻

ai-inference latency search-engines historical-comparison performance

摘要

Dian Hu 将搜索引擎中低延迟的重要性与快速AI推理即将面临的需求进行了类比。

1/ 快速AI推理即将重现搜索引擎的历史教训：低延迟为何如此重要

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:42

1/ 快速 AI 推理即将重演搜索引擎的历史教训——低延迟为何如此重要

2/ 2009 年，谷歌做了一项实验：将搜索结果延迟 400ms，结果每位用户的搜索次数下降了 0.59%，即便取消延迟后，这种负面影响仍持续了数周。

必应也出现了类似情况：2 秒的延迟导致每位用户的查询量减少 1.8%，收入下降 4.3%。

亚马逊发现，每 100ms 延迟大约会带来 1% 的销售额损失。

3/ 现在来看首 token 生成时间 (TTFT)：推理模型约 4 秒！前沿实验室在 820ms–1.2s 之间！ Cerebras 约 120–160ms，Groq 约 150ms。

这些问题无法仅靠巧妙的软件修补来解决；这是你在几年前就得在芯片层面做出的决策。

4/（顺便提一句理论上的延迟极限取决于物理定律。

光纤中的光速约为真空光速的 2/3。纽约到伦敦之间，任何计算开始之前已经至少需要约 56ms。）

5/ 搜索引擎可以通过把索引复制/缓存到所有地方来隐藏计算开销。AI 推理更难缓存，所以可选方案有：在边缘复制模型、在设备上运行、或者使用定制芯片。

6/ 然而，搜索的类比在此并不完全适用——质量仍然是决定性因素。目前，各大实验室几乎完全在质量上竞争，用户愿意忍受缓慢，因为答案值得等待（“深思熟虑”本身就像是一种智能）。

7/ 但开源模型差距并不大。未来我们会看到一系列质量基本相当的模型集群。

一旦答案变得可互换，唯一能竞争的维度就只剩下速度了。

也许要依靠定制硬件。

https://services.google.com/fh/files/blogs/google_delayexp.pdf…

https://niels-ole.com/amazon/performance/2018/10/27/100ms-latency-1percent-revenue.html…

https://cambridge.org/core/books/abs/trustworthy-online-controlled-experiments/speed-matters/35D34F276D4AF1AEE4B98D3E09B9E168…

嘿 @sdianahu —— 刚看到这个 —— 正在建立一些直觉上的东西稍后回复！

相似文章

TLDR AI

文章指出AI推理对云数据基础设施提出了独特挑战，其需求更接近高并发OLTP系统，而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层，以应对自主智能体驱动的"AI数据海啸"。

X AI KOLs Timeline

一篇博客文章重新审视了在智能检索（agentic retrieval）背景下的“慢搜索”概念，认为可以牺牲每次查询的延迟来换取更好的检索质量，从而减少AI代理的整体任务时间和成本。

TLDR AI

本文分析了 Cerebras 即将进行的 IPO，将其视为 AI 硬件领域“推理变革”的信号。文章指出，尽管 Nvidia 在基于 GPU 的训练领域占据主导地位，但为了支持推理工作负载，AI 算力的未来正变得越来越异构。

X AI KOLs Timeline

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术，比典型ML课程提供更多现实世界的洞察。

X AI KOLs Following

特斯拉强调了毫秒级延迟的关键重要性，这可能是在自动驾驶或实时 AI 推理的背景下。