@sdianahu: 1/ 快速AI推理即将重现搜索引擎的历史教训:低延迟为何如此重要
摘要
Dian Hu 将搜索引擎中低延迟的重要性与快速AI推理即将面临的需求进行了类比。
查看缓存全文
缓存时间: 2026/06/16 11:42
1/ 快速 AI 推理即将重演搜索引擎的历史教训——低延迟为何如此重要
2/ 2009 年,谷歌做了一项实验:将搜索结果延迟 400ms,结果每位用户的搜索次数下降了 0.59%,即便取消延迟后,这种负面影响仍持续了数周。
必应也出现了类似情况:2 秒的延迟导致每位用户的查询量减少 1.8%,收入下降 4.3%。
亚马逊发现,每 100ms 延迟大约会带来 1% 的销售额损失。
3/ 现在来看首 token 生成时间 (TTFT): 推理模型约 4 秒! 前沿实验室在 820ms–1.2s 之间! Cerebras 约 120–160ms,Groq 约 150ms。
这些问题无法仅靠巧妙的软件修补来解决;这是你在几年前就得在芯片层面做出的决策。
4/(顺便提一句 理论上的延迟极限取决于物理定律。
光纤中的光速约为真空光速的 2/3。 纽约到伦敦之间,任何计算开始之前已经至少需要约 56ms。)
5/ 搜索引擎可以通过把索引复制/缓存到所有地方来隐藏计算开销。AI 推理更难缓存,所以可选方案有:在边缘复制模型、在设备上运行、或者使用定制芯片。
6/ 然而,搜索的类比在此并不完全适用——质量仍然是决定性因素。 目前,各大实验室几乎完全在质量上竞争,用户愿意忍受缓慢,因为答案值得等待(“深思熟虑”本身就像是一种智能)。
7/ 但开源模型差距并不大。 未来我们会看到一系列质量基本相当的模型集群。
一旦答案变得可互换,唯一能竞争的维度就只剩下速度了。
也许要依靠定制硬件。
https://services.google.com/fh/files/blogs/google_delayexp.pdf…
https://niels-ole.com/amazon/performance/2018/10/27/100ms-latency-1percent-revenue.html…
https://cambridge.org/core/books/abs/trustworthy-online-controlled-experiments/speed-matters/35D34F276D4AF1AEE4B98D3E09B9E168…
嘿 @sdianahu —— 刚看到这个 —— 正在建立一些直觉上的东西 稍后回复!
相似文章
AI推理遵循着截然不同的规则(9分钟阅读)
文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。
@barrowjoseph: https://x.com/barrowjoseph/status/2065423284343050314
一篇博客文章重新审视了在智能检索(agentic retrieval)背景下的“慢搜索”概念,认为可以牺牲每次查询的延迟来换取更好的检索质量,从而减少AI代理的整体任务时间和成本。
推理的变革(阅读时长约 8 分钟)
本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。
@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…
一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。
@Tesla: 毫秒至关重要
特斯拉强调了毫秒级延迟的关键重要性,这可能是在自动驾驶或实时 AI 推理的背景下。