latency

#latency

在生产环境中运行语音代理8个月：出过的问题、修复方法以及我使用的系统提示

Reddit r/AI_Agents ↗ · 10小时前

一位从业者分享了为一家律师事务所运行语音代理8个月的经验，详细说明了延迟、轮流发言和通话后工作流程等挑战，并提供了一个可用的系统提示。

0 人收藏 0 人点赞

#latency

代理评估延迟使CI增加了18分钟。你们是如何在不破坏开发效率的情况下运行它的？

Reddit r/AI_Agents ↗ · 2天前

讨论将全面代理评估集成到CI中的挑战，其中评估调用的延迟将构建时间从6分钟增加到24分钟，并考虑了并行化、缓存和异步评估等潜在解决方案。

0 人收藏 0 人点赞

#latency

自托管 Gemma 2 9B 与前沿 API 基准测试：NVIDIA L4 上的 FP8 量化预填充代价与显存现实 [P]

Reddit r/MachineLearning ↗ · 2天前

该基准测试将未量化的 Gemma 2 9B 模型与 FP8 量化变体在 NVIDIA L4 GPU 上进行比较，揭示了 FP8 量化引入了预填充代价（更高的 TTFT），但改善了解码延迟和显存使用，且在狭窄任务中语义漂移极小。

0 人收藏 0 人点赞

#latency

语音代理的最佳STT API？我会先测试延迟再测试准确性

Reddit r/AI_Agents ↗ · 4天前

作者认为，对于实时语音代理，STT延迟和实时行为比原始转录准确性更为关键，并提出了不同的评估记分卡。

0 人收藏 0 人点赞

#latency

针对2.4亿域名的p99 0ms*自动补全

Lobsters Hottest ↗ · 2026-06-22 缓存

本文解释了作者如何通过在keyDown时预取建议和缓存，实现了在2.4亿个域名上自动补全的p99零毫秒感知延迟，并基于Tranco和CZDS数据构建了快速API。

0 人收藏 0 人点赞

#latency

认识爱丽丝。爱丽丝没耐心

Lobsters Hottest ↗ · 2026-06-20 缓存

这篇博文解释了系统延迟和恢复时间测量中的检查悖论，说明了为什么客户经历的平均等待时间比服务指标显示的要长。文中包含一个交互式模拟，并强调了理解分布尾部的重要性。

0 人收藏 0 人点赞

#latency

@liquidai: 在上下文窗口中存储过多工具会增加延迟，并可能导致错误选择工具。在本演示中，我们……

X AI KOLs Following ↗ · 2026-06-19 缓存

Liquid AI 展示了如何使用 LFM2.5-ColBERT-350M 作为过滤器，从151个工具中仅选出最相关的五个，从而减少延迟并提高工具选择准确性。

0 人收藏 0 人点赞

#latency

负载均衡系统的惊人经济学

Hacker News Top ↗ · 2026-06-19 缓存

一篇博客文章分析了M/M/c队列模型，并表明在负载均衡系统中增加服务器数量，在恒定每服务器负载下可以改善延迟，这是云经济学中一个有益且有些违反直觉的结果。

0 人收藏 0 人点赞

#latency

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理，强烈推荐。它涵…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

本文总结了Junda Chen关于LLM分解推理的演讲，解释了为什么goodput（满足延迟SLO的吞吐量）比原始吞吐量更重要，以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。

0 人收藏 0 人点赞

#latency

你的语音助手响应慢可能不是因为大语言模型。

Reddit r/AI_Agents ↗ · 2026-06-17

一位开发者驳斥了常见的观点，即LLM延迟是语音助手响应慢的主要原因，并解释说，延迟往往源于更早的阶段，如音频捕获、语音活动检测（VAD）和语音转文字（STT）。他建议记录特定的延迟指标，并测试不同的STT/TTS提供商和编排框架来诊断问题。

0 人收藏 0 人点赞

#latency

一种针对长语音同声传译的实用评估方法

arXiv cs.CL ↗ · 2026-06-16 缓存

本文提出了一种针对长语音同声传译的实用评估方法，该方法利用自动语音识别（ASR）、强制对齐和句子嵌入对齐来计算连续语音的延迟和质量指标，克服了先前方法的局限性。

0 人收藏 0 人点赞

#latency

AI推理工程指南（阅读时间约17分钟）

TLDR AI ↗ · 2026-06-16 缓存

本指南解释了AI推理工程这一学科，涵盖了预填充和解码阶段的划分、从封闭模型到开放模型的转变，以及针对延迟、吞吐量和成本的优化技术。

0 人收藏 0 人点赞

#latency

@modal: https://x.com/modal/status/2066636221921521892

X AI KOLs Following ↗ · 2026-06-15 缓存

Modal 宣布了多项重大产品更新，包括支持真实 Linux 内核的 VM 沙箱、更低延迟的区域路由、沙箱的域名允许列表、基于角色的访问控制（RBAC）、命名镜像以及 SDK 更新。

0 人收藏 0 人点赞

#latency

@sdianahu: 1/ 快速AI推理即将重现搜索引擎的历史教训：低延迟为何如此重要

X AI KOLs Following ↗ · 2026-06-14 缓存

Dian Hu 将搜索引擎中低延迟的重要性与快速AI推理即将面临的需求进行了类比。

0 人收藏 0 人点赞

#latency

如何在低延迟的线程池上调度工作？

The Old New Thing (Raymond Chen) ↗ · 2026-06-12 缓存

本文来自《The Old New Thing》，解释了Windows线程池是为吞吐量而非延迟优化的，并提供了低延迟调度的解决方案，例如创建自定义线程池或使用专用工作线程，并附有C++和C#的代码示例。

0 人收藏 0 人点赞

#latency

@barrowjoseph: https://x.com/barrowjoseph/status/2065423284343050314

X AI KOLs Timeline ↗ · 2026-06-12 缓存

一篇博客文章重新审视了在智能检索（agentic retrieval）背景下的“慢搜索”概念，认为可以牺牲每次查询的延迟来换取更好的检索质量，从而减少AI代理的整体任务时间和成本。

0 人收藏 0 人点赞

#latency

为什么主流游戏还没有将LLM集成到NPC中？

Reddit r/LocalLLaMA ↗ · 2026-06-12

探讨主流游戏为何尚未将大语言模型集成到NPC中，质疑延迟问题或游戏工作室缺乏兴趣是否是主要障碍。

0 人收藏 0 人点赞

#latency

目前AI语音代理面临的最大问题是什么？

Reddit r/AI_Agents ↗ · 2026-06-12

讨论AI语音代理在真实客户交互中面临的主要挑战，如口音处理、延迟和集成，并邀请企业分享经验。

0 人收藏 0 人点赞

#latency

F1车队在模拟器上花费数百万——它们有何不同？

Ars Technica ↗ · 2026-06-11 缓存

F1车队投入数百万美元用于驾驶员在环模拟器，这些模拟器具有超低延迟和高保真度，能够复制真实赛车的表现，让车手能够进行训练和开发调校。

0 人收藏 0 人点赞

#latency

@Modular: .@hippocraticai 运行超 400B 参数的模型，用于实时患者对话，每天处理数万次。当他们开始进行基准测试时…

X AI KOLs Following ↗ · 2026-06-11 缓存

Hippocratic AI 与 Modular 合作，使用 MAX 框架对大型语言模型进行推理，实现了低于 500 毫秒的平均 TTFT，P99 延迟提升约 30%，大规模下的平均延迟提升约 22%（在 NVIDIA B300 GPU 上），并且可移植到 AMD。

0 人收藏 0 人点赞

latency

提交意见反馈