latency

标签

Cards List
#latency

在生产环境中运行语音代理8个月:出过的问题、修复方法以及我使用的系统提示

Reddit r/AI_Agents · 12小时前

一位从业者分享了为一家律师事务所运行语音代理8个月的经验,详细说明了延迟、轮流发言和通话后工作流程等挑战,并提供了一个可用的系统提示。

0 人收藏 0 人点赞
#latency

代理评估延迟使CI增加了18分钟。你们是如何在不破坏开发效率的情况下运行它的?

Reddit r/AI_Agents · 2天前

讨论将全面代理评估集成到CI中的挑战,其中评估调用的延迟将构建时间从6分钟增加到24分钟,并考虑了并行化、缓存和异步评估等潜在解决方案。

0 人收藏 0 人点赞
#latency

自托管 Gemma 2 9B 与前沿 API 基准测试:NVIDIA L4 上的 FP8 量化预填充代价与显存现实 [P]

Reddit r/MachineLearning · 2天前

该基准测试将未量化的 Gemma 2 9B 模型与 FP8 量化变体在 NVIDIA L4 GPU 上进行比较,揭示了 FP8 量化引入了预填充代价(更高的 TTFT),但改善了解码延迟和显存使用,且在狭窄任务中语义漂移极小。

0 人收藏 0 人点赞
#latency

语音代理的最佳STT API?我会先测试延迟再测试准确性

Reddit r/AI_Agents · 4天前

作者认为,对于实时语音代理,STT延迟和实时行为比原始转录准确性更为关键,并提出了不同的评估记分卡。

0 人收藏 0 人点赞
#latency

针对2.4亿域名的p99 0ms*自动补全

Lobsters Hottest · 2026-06-22 缓存

本文解释了作者如何通过在keyDown时预取建议和缓存,实现了在2.4亿个域名上自动补全的p99零毫秒感知延迟,并基于Tranco和CZDS数据构建了快速API。

0 人收藏 0 人点赞
#latency

认识爱丽丝。爱丽丝没耐心

Lobsters Hottest · 2026-06-20 缓存

这篇博文解释了系统延迟和恢复时间测量中的检查悖论,说明了为什么客户经历的平均等待时间比服务指标显示的要长。文中包含一个交互式模拟,并强调了理解分布尾部的重要性。

0 人收藏 0 人点赞
#latency

@liquidai: 在上下文窗口中存储过多工具会增加延迟,并可能导致错误选择工具。在本演示中,我们……

X AI KOLs Following · 2026-06-19 缓存

Liquid AI 展示了如何使用 LFM2.5-ColBERT-350M 作为过滤器,从151个工具中仅选出最相关的五个,从而减少延迟并提高工具选择准确性。

0 人收藏 0 人点赞
#latency

负载均衡系统的惊人经济学

Hacker News Top · 2026-06-19 缓存

一篇博客文章分析了M/M/c队列模型,并表明在负载均衡系统中增加服务器数量,在恒定每服务器负载下可以改善延迟,这是云经济学中一个有益且有些违反直觉的结果。

0 人收藏 0 人点赞
#latency

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理,强烈推荐。它涵…

X AI KOLs Timeline · 2026-06-18 缓存

本文总结了Junda Chen关于LLM分解推理的演讲,解释了为什么goodput(满足延迟SLO的吞吐量)比原始吞吐量更重要,以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。

0 人收藏 0 人点赞
#latency

你的语音助手响应慢可能不是因为大语言模型。

Reddit r/AI_Agents · 2026-06-17

一位开发者驳斥了常见的观点,即LLM延迟是语音助手响应慢的主要原因,并解释说,延迟往往源于更早的阶段,如音频捕获、语音活动检测(VAD)和语音转文字(STT)。他建议记录特定的延迟指标,并测试不同的STT/TTS提供商和编排框架来诊断问题。

0 人收藏 0 人点赞
#latency

一种针对长语音同声传译的实用评估方法

arXiv cs.CL · 2026-06-16 缓存

本文提出了一种针对长语音同声传译的实用评估方法,该方法利用自动语音识别(ASR)、强制对齐和句子嵌入对齐来计算连续语音的延迟和质量指标,克服了先前方法的局限性。

0 人收藏 0 人点赞
#latency

AI推理工程指南(阅读时间约17分钟)

TLDR AI · 2026-06-16 缓存

本指南解释了AI推理工程这一学科,涵盖了预填充和解码阶段的划分、从封闭模型到开放模型的转变,以及针对延迟、吞吐量和成本的优化技术。

0 人收藏 0 人点赞
#latency

@modal: https://x.com/modal/status/2066636221921521892

X AI KOLs Following · 2026-06-15 缓存

Modal 宣布了多项重大产品更新,包括支持真实 Linux 内核的 VM 沙箱、更低延迟的区域路由、沙箱的域名允许列表、基于角色的访问控制(RBAC)、命名镜像以及 SDK 更新。

0 人收藏 0 人点赞
#latency

@sdianahu: 1/ 快速AI推理即将重现搜索引擎的历史教训:低延迟为何如此重要

X AI KOLs Following · 2026-06-14 缓存

Dian Hu 将搜索引擎中低延迟的重要性与快速AI推理即将面临的需求进行了类比。

0 人收藏 0 人点赞
#latency

如何在低延迟的线程池上调度工作?

The Old New Thing (Raymond Chen) · 2026-06-12 缓存

本文来自《The Old New Thing》,解释了Windows线程池是为吞吐量而非延迟优化的,并提供了低延迟调度的解决方案,例如创建自定义线程池或使用专用工作线程,并附有C++和C#的代码示例。

0 人收藏 0 人点赞
#latency

@barrowjoseph: https://x.com/barrowjoseph/status/2065423284343050314

X AI KOLs Timeline · 2026-06-12 缓存

一篇博客文章重新审视了在智能检索(agentic retrieval)背景下的“慢搜索”概念,认为可以牺牲每次查询的延迟来换取更好的检索质量,从而减少AI代理的整体任务时间和成本。

0 人收藏 0 人点赞
#latency

为什么主流游戏还没有将LLM集成到NPC中?

Reddit r/LocalLLaMA · 2026-06-12

探讨主流游戏为何尚未将大语言模型集成到NPC中,质疑延迟问题或游戏工作室缺乏兴趣是否是主要障碍。

0 人收藏 0 人点赞
#latency

目前AI语音代理面临的最大问题是什么?

Reddit r/AI_Agents · 2026-06-12

讨论AI语音代理在真实客户交互中面临的主要挑战,如口音处理、延迟和集成,并邀请企业分享经验。

0 人收藏 0 人点赞
#latency

F1车队在模拟器上花费数百万——它们有何不同?

Ars Technica · 2026-06-11 缓存

F1车队投入数百万美元用于驾驶员在环模拟器,这些模拟器具有超低延迟和高保真度,能够复制真实赛车的表现,让车手能够进行训练和开发调校。

0 人收藏 0 人点赞
#latency

@Modular: .@hippocraticai 运行超 400B 参数的模型,用于实时患者对话,每天处理数万次。当他们开始进行基准测试时…

X AI KOLs Following · 2026-06-11 缓存

Hippocratic AI 与 Modular 合作,使用 MAX 框架对大型语言模型进行推理,实现了低于 500 毫秒的平均 TTFT,P99 延迟提升约 30%,大规模下的平均延迟提升约 22%(在 NVIDIA B300 GPU 上),并且可移植到 AMD。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈