标签
一位从业者分享了为一家律师事务所运行语音代理8个月的经验,详细说明了延迟、轮流发言和通话后工作流程等挑战,并提供了一个可用的系统提示。
讨论将全面代理评估集成到CI中的挑战,其中评估调用的延迟将构建时间从6分钟增加到24分钟,并考虑了并行化、缓存和异步评估等潜在解决方案。
该基准测试将未量化的 Gemma 2 9B 模型与 FP8 量化变体在 NVIDIA L4 GPU 上进行比较,揭示了 FP8 量化引入了预填充代价(更高的 TTFT),但改善了解码延迟和显存使用,且在狭窄任务中语义漂移极小。
作者认为,对于实时语音代理,STT延迟和实时行为比原始转录准确性更为关键,并提出了不同的评估记分卡。
本文解释了作者如何通过在keyDown时预取建议和缓存,实现了在2.4亿个域名上自动补全的p99零毫秒感知延迟,并基于Tranco和CZDS数据构建了快速API。
这篇博文解释了系统延迟和恢复时间测量中的检查悖论,说明了为什么客户经历的平均等待时间比服务指标显示的要长。文中包含一个交互式模拟,并强调了理解分布尾部的重要性。
Liquid AI 展示了如何使用 LFM2.5-ColBERT-350M 作为过滤器,从151个工具中仅选出最相关的五个,从而减少延迟并提高工具选择准确性。
一篇博客文章分析了M/M/c队列模型,并表明在负载均衡系统中增加服务器数量,在恒定每服务器负载下可以改善延迟,这是云经济学中一个有益且有些违反直觉的结果。
本文总结了Junda Chen关于LLM分解推理的演讲,解释了为什么goodput(满足延迟SLO的吞吐量)比原始吞吐量更重要,以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。
一位开发者驳斥了常见的观点,即LLM延迟是语音助手响应慢的主要原因,并解释说,延迟往往源于更早的阶段,如音频捕获、语音活动检测(VAD)和语音转文字(STT)。他建议记录特定的延迟指标,并测试不同的STT/TTS提供商和编排框架来诊断问题。
本文提出了一种针对长语音同声传译的实用评估方法,该方法利用自动语音识别(ASR)、强制对齐和句子嵌入对齐来计算连续语音的延迟和质量指标,克服了先前方法的局限性。
本指南解释了AI推理工程这一学科,涵盖了预填充和解码阶段的划分、从封闭模型到开放模型的转变,以及针对延迟、吞吐量和成本的优化技术。
Modal 宣布了多项重大产品更新,包括支持真实 Linux 内核的 VM 沙箱、更低延迟的区域路由、沙箱的域名允许列表、基于角色的访问控制(RBAC)、命名镜像以及 SDK 更新。
Dian Hu 将搜索引擎中低延迟的重要性与快速AI推理即将面临的需求进行了类比。
本文来自《The Old New Thing》,解释了Windows线程池是为吞吐量而非延迟优化的,并提供了低延迟调度的解决方案,例如创建自定义线程池或使用专用工作线程,并附有C++和C#的代码示例。
一篇博客文章重新审视了在智能检索(agentic retrieval)背景下的“慢搜索”概念,认为可以牺牲每次查询的延迟来换取更好的检索质量,从而减少AI代理的整体任务时间和成本。
F1车队投入数百万美元用于驾驶员在环模拟器,这些模拟器具有超低延迟和高保真度,能够复制真实赛车的表现,让车手能够进行训练和开发调校。
Hippocratic AI 与 Modular 合作,使用 MAX 框架对大型语言模型进行推理,实现了低于 500 毫秒的平均 TTFT,P99 延迟提升约 30%,大规模下的平均延迟提升约 22%(在 NVIDIA B300 GPU 上),并且可移植到 AMD。