latency

标签

Cards List
#latency

@GergelyOrosz: Coinbase 10小时宕机的事后分析报告出来了…… 天哪 他们因延迟原因将全球交易运行在单一区域,没…

X AI KOLs Following · 2026-06-11 缓存

Coinbase 10小时宕机的事后分析报告显示,他们因延迟原因在全球交易中仅运行单一区域,且无自动故障转移机制,引发对其基础设施可靠性的担忧。

0 人收藏 0 人点赞
#latency

分解推理中的无政府代价

Hugging Face Daily Papers · 2026-06-11 缓存

本文对分解推理架构进行了博弈论分析,该架构将预填充和解码阶段分离到不同的 GPU 池中,揭示了 GPU 饱和如何影响性能。作者提出了一种自适应控制器,可实时检测饱和状态转换并调整路由参数,在 NVIDIA B200 集群的实验中将无政府代价显著降低。

0 人收藏 0 人点赞
#latency

Linux延迟测量与合成器调优

Lobsters Hottest · 2026-06-10 缓存

一项详细调查,使用基于Teensy的LDAT工具测量游戏中的Linux延迟,在KDE Wayland下的Nvidia GPU上使用各种设置测量点击到光子延迟,并与Windows进行比较。

0 人收藏 0 人点赞
#latency

@LangChain:如何在支持对高达数百MB的代理轨迹进行全文搜索JSON过滤的同时,保持中位数(P50)延迟为400ms?

X AI KOLs Following · 2026-06-10 缓存

LangChain工程师详细介绍了他们如何为SmithDB从头构建自定义倒排索引,以支持对存储在对象存储中的大容量代理轨迹进行全文搜索和JSON过滤,尽管负载巨大,仍实现了400ms的中位延迟。

0 人收藏 0 人点赞
#latency

@gpusteve:你正在面试Anthropic的机器学习性能岗位,他们问:“你在8块GPU上运行一个70B参数的Transformer模型…”

X AI KOLs Timeline · 2026-06-08 缓存

一条推文解释了一个在Anthropic机器学习性能面试题中的正确答案:在8块GPU上运行70B参数的Transformer模型时,按列分割张量并行线性层与按行分割的延迟权衡,并强调尽管每块GPU的权重相等,但性能并不相似。

0 人收藏 0 人点赞
#latency

在构建 AI 辅导系统时,延迟比模型选择更重要

Reddit r/AI_Agents · 2026-06-04

一位从业者认为,在 AI 辅导系统中,语音启动延迟才是关键因素,而非模型的选择。他建议将语音启动延迟控制在 1 秒以内,并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路,并指出延迟叠加最严重的环节。

0 人收藏 0 人点赞
#latency

我花了两个月为AI语音智能体构建可观测性,因为调试它们快把我逼疯了

Reddit r/AI_Agents · 2026-05-29

开发者构建了VoiceOBS,一款AI语音智能体的可观测性工具,提供延迟分解、情感分析、幻觉检测等功能,并与Vapi集成。

0 人收藏 0 人点赞
#latency

键盘延迟探测

Lobsters Hottest · 2026-05-27 缓存

一个通过反应时间和敲击时长测试来测量键盘延迟的网页,允许用户提交结果进行比较。

0 人收藏 0 人点赞
#latency

我们的语音代理p99为280ms,竞争对手为450ms,但用户却觉得我们的更慢。我们测量了原因。

Reddit r/AI_Agents · 2026-05-26

一个语音代理团队发现,尽管端到端延迟更低(280ms对比竞争对手的450ms),但由于糟糕的打断响应时间(380ms对比60ms),用户感知更慢。他们确定了三项修复措施——内存锁定、VAD阈值调整和更小的TTS块——将100ms阈值下的打断率从41%提升至89%,让用户感觉更快。

0 人收藏 0 人点赞
#latency

当我最终对智能体的工具调用进行监控时,成本分解让我感到惊讶。几点经验教训。

Reddit r/AI_Agents · 2026-05-25

作者分享了监控AI智能体工具调用的经验教训,揭示了像web_search这样的工具可能占支出的约50%,并强调了追踪p95延迟以及按工作流或客户归因成本的重要性,以避免意外。

0 人收藏 0 人点赞
#latency

Latent Cache Flow:无需文本的模型间通信

arXiv cs.LG · 2026-05-25 缓存

本文介绍了 Latent Cache Flow(LCF),一种通过交换压缩后的KV缓存而非文本来实现高效模型间通信的方法,从而减少了适配器大小并实现了跨上下文通信。

0 人收藏 0 人点赞
#latency

2026年你当前/最佳AI语音代理技术栈是什么?

Reddit r/AI_Agents · 2026-05-24

一个社区讨论,询问大家在实际生产环境中使用哪些AI语音代理,重点关注延迟、打断处理和可靠性,并提到了LuMay Voice Agent、Vapi、Retell和Twilio。

0 人收藏 0 人点赞
#latency

在CPU函数调用上对Needle 26M和Qwen3-0.6B进行基准测试,50个查询覆盖5个难度等级。体积小23倍的模型在准确率上胜出,速度也快4.4倍。

Reddit r/LocalLLaMA · 2026-05-23

一项在CPU函数调用上比较Needle 26M和Qwen3-0.6B的基准测试显示,较小的Needle模型在准确率和速度上胜出,但失败模式截然不同:Needle选择错误的工具,而Qwen3则经常无法发出工具调用。

0 人收藏 0 人点赞
#latency

@rohanpaul_ai: "并非所有令牌都生而平等,有一种方法可以看待令牌的价值。有两个关键因素影响令牌价值…"

X AI KOLs Following · 2026-05-21 缓存

讨论了人工智能中的令牌经济,强调令牌的价值取决于智能和速度,并且优化令牌经济应从客户用例开始。

0 人收藏 0 人点赞
#latency

为什么80%的智能体AI演示无法投入生产

Reddit r/AI_Agents · 2026-05-18

本文解释了为什么80%的智能体AI演示因幻觉、工具使用错误累积、边缘情况、成本、延迟和可观测性问题而无法进入生产环境。文章强调了成功的关键:窄范围、可验证输出、人工检查点、真实可观测性、基于置信度的门控以及简单架构。

0 人收藏 0 人点赞
#latency

逐步思考让准确率提升3%,但成本翻倍

Reddit r/AI_Agents · 2026-05-18

一位开发者测试在客户支持AI助手中加入'逐步思考'提示,获得了3%的准确率提升,但延迟增加了40%,成本翻倍。结论是净效果为负面,并强调了衡量生产环境权衡的重要性。

0 人收藏 0 人点赞
#latency

为服务型企业运行生产级语音代理6个月:延迟计算远比演示所暗示的复杂。

Reddit r/ArtificialInteligence · 2026-05-15

在为服务型企业运行语音AI代理6个月后,作者揭示了现实世界中的延迟是双峰的(中位数约800ms,p95约2.4s),而p95决定了用户的感知。诸如VAD误触发、长提示词下函数调用退化、以及TTS质量等问题比LLM的选择更重要,而多语言支持则增加了显著的成本。

0 人收藏 0 人点赞
#latency

被Vapi坑后,我自建了语音AI平台。撰写了我寻找平台过程中学到的所有经验。

Reddit r/AI_Agents · 2026-05-14

作者分享因不满Vapi而自建语音AI平台的经验教训,揭示了隐藏成本、实际延迟问题和白标的缺陷,并为评估平台的代理机构业主提供免费指南。

0 人收藏 0 人点赞
#latency

@Tesla: 毫秒至关重要

X AI KOLs Following · 2026-05-09

特斯拉强调了毫秒级延迟的关键重要性,这可能是在自动驾驶或实时 AI 推理的背景下。

0 人收藏 0 人点赞
#latency

引用 Luke Curley

Simon Willison's Blog · 2026-05-09 缓存

技术评论:Luke Curley探讨WebRTC的设计如何通过激进丢弃音频数据包来优先保障低延迟,这与LLM语音应用中提示词准确度比速度更重要的需求相矛盾。他讲述了在浏览器限制下在Discord实现重传所面临的挑战。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈