引用 Luke Curley

Simon Willison's Blog 新闻

摘要

技术评论:Luke Curley探讨WebRTC的设计如何通过激进丢弃音频数据包来优先保障低延迟,这与LLM语音应用中提示词准确度比速度更重要的需求相矛盾。他讲述了在浏览器限制下在Discord实现重传所面临的挑战。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/09 02:28

# 来自 Luke Curley 的引用 来源:https://simonwillison.net/2026/May/9/luke-curley/ 2026年5月9日 > WebRTC 的设计初衷是在网络条件不佳时**丢弃我的提示词**。wtf 老兄,WebRTC 会激进地丢弃音频数据包以保持低延迟。如果你曾在会议通话中听到过失真的音频,那就是 WebRTC 的手笔。想法是这样的:会议通话依赖于快速的来回互动,所以暂停等待音频是不可接受的。...但作为用户,我宁愿多等 200ms 来确保我的慢速/昂贵的提示词是准确的。毕竟,我花了不少钱来"烧开海洋"(指大量计算资源),而垃圾提示词意味着垃圾回复。更何况 LLM 本身的响应速度也不怎么样。**但我不被允许等待**。这*不可能*在浏览器中重传 WebRTC 音频数据包;我们在 Discord 试过了。该*实现*被硬编码为实时延迟**否则免谈**。 —Luke Curley (https://moq.dev/blog/webrtc-is-the-problem/),OpenAI 的 WebRTC 问题,回应自《OpenAI 如何大规模提供低延迟语音 AI》(https://openai.com/index/delivering-low-latency-voice-ai-at-scale/)

相似文章

OpenAI 的 WebRTC 问题

Hacker News Top

一篇技术博客文章中,一位自称 WebRTC 专家的作者批评了 OpenAI 将 WebRTC 应用于语音 AI 的做法,认为该协议设计用于实时会议,采用激进的丢包机制,这与语音 AI 的应用场景相悖——在语音 AI 中,准确性比极低延迟更为关键。

OpenAI 如何实现大规模低延迟语音 AI 部署

OpenAI Blog

OpenAI 详细介绍了其重新架构的 WebRTC 技术栈,旨在为超过 9 亿用户提供大规模低延迟语音 AI 服务。文章阐述了全新的 split-relay 和 transceiver 架构如何优化媒体路由与连接建立,以支持 ChatGPT 语音等实时交互场景。

你的语音助手响应慢可能不是因为大语言模型。

Reddit r/AI_Agents

一位开发者驳斥了常见的观点,即LLM延迟是语音助手响应慢的主要原因,并解释说,延迟往往源于更早的阶段,如音频捕获、语音活动检测(VAD)和语音转文字(STT)。他建议记录特定的延迟指标,并测试不同的STT/TTS提供商和编排框架来诊断问题。

我们如何将Discord语音迁移到边缘

Lobsters Hottest

Discord将其超过80%的语音和视频流量迁移至Cloudflare覆盖300多个城市的边缘网络,显著降低了全球延迟和丢包率,例如法兰克福的ping值降低了34%。