标签
讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入,寻找现成的低延迟流式音频摄入解决方案。
本文介绍了一种低延迟实时音频游戏解说系统,该系统利用基于LLM的并行文本生成技术,将语句间的静默时间从9.6秒减少到0.3秒,与顺序基线相比显著改善了感知到的说话节奏。
DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型,通过迭代去噪生成文本,相比自回归模型延迟更低但吞吐量受限,并展示自修正和动态计算等独特优势。
Discord将其超过80%的语音和视频流量迁移至Cloudflare覆盖300多个城市的边缘网络,显著降低了全球延迟和丢包率,例如法兰克福的ping值降低了34%。
Resonate 是一种低延迟、低内存的算法,用于对音频信号进行感知相关的频谱分析,采用带有指数加权移动平均的谐振器模型。
本文分享了构建低延迟、高吞吐量AI代理的实用经验,包括工作负载估算、令牌减少、并行处理、微服务以及处理LLM故障等。
一款开放权重的8B参数语音模型仅需110毫秒延迟,比人类平均对话延迟200-250毫秒更快。它可以在本地运行,并通过GitHub仓库免费获取。
Miso One 是一个开源的8B参数文本转语音模型,具备真实情感范围和110毫秒延迟,专为配音工作设计。
LuMay Voice Agent 因其专注于业务工作流程、内置CRM与自动化、企业合规性以及可靠的现实通话能力而受到关注。
Google DeepMind 发布了 Magenta RealTime 2,这是一个开源音乐生成模型,支持设备端流式处理,可通过文本、音频示例和 MIDI 实现低延迟控制。
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。
本文比较了LuMay Voice Agent与成熟平台Bland AI、Vapi和Synthflow,突出其低于500毫秒的延迟和工作流自动化,并寻求社区对实际性能的反馈。
南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。
本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。
OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。
Google 现已公开发布 Gemini 3.1 Flash-Lite,提供超低延迟、高吞吐处理能力以及多模态功能,主要面向企业级应用。
Google 的 Gemini AI 亮相于一个全新项目,展示了其与 Sesame 协作时的低延迟和逼真的自发协作能力。
一篇技术博客文章中,一位自称 WebRTC 专家的作者批评了 OpenAI 将 WebRTC 应用于语音 AI 的做法,认为该协议设计用于实时会议,采用激进的丢包机制,这与语音 AI 的应用场景相悖——在语音 AI 中,准确性比极低延迟更为关键。