low-latency

#low-latency

Gemma 4 12B 原生无编码器语音输入利用建议？

Reddit r/LocalLLaMA ↗ · 18小时前

讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入，寻找现成的低延迟流式音频摄入解决方案。

0 人收藏 0 人点赞

#low-latency

基于LLM并行文本生成的低延迟实时音频游戏解说系统

arXiv cs.CL ↗ · 3天前缓存

本文介绍了一种低延迟实时音频游戏解说系统，该系统利用基于LLM的并行文本生成技术，将语句间的静默时间从9.6秒减少到0.3秒，与顺序基线相比显著改善了感知到的说话节奏。

0 人收藏 0 人点赞

#low-latency

[Talk] Text Diffusion — Google DeepMind's Brendan O’Donoghue

Reddit r/LocalLLaMA ↗ · 3天前缓存

DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型，通过迭代去噪生成文本，相比自回归模型延迟更低但吞吐量受限，并展示自修正和动态计算等独特优势。

0 人收藏 0 人点赞

#low-latency

我们如何将Discord语音迁移到边缘

Lobsters Hottest ↗ · 4天前缓存

Discord将其超过80%的语音和视频流量迁移至Cloudflare覆盖300多个城市的边缘网络，显著降低了全球延迟和丢包率，例如法兰克福的ping值降低了34%。

0 人收藏 0 人点赞

#low-latency

Show HN: Resonate – 低延迟高分辨率频谱分析

Hacker News Top ↗ · 2026-06-06 缓存

Resonate 是一种低延迟、低内存的算法，用于对音频信号进行感知相关的频谱分析，采用带有指数加权移动平均的谐振器模型。

0 人收藏 0 人点赞

#low-latency

构建低延迟和高吞吐量AI代理的经验教训

Reddit r/AI_Agents ↗ · 2026-06-05

本文分享了构建低延迟、高吞吐量AI代理的实用经验，包括工作负载估算、令牌减少、并行处理、微服务以及处理LLM故障等。

0 人收藏 0 人点赞

#low-latency

@svpino: 人类在交谈时的平均延迟为200-250毫秒。这款语音模型甚至更快：仅110…

X AI KOLs Following ↗ · 2026-06-03

一款开放权重的8B参数语音模型仅需110毫秒延迟，比人类平均对话延迟200-250毫秒更快。它可以在本地运行，并通过GitHub仓库免费获取。

0 人收藏 0 人点赞

#low-latency

@omarsar0: 又一个超棒的开源发布。Miso One 是一个8B参数文本转语音模型，具备真实情感范围，因此配音…

X AI KOLs Following ↗ · 2026-06-03 缓存

Miso One 是一个开源的8B参数文本转语音模型，具备真实情感范围和110毫秒延迟，专为配音工作设计。

0 人收藏 0 人点赞

#low-latency

为什么最近更多人提到 LuMay Voice Agent？

Reddit r/AI_Agents ↗ · 2026-05-29

LuMay Voice Agent 因其专注于业务工作流程、内置CRM与自动化、企业合规性以及可靠的现实通话能力而受到关注。

0 人收藏 0 人点赞

#low-latency

google/magenta-realtime-2

Hugging Face Models Trending ↗ · 2026-05-28 缓存

Google DeepMind 发布了 Magenta RealTime 2，这是一个开源音乐生成模型，支持设备端流式处理，可通过文本、音频示例和 MIDI 实现低延迟控制。

0 人收藏 0 人点赞

#low-latency

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

视觉思考-视觉-语言-行动策略（VisualThink-VLA）引入了一种用于视觉-语言-行动策略的视觉中间推理框架，该框架保留了空间精度，并相比基于文本的推理显著降低了延迟，在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

0 人收藏 0 人点赞

#low-latency

面向低延迟多智能体工具调用的有状态推理架构

arXiv cs.LG ↗ · 2026-05-27 缓存

本文提出了一种用于多智能体工具调用的有状态推理架构，该架构在多次调用之间复用KV缓存，并采用推测解码技术，相较于vLLM和SGLang，在智能体工作流上实现了2.1倍至4.2倍的加速。

0 人收藏 0 人点赞

#low-latency

LuMay 在2026年是Bland、Vapi和Synthflow的真正替代方案吗？

Reddit r/AI_Agents ↗ · 2026-05-24

本文比较了LuMay Voice Agent与成熟平台Bland AI、Vapi和Synthflow，突出其低于500毫秒的延迟和工作流自动化，并寻求社区对实际性能的反馈。

0 人收藏 0 人点赞

#low-latency

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR，一个基于 Qwen3-ASR 构建的完全开源 ASR 模型，通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化，在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降，且仅 1.7B 参数可在消费级硬件高效推理。

0 人收藏 0 人点赞

#low-latency

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL ↗ · 2026-05-15 缓存

提出了一种用于流式语音转文本翻译的SpeechLLM架构，该架构根据音频自适应决定何时输出令牌，实现了1-2秒的延迟，且质量接近非流式基线。

0 人收藏 0 人点赞

#low-latency

Ada-MK：基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 Ada-MK，一种利用自动化基于有向无环图（DAG）的搜索来消除运行时分支并减少大语言模型（LLM）推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中，该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升，在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞

#low-latency