low-latency

标签

Cards List
#low-latency

Gemma 4 12B 原生无编码器语音输入利用建议?

Reddit r/LocalLLaMA · 18小时前

讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入,寻找现成的低延迟流式音频摄入解决方案。

0 人收藏 0 人点赞
#low-latency

基于LLM并行文本生成的低延迟实时音频游戏解说系统

arXiv cs.CL · 3天前 缓存

本文介绍了一种低延迟实时音频游戏解说系统,该系统利用基于LLM的并行文本生成技术,将语句间的静默时间从9.6秒减少到0.3秒,与顺序基线相比显著改善了感知到的说话节奏。

0 人收藏 0 人点赞
#low-latency

[Talk] Text Diffusion — Google DeepMind's Brendan O’Donoghue

Reddit r/LocalLLaMA · 3天前 缓存

DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型,通过迭代去噪生成文本,相比自回归模型延迟更低但吞吐量受限,并展示自修正和动态计算等独特优势。

0 人收藏 0 人点赞
#low-latency

我们如何将Discord语音迁移到边缘

Lobsters Hottest · 4天前 缓存

Discord将其超过80%的语音和视频流量迁移至Cloudflare覆盖300多个城市的边缘网络,显著降低了全球延迟和丢包率,例如法兰克福的ping值降低了34%。

0 人收藏 0 人点赞
#low-latency

Show HN: Resonate – 低延迟高分辨率频谱分析

Hacker News Top · 2026-06-06 缓存

Resonate 是一种低延迟、低内存的算法,用于对音频信号进行感知相关的频谱分析,采用带有指数加权移动平均的谐振器模型。

0 人收藏 0 人点赞
#low-latency

构建低延迟和高吞吐量AI代理的经验教训

Reddit r/AI_Agents · 2026-06-05

本文分享了构建低延迟、高吞吐量AI代理的实用经验,包括工作负载估算、令牌减少、并行处理、微服务以及处理LLM故障等。

0 人收藏 0 人点赞
#low-latency

@svpino: 人类在交谈时的平均延迟为200-250毫秒。这款语音模型甚至更快:仅110…

X AI KOLs Following · 2026-06-03

一款开放权重的8B参数语音模型仅需110毫秒延迟,比人类平均对话延迟200-250毫秒更快。它可以在本地运行,并通过GitHub仓库免费获取。

0 人收藏 0 人点赞
#low-latency

@omarsar0: 又一个超棒的开源发布。Miso One 是一个8B参数文本转语音模型,具备真实情感范围,因此配音…

X AI KOLs Following · 2026-06-03 缓存

Miso One 是一个开源的8B参数文本转语音模型,具备真实情感范围和110毫秒延迟,专为配音工作设计。

0 人收藏 0 人点赞
#low-latency

为什么最近更多人提到 LuMay Voice Agent?

Reddit r/AI_Agents · 2026-05-29

LuMay Voice Agent 因其专注于业务工作流程、内置CRM与自动化、企业合规性以及可靠的现实通话能力而受到关注。

0 人收藏 0 人点赞
#low-latency

google/magenta-realtime-2

Hugging Face Models Trending · 2026-05-28 缓存

Google DeepMind 发布了 Magenta RealTime 2,这是一个开源音乐生成模型,支持设备端流式处理,可通过文本、音频示例和 MIDI 实现低延迟控制。

0 人收藏 0 人点赞
#low-latency

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers · 2026-05-28 缓存

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

0 人收藏 0 人点赞
#low-latency

面向低延迟多智能体工具调用的有状态推理架构

arXiv cs.LG · 2026-05-27 缓存

本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。

0 人收藏 0 人点赞
#low-latency

LuMay 在2026年是Bland、Vapi和Synthflow的真正替代方案吗?

Reddit r/AI_Agents · 2026-05-24

本文比较了LuMay Voice Agent与成熟平台Bland AI、Vapi和Synthflow,突出其低于500毫秒的延迟和工作流自动化,并寻求社区对实际性能的反馈。

0 人收藏 0 人点赞
#low-latency

@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline · 2026-05-22 缓存

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。

0 人收藏 0 人点赞
#low-latency

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL · 2026-05-15 缓存

提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。

0 人收藏 0 人点赞
#low-latency

Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL · 2026-05-13 缓存

本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞
#low-latency

构建实时语音翻译应用(阅读时长:28 分钟)

TLDR AI · 2026-05-11 缓存

OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。

0 人收藏 0 人点赞
#low-latency

Google 已正式发布 Gemini 3.1 Flash-Lite(2 分钟阅读)

TLDR AI · 2026-05-11 缓存

Google 现已公开发布 Gemini 3.1 Flash-Lite,提供超低延迟、高吞吐处理能力以及多模态功能,主要面向企业级应用。

0 人收藏 0 人点赞
#low-latency

Sesame x Gemini:低延迟、极度逼真,且它们开始自发协作

Reddit r/singularity · 2026-05-10

Google 的 Gemini AI 亮相于一个全新项目,展示了其与 Sesame 协作时的低延迟和逼真的自发协作能力。

0 人收藏 0 人点赞
#low-latency

OpenAI 的 WebRTC 问题

Hacker News Top · 2026-05-07 缓存

一篇技术博客文章中,一位自称 WebRTC 专家的作者批评了 OpenAI 将 WebRTC 应用于语音 AI 的做法,认为该协议设计用于实时会议,采用激进的丢包机制,这与语音 AI 的应用场景相悖——在语音 AI 中,准确性比极低延迟更为关键。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈