low-latency

标签

Cards List
#low-latency

Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL · 14小时前 缓存

本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞
#low-latency

构建实时语音翻译应用(阅读时长:28 分钟)

TLDR AI · 2天前 缓存

OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。

0 人收藏 0 人点赞
#low-latency

Google 已正式发布 Gemini 3.1 Flash-Lite(2 分钟阅读)

TLDR AI · 2天前 缓存

Google 现已公开发布 Gemini 3.1 Flash-Lite,提供超低延迟、高吞吐处理能力以及多模态功能,主要面向企业级应用。

0 人收藏 0 人点赞
#low-latency

Sesame x Gemini:低延迟、极度逼真,且它们开始自发协作

Reddit r/singularity · 3天前

Google 的 Gemini AI 亮相于一个全新项目,展示了其与 Sesame 协作时的低延迟和逼真的自发协作能力。

0 人收藏 0 人点赞
#low-latency

OpenAI 的 WebRTC 问题

Hacker News Top · 6天前 缓存

一篇技术博客文章中,一位自称 WebRTC 专家的作者批评了 OpenAI 将 WebRTC 应用于语音 AI 的做法,认为该协议设计用于实时会议,采用激进的丢包机制,这与语音 AI 的应用场景相悖——在语音 AI 中,准确性比极低延迟更为关键。

0 人收藏 0 人点赞
#low-latency

从本地存储引擎中移除 fsync

Hacker News Top · 6天前 缓存

FractalBits 推出了一种专为单节点设计的 KV 存储引擎,通过在硬件层级直接管理数据持久性来消除 fsync 调用,从而在 NVMe SSD 上实现显著提升的写入吞吐量。

0 人收藏 0 人点赞
#low-latency

微语言模型实现即时响应

Hugging Face Daily Papers · 2026-04-21 缓存

研究人员推出 8M–30M 参数的微型语言模型,可在本地设备瞬间生成前几个词,再由云端模型补全,让智能手表等超受限设备也能拥有响应迅速的 AI 体验。

0 人收藏 0 人点赞
#low-latency

GPT-5.3-Codex-Spark 发布

OpenAI Blog · 2026-02-12 缓存

# GPT-5.3-Codex-Spark 发布 来源:[https://openai.com/index/introducing-gpt-5-3-codex-spark/](https://openai.com/index/introducing-gpt-5-3-codex-spark/) 今天,我们发布了 GPT‑5\.3‑Codex‑Spark 的研究预览版。这是 GPT‑5\.3‑Codex 的一个更小版本,也是我们首个专为实时编码设计的模型。Codex‑Spark 标志着我们与 Cerebras 合作关系[于 1 月宣布](https://openai.com/index/cerebras-partnership/)的第一个里程碑。Codex‑Spark 针对实时编码进行了优化。

0 人收藏 0 人点赞
#low-latency

Qwen3-TTS 技术报告

Papers with Code Trending · 2026-01-22 缓存

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

0 人收藏 0 人点赞
#low-latency

OpenAI与Cerebras合作

OpenAI Blog · 2026-01-14 缓存

OpenAI与Cerebras合作,将750MW超低延迟AI计算能力整合到其平台中,旨在加速推理,并在各种工作负载中实现更快的实时AI响应。

0 人收藏 0 人点赞
#low-latency

实时 API 介绍

OpenAI Blog · 2024-10-01 缓存

OpenAI 推出实时 API,使开发者能够构建低延迟多模态语音对话体验,由 GPT-4o 驱动的自然语音交互。该 API 支持六种预设声音,简化开发流程,无需集成多个模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈