low-latency

#low-latency

Ada-MK：基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL ↗ · 14小时前缓存

本文介绍了 Ada-MK，一种利用自动化基于有向无环图（DAG）的搜索来消除运行时分支并减少大语言模型（LLM）推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中，该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升，在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞

#low-latency

构建实时语音翻译应用（阅读时长：28 分钟）

TLDR AI ↗ · 2天前缓存

OpenAI 发布了 gpt-realtime-translate，这是一款专为实时口译优化的低延迟语音转语音模型，并附有开发者实战指南，用于构建支持多语言的浏览器、移动及视频应用。

0 人收藏 0 人点赞

#low-latency

Google 已正式发布 Gemini 3.1 Flash-Lite（2 分钟阅读）

TLDR AI ↗ · 2天前缓存

Google 现已公开发布 Gemini 3.1 Flash-Lite，提供超低延迟、高吞吐处理能力以及多模态功能，主要面向企业级应用。

0 人收藏 0 人点赞

#low-latency

Sesame x Gemini：低延迟、极度逼真，且它们开始自发协作

Reddit r/singularity ↗ · 3天前

Google 的 Gemini AI 亮相于一个全新项目，展示了其与 Sesame 协作时的低延迟和逼真的自发协作能力。

0 人收藏 0 人点赞

#low-latency

OpenAI 的 WebRTC 问题

Hacker News Top ↗ · 6天前缓存

一篇技术博客文章中，一位自称 WebRTC 专家的作者批评了 OpenAI 将 WebRTC 应用于语音 AI 的做法，认为该协议设计用于实时会议，采用激进的丢包机制，这与语音 AI 的应用场景相悖——在语音 AI 中，准确性比极低延迟更为关键。

0 人收藏 0 人点赞

#low-latency

从本地存储引擎中移除 fsync

Hacker News Top ↗ · 6天前缓存

FractalBits 推出了一种专为单节点设计的 KV 存储引擎，通过在硬件层级直接管理数据持久性来消除 fsync 调用，从而在 NVMe SSD 上实现显著提升的写入吞吐量。

0 人收藏 0 人点赞

#low-latency

微语言模型实现即时响应

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

研究人员推出 8M–30M 参数的微型语言模型，可在本地设备瞬间生成前几个词，再由云端模型补全，让智能手表等超受限设备也能拥有响应迅速的 AI 体验。

0 人收藏 0 人点赞

#low-latency

# GPT-5.3-Codex-Spark 发布来源：[https://openai.com/index/introducing-gpt-5-3-codex-spark/](https://openai.com/index/introducing-gpt-5-3-codex-spark/) 今天，我们发布了 GPT‑5\.3‑Codex‑Spark 的研究预览版。这是 GPT‑5\.3‑Codex 的一个更小版本，也是我们首个专为实时编码设计的模型。Codex‑Spark 标志着我们与 Cerebras 合作关系[于 1 月宣布](https://openai.com/index/cerebras-partnership/)的第一个里程碑。Codex‑Spark 针对实时编码进行了优化。

0 人收藏 0 人点赞

#low-latency

Qwen3-TTS 技术报告

Papers with Code Trending ↗ · 2026-01-22 缓存

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型，具备语音克隆和可控生成能力，采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

0 人收藏 0 人点赞

#low-latency

OpenAI与Cerebras合作

OpenAI Blog ↗ · 2026-01-14 缓存

OpenAI与Cerebras合作，将750MW超低延迟AI计算能力整合到其平台中，旨在加速推理，并在各种工作负载中实现更快的实时AI响应。

0 人收藏 0 人点赞

#low-latency

实时 API 介绍

OpenAI Blog ↗ · 2024-10-01 缓存

OpenAI 推出实时 API，使开发者能够构建低延迟多模态语音对话体验，由 GPT-4o 驱动的自然语音交互。该 API 支持六种预设声音，简化开发流程，无需集成多个模型。

0 人收藏 0 人点赞

low-latency

提交意见反馈