realtime

#realtime

实时语音模型在成本（和遗忘）问题上叠加——'Flowcat'同时解决了这两个问题（成本降低4倍，上下文增加7倍）

Reddit r/AI_Agents ↗ · 6天前

Flowcat解决了实时语音模型的高成本和有限上下文问题，实现了成本降低4倍、上下文增加7倍的效果。

0 人收藏 0 人点赞

#realtime

@VikParuchuri: 我们正在推出 turbo mode 数据提取——比 Azure Content Understanding 快 5 倍、便宜 5 倍，且准确度高 7%……

X AI KOLs Following ↗ · 2026-06-17 缓存

VikParuchuri 宣布推出 turbo mode 数据提取，声称速度比 Azure Content Understanding 快 5 倍，成本低 5 倍，准确度提高 7%，并且实现了具有竞争力的延迟，适用于实时工作流。

0 人收藏 0 人点赞

#realtime

@mudler_it：parakeet.cpp 现已在 OpenAI API 背后运行 NVIDIA Parakeet。将任何 OpenAI 客户端指向本地服务器，发送音频，……

X AI KOLs Timeline ↗ · 2026-06-17 缓存

parakeet.cpp 能够在本地的 OpenAI API 背后运行 NVIDIA Parakeet ASR，提供预构建的 Docker 镜像，支持 CPU 和 CUDA（包括 arm64），实现带有词级时间戳的实时转录。

0 人收藏 0 人点赞

#realtime

OpenAI WebRTC 音频会话，现支持文档上下文

Simon Willison's Blog ↗ · 2026-06-12 缓存

Simon Willison 更新了他的 OpenAI WebRTC 音频会话工具，以支持新的 GPT-Realtime-2 模型，并增加了文档上下文功能，用于对话式音频讨论。

0 人收藏 0 人点赞

#realtime

@kwindla: https://x.com/kwindla/status/2062544580105359686

X AI KOLs Timeline ↗ · 2026-06-04 缓存

NVIDIA 发布了 Nemotron 3.5 ASR，这是一款开源的多语言语音转文字模型，在测试中延迟最低，提供多语言和纯英文两个版本，非常适合语音助手和自托管部署场景。

0 人收藏 0 人点赞

#realtime

@hwwaanng: 今天发的东西，和之前不太一样，今天发的东西，非常有趣，非常试验性。我和几个小伙伴都是 Vibe Coding 的狂热爱好者，有一天，我们想如果你可以实时和 Codex 对话，那可不就可以在开车的时候也 Vibe Coding 了？所…

X AI KOLs Timeline ↗ · 2026-05-31 缓存

作者介绍了一个实验性项目 Hey Codex，这是一个实时对话版的 Codex，允许用户在开车等场景下通过语音与 Codex 交互进行 Vibe Coding。

0 人收藏 0 人点赞

#realtime

@0xCortexl：东京某人将鸟语映射为真实数据模式，可视化结果宛如神经网络在梦境中

X AI KOLs Timeline ↗ · 2026-05-24 缓存

一套AI系统将鸟类鸣叫转化为三维可视化，实时将频率和调制数据转换为彩色点簇，在工业和医疗异常检测中具有潜在应用。

0 人收藏 0 人点赞

#realtime

使用CUDA内核重写模型推理：瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning ↗ · 2026-05-18

作者描述了构建FlashRT的过程，这是一个以CUDA为核心的推理运行时，通过使用C++/CUDA内核重写模型推理路径，来解决小批量/实时工作负载中超出GEMM的瓶颈，在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验（FP8有帮助，FP4好坏参半）以及绕过通用运行时进行实时推理的必要性。

0 人收藏 0 人点赞

#realtime

@dgwyer: 你现在可以通过实时语音对话编辑SolveIt消息，并可选追踪差异编辑。

X AI KOLs Following ↗ · 2026-05-15 缓存

SolveIt现在支持通过语音对话编辑消息，并可选追踪差异。

0 人收藏 0 人点赞

#realtime

全实时交互模型

Reddit r/LocalLLaMA ↗ · 2026-05-14

讨论一个即将通过API发布的完全实时交互模型，并计划从中生成蒸馏数据。

0 人收藏 0 人点赞

#realtime

@seclink: OpenAI 发布了 GPT-Realtime-2，这是其迄今为止最智能的语音模型。该模型具备 GPT-5 级别的推理能力、128,000 个 token 的上下文窗口，并支持调节“投入程度”以实现更自然的对话体验。它可与 GPT-R…

X AI KOLs Following ↗ · 2026-05-08

OpenAI发布了GPT-Realtime-2语音模型，具备GPT-5级别的推理能力和128,000 token上下文窗口，支持实时翻译70多种语言到13种输出语言，在Big Bench Audio Intelligence评测中达到96.6%准确率，Greg Brockman称其为语音翻译领域的里程碑。

0 人收藏 0 人点赞

#realtime