标签
Flowcat解决了实时语音模型的高成本和有限上下文问题,实现了成本降低4倍、上下文增加7倍的效果。
VikParuchuri 宣布推出 turbo mode 数据提取,声称速度比 Azure Content Understanding 快 5 倍,成本低 5 倍,准确度提高 7%,并且实现了具有竞争力的延迟,适用于实时工作流。
parakeet.cpp 能够在本地的 OpenAI API 背后运行 NVIDIA Parakeet ASR,提供预构建的 Docker 镜像,支持 CPU 和 CUDA(包括 arm64),实现带有词级时间戳的实时转录。
Simon Willison 更新了他的 OpenAI WebRTC 音频会话工具,以支持新的 GPT-Realtime-2 模型,并增加了文档上下文功能,用于对话式音频讨论。
NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。
作者介绍了一个实验性项目 Hey Codex,这是一个实时对话版的 Codex,允许用户在开车等场景下通过语音与 Codex 交互进行 Vibe Coding。
一套AI系统将鸟类鸣叫转化为三维可视化,实时将频率和调制数据转换为彩色点簇,在工业和医疗异常检测中具有潜在应用。
作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。
OpenAI发布了GPT-Realtime-2语音模型,具备GPT-5级别的推理能力和128,000 token上下文窗口,支持实时翻译70多种语言到13种输出语言,在Big Bench Audio Intelligence评测中达到96.6%准确率,Greg Brockman称其为语音翻译领域的里程碑。
OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。
Codemix 开源了 @codemix/graph,这是一款具备 TypeScript 原生模式验证、基于 CRDT 的图数据库,并通过 Yjs 实现实时离线优先同步。
Frigate 是一个为 Home Assistant 设计的开源 NVR,通过 OpenCV 和 TensorFlow 在本地对 IP 摄像头进行实时 AI 物体检测。它具有与 Home Assistant 紧密集成、基于运动的检测以及高效资源利用的特点。
OpenAI 在 API 中推出了三个实时音频模型,包括支持70种语言的实时翻译模型 GPT Realtime Translate 和具备推理能力的语音智能体 GPT Realtime 2,使开发者能够构建更自然的语音交互界面。