realtime

标签

Cards List
#realtime

实时语音模型在成本(和遗忘)问题上叠加——'Flowcat'同时解决了这两个问题(成本降低4倍,上下文增加7倍)

Reddit r/AI_Agents · 6天前

Flowcat解决了实时语音模型的高成本和有限上下文问题,实现了成本降低4倍、上下文增加7倍的效果。

0 人收藏 0 人点赞
#realtime

@VikParuchuri: 我们正在推出 turbo mode 数据提取——比 Azure Content Understanding 快 5 倍、便宜 5 倍,且准确度高 7%……

X AI KOLs Following · 2026-06-17 缓存

VikParuchuri 宣布推出 turbo mode 数据提取,声称速度比 Azure Content Understanding 快 5 倍,成本低 5 倍,准确度提高 7%,并且实现了具有竞争力的延迟,适用于实时工作流。

0 人收藏 0 人点赞
#realtime

@mudler_it:parakeet.cpp 现已在 OpenAI API 背后运行 NVIDIA Parakeet。将任何 OpenAI 客户端指向本地服务器,发送音频,……

X AI KOLs Timeline · 2026-06-17 缓存

parakeet.cpp 能够在本地的 OpenAI API 背后运行 NVIDIA Parakeet ASR,提供预构建的 Docker 镜像,支持 CPU 和 CUDA(包括 arm64),实现带有词级时间戳的实时转录。

0 人收藏 0 人点赞
#realtime

OpenAI WebRTC 音频会话,现支持文档上下文

Simon Willison's Blog · 2026-06-12 缓存

Simon Willison 更新了他的 OpenAI WebRTC 音频会话工具,以支持新的 GPT-Realtime-2 模型,并增加了文档上下文功能,用于对话式音频讨论。

0 人收藏 0 人点赞
#realtime

@kwindla: https://x.com/kwindla/status/2062544580105359686

X AI KOLs Timeline · 2026-06-04 缓存

NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。

0 人收藏 0 人点赞
#realtime

@hwwaanng: 今天发的东西,和之前不太一样,今天发的东西,非常有趣,非常试验性。 我和几个小伙伴都是 Vibe Coding 的狂热爱好者,有一天,我们想如果你可以实时和 Codex 对话,那可不就可以在开车的时候也 Vibe Coding 了 ? 所…

X AI KOLs Timeline · 2026-05-31 缓存

作者介绍了一个实验性项目 Hey Codex,这是一个实时对话版的 Codex,允许用户在开车等场景下通过语音与 Codex 交互进行 Vibe Coding。

0 人收藏 0 人点赞
#realtime

@0xCortexl:东京某人将鸟语映射为真实数据模式,可视化结果宛如神经网络在梦境中

X AI KOLs Timeline · 2026-05-24 缓存

一套AI系统将鸟类鸣叫转化为三维可视化,实时将频率和调制数据转换为彩色点簇,在工业和医疗异常检测中具有潜在应用。

0 人收藏 0 人点赞
#realtime

使用CUDA内核重写模型推理:瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning · 2026-05-18

作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。

0 人收藏 0 人点赞
#realtime

@dgwyer: 你现在可以通过实时语音对话编辑SolveIt消息,并可选追踪差异编辑。

X AI KOLs Following · 2026-05-15 缓存

SolveIt现在支持通过语音对话编辑消息,并可选追踪差异。

0 人收藏 0 人点赞
#realtime

全实时交互模型

Reddit r/LocalLLaMA · 2026-05-14

讨论一个即将通过API发布的完全实时交互模型,并计划从中生成蒸馏数据。

0 人收藏 0 人点赞
#realtime

@seclink: OpenAI 发布了 GPT-Realtime-2,这是其迄今为止最智能的语音模型。 该模型具备 GPT-5 级别的推理能力、128,000 个 token 的上下文窗口,并支持调节“投入程度”以实现更自然的对话体验。 它可与 GPT-R…

X AI KOLs Following · 2026-05-08

OpenAI发布了GPT-Realtime-2语音模型,具备GPT-5级别的推理能力和128,000 token上下文窗口,支持实时翻译70多种语言到13种输出语言,在Big Bench Audio Intelligence评测中达到96.6%准确率,Greg Brockman称其为语音翻译领域的里程碑。

0 人收藏 0 人点赞
#realtime

@kwindla:OpenAI 今天发布了一款新的语音到语音模型:gpt-realtime-2 这是首个足够好的语音到语音模型……

X AI KOLs Following · 2026-05-07

OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。

0 人收藏 0 人点赞
#realtime

支持 CRDT 的 Type-Safe 实时协作图数据库

Hacker News Top · 2026-04-21 缓存

Codemix 开源了 @codemix/graph,这是一款具备 TypeScript 原生模式验证、基于 CRDT 的图数据库,并通过 Yjs 实现实时离线优先同步。

0 人收藏 0 人点赞
#realtime

blakeblackshear/frigate

GitHub Trending (daily) · 2026-05-24 缓存

Frigate 是一个为 Home Assistant 设计的开源 NVR,通过 OpenCV 和 TensorFlow 在本地对 IP 摄像头进行实时 AI 物体检测。它具有与 Home Assistant 紧密集成、基于运动的检测以及高效资源利用的特点。

0 人收藏 0 人点赞
#realtime

We’re introducing three audio models in the API

YouTube AI Channels · 2026-05-08 缓存

OpenAI 在 API 中推出了三个实时音频模型,包括支持70种语言的实时翻译模型 GPT Realtime Translate 和具备推理能力的语音智能体 GPT Realtime 2,使开发者能够构建更自然的语音交互界面。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈