实时语音模型在成本（和遗忘）问题上叠加——'Flowcat'同时解决了这两个问题（成本降低4倍，上下文增加7倍）

Reddit r/AI_Agents 2026/06/24 08:06 模型

voice-models realtime cost-reduction context-length flowcat

摘要

Flowcat解决了实时语音模型的高成本和有限上下文问题，实现了成本降低4倍、上下文增加7倍的效果。

暂无内容

查看原文

相似文章

Reddit r/ArtificialInteligence

对VoxCPM2的技术解析与基准测试，这是一款开源TTS模型，具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

X AI KOLs Following

一款开放权重的8B参数语音模型仅需110毫秒延迟，比人类平均对话延迟200-250毫秒更快。它可以在本地运行，并通过GitHub仓库免费获取。

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型，支持连续、多任务的语音交互，优先考虑长上下文推理、实时翻译和无缝工具使用。

Reddit r/MachineLearning

一位开发者在工具调用任务上测试了五个AI模型，发现廉价模型的表现与Opus等昂贵模型相差不到2%，腾讯混元（Tencent's Hunyuan）成本低于1.50美元，而Opus为15美元，通过将简单任务路由到廉价模型，每日成本从40美元降至9美元。

X AI KOLs Following

LongCat 发布了一个开源说话头像模型（可能是最先进的），采用 MIT 许可，并提供了 Hugging Face 演示，可应用于 AI 导师、配音、编码智能体等多种场景。