标签
探讨在考虑替代方案和性能权衡的情况下,OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。
Google AI Edge Eloquent 现已支持 Mac,作为完全本地的 Wispr Flow 替代品,基于最新 Gemma 模型实现实时语音转录和语音命令编辑文本,免费、无订阅且隐私全本地。
患有脊髓性肌萎缩症的游戏玩家安德烈·切博塔尔分享了他日常使用的辅助工具,包括用于面部手势控制的PlayAbility、用于本地语音转文字的Handy以及Xbox自适应控制器,以进行游戏和交流。
本文记录了Montreal Forced Aligner 3.0,一款广泛使用的开源强制对齐工具,在英语、日语和韩语上实现了最先进的性能,平均边界误差低于15毫秒。
Cartesia 发布了 Sonic-3.5(文本转语音)和 Ink-2(语音转文本),声称它们是语音助手领域排名第一的流式模型,有可能颠覆呼叫中心。
一个帖子整理了多个用于内容创作的开源工具,包括视频剪辑、语音转字幕、AI绘图、媒体处理等,强调免费开源且可拼成自己的系统。
NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。
Telugu Thodu 是一款使用 SarvamAI 语音转文字系统构建的应用,演示了其将泰卢固语翻译成英语的高准确度,并能处理停顿和细微差别。
NVIDIA 的 Parakeet 语音转文本模型已被移植到纯 C++/ggml,实现了与 NeMo 字节完全相同的输出,GPU 上推理速度提升高达 5 倍,并提供量化的 GGUF 变体,无需 Python 或 PyTorch 即可在任何地方高效部署。
一篇个人记述,讲述 Linux 桌面即将全面转向 Wayland 的未来将如何破坏依赖 Talon Voice 等输入工具的无障碍用户体验,并指出输入无障碍相较于输出无障碍受到的关注严重不足。
推荐基于PySide6和ElevenLabs API的开源语音转字幕工具Scribe2SRT,支持多语言并优化排版,快速生成高质量SRT字幕。
本文评估了AI转录工具Wispr Flow,并将其与免费替代方案(如开源模型Whisper、Canary以及内置功能苹果听写、谷歌语音输入)进行比较,得出结论:对许多用户来说,付费订阅可能并无必要。
Parrot Speech-to-text API 为生产级语音代理提供快速准确的转写服务。
微调了最佳开源语音转文字模型Cohere Transcribe,使其支持说话人分离和时间戳。新模型已在Hugging Face上发布。
关于AI语音代理五层架构的详细解释,包括语音转文字、大语言模型(LLM)、文字转语音、编排器和电话通信,所有层均在500毫秒延迟约束下运行,以保持自然的对话流畅度。
阶跃星辰推出Step Plan订阅服务,月费6.99美元,整合了LLM、TTS、ASR、图像生成等多种AI模型,支持OpenAI SDK直连,可用于语音复刻、会议转写、AI播客生成等场景。
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。