标签
本文讲解了如何为语音转录模型实现ASR偏置(ASR biasing),并借助Groq和本地模型的示例进行说明,同时介绍了集成该功能的开源项目Freestyle。
一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试,发现它经常漏词或返回不完整的转录文本,只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。
苹果拒绝了开发者Mac听写应用WhisperPad的更新,原因是使用了辅助功能API,尽管此前已经获得批准。这导致开发者感到沮丧,因为该应用是为了帮助他手部受伤而开发的。
作者宣布推出 Blue——一款适用于 iPhone 的智能听写键盘,它消除了在打字和语音输入之间切换的障碍,提供4倍速度提升和高用户留存率。
推出适用于 iPhone 的 Blue 智能听写键盘,它利用 ChatGPT 智能地将口述想法转录为精炼文本,使听写在日常使用中更快、更可靠。
OmniVoice Studio is an open-source desktop app that enables local voice cloning and cinematic video dubbing across 646 languages, fully offline with no API keys, positioning itself as a privacy-focused alternative to ElevenLabs.
FluidVoice 是一款适用于 macOS 的开源语音转文字听写应用,通过名为 Fluid Intelligence 的独立私有本地运行时实现设备端 AI 增强。1.6.0 版本带来了更快的 Parakeet 支持、改进的主题样式以及焕然一新的入门体验。