我微调了Cohere Transcribe以支持说话人分离和时间戳
摘要
微调了最佳开源语音转文字模型Cohere Transcribe,使其支持说话人分离和时间戳。新模型已在Hugging Face上发布。
你好,长话短说:[Cohere-transcribe](https://huggingface.co/CohereLabs/cohere-transcribe-03-2026) 是目前最好的开源语音转文字模型(甚至可能优于其他专有模型)。但它不支持说话人分离(说话人识别)和时间戳,尽管分词器中已有相关词元。因此我训练了模型来支持这些功能。它遵循标准的时间戳格式。现在的输出如下:<|spltoken0|><|t:0.0|> Welcome back. <|t:1.5|><|spltoken1|><|t:1.5|> Thanks. <|t:2.4|> 这是一种易于解析的格式。时间戳平均误差在0.097秒内,90%的误差在0.006秒内。该模型每30秒最多支持4个说话人,使用diarize_long.py脚本,可以准确识别多达32人。该模型可在Hugging Face上[免费获取](https://huggingface.co/syvai/cohere-transcribe-diarize)。尽情使用吧!
相似文章
@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS,性能碾压市面所有模型。我没有任何研究背景。上周我 w…
一位开发者记录了构建开源 Hinglish 文本转语音系统的过程,该系统通过修复上游推理 bug 并增加轻量级预处理封装,实现了超越现有模型的效果,且在无需训练或 GPU 资源的情况下达到了高质量。
@ClementDelangue:Cohere 近来在开源方面进展非常出色。优秀的 Apache 2.0 模型!https://huggingface.co/CohereLabs/…
Cohere 发布了 Command A+,这是一个开源模型,拥有 250 亿活跃参数和 2180 亿总参数,采用 Apache 2.0 许可,针对智能体、多语言和重推理任务进行了优化。
PrivateScribe.ai - 完全本地化、MIT许可、免费AI转录,内置HIPAA/法律保护机制 - 一周年更新!
PrivateScribe.ai 是一个完全本地化、MIT许可的AI转录平台,具有HIPAA保护机制,现已推出捆绑的macOS应用、上手向导、说话人分离和加密功能。
OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face
MOSS-TTS v1.5是一个更新的开源文本转语音模型,具有改进的多语言合成(支持31种语言)、更稳定的零样本语音克隆以及显式的内联停顿控制。
@thinkymachines:得益于模型的实时语音交互能力,Horace 最近变得更容易上手了。
随着实时语音交互能力的提升,Horace AI 模型现已更易于使用。thinkymachines 对此更新进行了重点介绍。