我微调了Cohere Transcribe以支持说话人分离和时间戳

Reddit r/LocalLLaMA 模型

摘要

微调了最佳开源语音转文字模型Cohere Transcribe,使其支持说话人分离和时间戳。新模型已在Hugging Face上发布。

你好,长话短说:[Cohere-transcribe](https://huggingface.co/CohereLabs/cohere-transcribe-03-2026) 是目前最好的开源语音转文字模型(甚至可能优于其他专有模型)。但它不支持说话人分离(说话人识别)和时间戳,尽管分词器中已有相关词元。因此我训练了模型来支持这些功能。它遵循标准的时间戳格式。现在的输出如下:<|spltoken0|><|t:0.0|> Welcome back. <|t:1.5|><|spltoken1|><|t:1.5|> Thanks. <|t:2.4|> 这是一种易于解析的格式。时间戳平均误差在0.097秒内,90%的误差在0.006秒内。该模型每30秒最多支持4个说话人,使用diarize_long.py脚本,可以准确识别多达32人。该模型可在Hugging Face上[免费获取](https://huggingface.co/syvai/cohere-transcribe-diarize)。尽情使用吧!
查看原文

相似文章

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

Reddit r/LocalLLaMA

MOSS-TTS v1.5是一个更新的开源文本转语音模型,具有改进的多语言合成(支持31种语言)、更稳定的零样本语音克隆以及显式的内联停顿控制。