我微调了Cohere Transcribe以支持说话人分离和时间戳

Reddit r/LocalLLaMA 2026/05/22 20:17 模型

fine-tuning speech-to-text diarization timestamps open-source cohere huggingface

摘要

微调了最佳开源语音转文字模型Cohere Transcribe，使其支持说话人分离和时间戳。新模型已在Hugging Face上发布。

你好，长话短说：[Cohere-transcribe](https://huggingface.co/CohereLabs/cohere-transcribe-03-2026) 是目前最好的开源语音转文字模型（甚至可能优于其他专有模型）。但它不支持说话人分离（说话人识别）和时间戳，尽管分词器中已有相关词元。因此我训练了模型来支持这些功能。它遵循标准的时间戳格式。现在的输出如下：<|spltoken0|><|t:0.0|> Welcome back. <|t:1.5|><|spltoken1|><|t:1.5|> Thanks. <|t:2.4|> 这是一种易于解析的格式。时间戳平均误差在0.097秒内，90%的误差在0.006秒内。该模型每30秒最多支持4个说话人，使用diarize_long.py脚本，可以准确识别多达32人。该模型可在Hugging Face上[免费获取](https://huggingface.co/syvai/cohere-transcribe-diarize)。尽情使用吧！

查看原文

我微调了Cohere Transcribe以支持说话人分离和时间戳

相似文章

@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS，性能碾压市面所有模型。我没有任何研究背景。上周我 w…

@ClementDelangue：Cohere 近来在开源方面进展非常出色。优秀的 Apache 2.0 模型！https://huggingface.co/CohereLabs/…

PrivateScribe.ai - 完全本地化、MIT许可、免费AI转录，内置HIPAA/法律保护机制 - 一周年更新！

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

@thinkymachines：得益于模型的实时语音交互能力，Horace 最近变得更容易上手了。

提交意见反馈