我对Parakeet 0.6B进行了医学ASR微调——开放权重,本地运行于Mac/CUDA/CPU

Reddit r/LocalLLaMA 模型

摘要

Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR,发布了开放权重的模型Omi Med STT v1,在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。

我对NVIDIA的Parakeet TDT 0.6B v2进行了临床语音微调,并以**Omi Med STT v1**(CC-BY-4.0)开放权重。声明:我本人是Omi Health的创始人,并构建了此模型。我很乐意深入讨论训练数据组合、基准测试、失败案例、量化或其他任何方面。目标很简单:让一个小的本地ASR模型足够接近强大的云端系统,从而患者音频无需离开设备即可进行转录。另外还有适用于Mac、Windows和Linux的运行时。安装与运行:pip install omi-med-stt omi-med-stt consultation.wav 它会根据机器自动选择后端(Apple Silicon使用MLX,CUDA使用NeMo,CPU使用GGUF/parakeet.cpp)。默认使用q8;我还构建了q4版本并进行了基准测试,但**未发布**——药物名称准确度下降太多。基准测试:1,513个片段/7.18小时的保留医疗音频,所有模型使用相同的音频和评分器,按**医学WER**(M-WER = 仅临床术语上的错误)排序,因为这对听写来说至关重要。速度以RTFx(×实时)表示。 **与其他开源/本地模型对比:** |模型|M-WER|WER|药物|RTFx| |:-|:-|:-|:-|:-| |VibeVoice-ASR 9B|1.78%|11.10%|1.36%|11×| |**Omi Med STT v1 (0.6B)**|**2.37%**|**8.30%**|**4.75%**|**145×**| |Qwen3 ASR 1.7B|3.13%|10.72%|6.11%|81×| |Qwen3 ASR 0.6B|3.38%|11.11%|7.92%|110×| |Whisper Large v3 Turbo|3.93%|11.98%|5.88%|46×| |Voxtral Mini Transcribe V1|4.53%|13.53%|6.33%|78×| |Cohere Transcribe 03-2026|5.05%|14.88%|11.09%|143×| |Parakeet TDT 0.6B v3|8.01%|15.26%|9.50%|160×| |NVIDIA Canary 1B Flash|8.04%|17.26%|13.12%|61×| |Parakeet TDT 0.6B v2 (基础模型)|8.36%|16.45%|8.60%|154×| |Google MedASR|13.86%|35.94%|14.48%|86×| 只有VibeVoice在M-WER上略胜一筹——但它是9B模型(约15倍大小),在我的运行中速度较慢,且整体WER更差(11.10% vs 8.30%)。在我的评估设置中,VibeVoice在H100上运行;Omi在A10上运行(RTFx为145×,在Apple Silicon Mac上约68×)。与我起步的Parakeet基础模型相比:M-WER降低了约3.5倍(8.36 → 2.37),WER大致减半,虚假药物提及从131次降至9次——微调一个小型基础模型效果显著。 **与通用云端API对比:** |模型|M-WER|WER|药物|RTFx| |:-|:-|:-|:-|:-| |ElevenLabs Scribe v2|1.39%|6.53%|0.23%|7.8×| |Gemini 3.1 Pro Preview †|1.65%|7.13%|0.23%|1.4×| |Soniox STT Async v4|1.95%|6.99%|3.39%|1.8×| |**Omi Med STT v1**|**2.37%**|**8.30%**|**4.75%**|**145×** ‡| |Gemini 3.5 Flash †|2.39%|7.99%|0.45%|3.1×| |Reson8 Prerecorded|2.58%|6.69%|6.56%|7.4×| |Voxtral Mini Transcribe v2|2.79%|8.12%|5.66%|15×| |OpenAI GPT-4o Mini Transcribe|3.55%|10.26%|3.39%|12×| ‡ Omi的RTFx是本地设备计算(A10);云端数据是包含网络和队列的每次请求往返时间,因此不是同等计算速度的对比——Omi只是因为本地运行而具有结构性的延迟优势。 † Gemini的结果排除了其幻觉。两个Gemini模型都有一个其他系统没有的失败模式:在420个良性、非诊断性片段的压力测试中,它们忽略音频并编造出整个虚构的就诊——编造的症状、病史、治疗方案(3.1 Pro在33/420个片段中,3.5 Flash在87/420个片段中;其他所有专用ASR模型均为0)。计入该测试后,它们的实际WER约为14%/24%。否则是很好的转录器,但\"流畅地编造从未说过的临床细节\"是一个非常严重的失败模式。 **与医学专用云服务商对比:** |模型|M-WER|WER|药物|RTFx| |:-|:-|:-|:-|:-| |AssemblyAI Universal-3 Pro Medical|1.81%|6.94%|1.36%|2.1×| |**Omi Med STT v1**|**2.37%**|**8.30%**|**4.75%**|**145×** ‡| |Deepgram Nova-3 Medical|2.44%|7.33%|2.26%|7.7×| |Corti Transcripts|5.12%|9.60%|11.31%|0.9×| ‡ 再次说明,Omi的RTFx是本地设备计算;云端API是网络往返时间(参见上文说明)。在此作为挑战者——在M-WER上领先于Deepgram和Corti,落后于AssemblyAI(以及最强的通用听写工具)。药物名称是最薄弱的方面(4.75%的药物M-WER),也是我在v2中首要改进的内容。总体而言:在此数据集上表现最佳的本地运行开源模型,且与云端模型具有竞争力——同时将音频保留在设备上。 **更多关于训练和评估的信息:** 约127小时的训练音频,约71%真实/29%合成——混合了许可音频、公开可用音频以及我自己的合成数据集,专为难以获取的医疗语音而设计。基准测试是一个锁定的分割,从未在训练中使用过(0训练/测试重叠),由未公开的音频组成,涵盖多种医疗场景(全科对话、听写、用药审查、放射学、手术、长篇内容)。好奇真实使用是否与基准测试结果一致——将非常欢迎反馈。 下一步:流式版本和多语言版本。你们真正需要哪些语言?请在评论中留言。
查看原文

相似文章