尝试对谷歌新的设备端听写模型(Eloquent)进行基准测试,但基本做不到

Reddit r/LocalLLaMA 模型

摘要

一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试,发现它经常漏词或返回不完整的转录文本,只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。

我尝试对谷歌新的设备端听写应用(Eloquent)进行基准测试,但基本上做不到。它大约有一半的听写内容会漏词。简而言之,完整结果请看👉[这里](https://www.getonit.ai/eloquent-review)。**背景:** 谷歌昨天发布了一款全新的全本地听写应用,配备了**专有新模型**,所以我兴奋地打算将其与领先的开源模型(Qwen3‑ASR、NVIDIA Parakeet V3 等)进行基准测试。我有一个测试框架,通过虚拟输入设备播放音频文件来驱动听写应用,并捕获应用粘贴的输出,从而能在同一片段上比较不同应用。我还有一些来自日常工程工作的约 1,500 个手动校正过的片段。**发生了什么:** 我无法获得干净的评估,因为大约一半的听写结果丢失了大量单词。一个包含约 20 多个单词的片段通常只返回 5-10 个单词。我还以为我的测试框架坏了,于是手动使用该应用,对着麦克风缓慢而清晰地说话。结果一样:大约一半的时间,我只能得到实际所说内容的一小部分。当 Eloquent 确实返回完整转录时(50 次测试中的 15 次),其准确率实际上有竞争力——在相同片段上词错误率约 24%,而 Qwen3-ASR 约 21%。问题不在于识别。而在于大多数听写时,你根本得不到你所说的内容!**我的推测:** 转录器是一个聊天式 AI 模型,聊天模型有时会*针对*你的音频做出回应,而不是转录它。为了验证这一点,我直接绕过 Eloquent 应用,在相同片段上运行 Gemma 3n(Google 同系列的开源模型)。在 44 次尝试中,有 11 次它回复了类似“对不起,我无法转录这个”的内容,而不是生成转录(见[最后一列](https://www.getonit.ai/eloquent-review))。Gemma 的词错误率与 Eloquent 相同,约 60%。我猜 Eloquent 的模型也存在同样问题,只是应用隐藏了它。有人能从这个应用中获得良好的结果吗?或者其他人也看到了这个问题?**声明:** 我开发了一个与之竞争的本地听写应用,所以并非中立的一方!
查看原文

相似文章

ChatGPT 语音模式是一个较弱的模型

Simon Willison's Blog

ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上,知识截止日期为 2024 年 4 月,比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距,这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。

Gemini 音频模型升级,打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。