尝试对谷歌新的设备端听写模型（Eloquent）进行基准测试，但基本做不到

Reddit r/LocalLLaMA 2026/06/10 21:18 模型

google on-device dictation speech-recognition benchmark local-ai asr

摘要

一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试，发现它经常漏词或返回不完整的转录文本，只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。

我尝试对谷歌新的设备端听写应用（Eloquent）进行基准测试，但基本上做不到。它大约有一半的听写内容会漏词。简而言之，完整结果请看👉[这里](https://www.getonit.ai/eloquent-review)。**背景：** 谷歌昨天发布了一款全新的全本地听写应用，配备了**专有新模型**，所以我兴奋地打算将其与领先的开源模型（Qwen3‑ASR、NVIDIA Parakeet V3 等）进行基准测试。我有一个测试框架，通过虚拟输入设备播放音频文件来驱动听写应用，并捕获应用粘贴的输出，从而能在同一片段上比较不同应用。我还有一些来自日常工程工作的约 1,500 个手动校正过的片段。**发生了什么：** 我无法获得干净的评估，因为大约一半的听写结果丢失了大量单词。一个包含约 20 多个单词的片段通常只返回 5-10 个单词。我还以为我的测试框架坏了，于是手动使用该应用，对着麦克风缓慢而清晰地说话。结果一样：大约一半的时间，我只能得到实际所说内容的一小部分。当 Eloquent 确实返回完整转录时（50 次测试中的 15 次），其准确率实际上有竞争力——在相同片段上词错误率约 24%，而 Qwen3-ASR 约 21%。问题不在于识别。而在于大多数听写时，你根本得不到你所说的内容！**我的推测：** 转录器是一个聊天式 AI 模型，聊天模型有时会*针对*你的音频做出回应，而不是转录它。为了验证这一点，我直接绕过 Eloquent 应用，在相同片段上运行 Gemma 3n（Google 同系列的开源模型）。在 44 次尝试中，有 11 次它回复了类似“对不起，我无法转录这个”的内容，而不是生成转录（见[最后一列](https://www.getonit.ai/eloquent-review)）。Gemma 的词错误率与 Eloquent 相同，约 60%。我猜 Eloquent 的模型也存在同样问题，只是应用隐藏了它。有人能从这个应用中获得良好的结果吗？或者其他人也看到了这个问题？**声明：** 我开发了一个与之竞争的本地听写应用，所以并非中立的一方！

查看原文

尝试对谷歌新的设备端听写模型（Eloquent）进行基准测试，但基本做不到

相似文章

@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

ChatGPT 语音模式是一个较弱的模型

Google 新款视频模型 "Omni" 遭泄露，用户指出其文本连贯性

18 款 LLM OCR 实测（7k+ 次调用）：便宜/旧模型常吊打旗舰，完整数据集+框架已开源 [R]

Gemini 音频模型升级，打造更强大的语音体验

提交意见反馈