尝试对谷歌新的设备端听写模型(Eloquent)进行基准测试,但基本做不到
摘要
一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试,发现它经常漏词或返回不完整的转录文本,只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。
我尝试对谷歌新的设备端听写应用(Eloquent)进行基准测试,但基本上做不到。它大约有一半的听写内容会漏词。简而言之,完整结果请看👉[这里](https://www.getonit.ai/eloquent-review)。**背景:** 谷歌昨天发布了一款全新的全本地听写应用,配备了**专有新模型**,所以我兴奋地打算将其与领先的开源模型(Qwen3‑ASR、NVIDIA Parakeet V3 等)进行基准测试。我有一个测试框架,通过虚拟输入设备播放音频文件来驱动听写应用,并捕获应用粘贴的输出,从而能在同一片段上比较不同应用。我还有一些来自日常工程工作的约 1,500 个手动校正过的片段。**发生了什么:** 我无法获得干净的评估,因为大约一半的听写结果丢失了大量单词。一个包含约 20 多个单词的片段通常只返回 5-10 个单词。我还以为我的测试框架坏了,于是手动使用该应用,对着麦克风缓慢而清晰地说话。结果一样:大约一半的时间,我只能得到实际所说内容的一小部分。当 Eloquent 确实返回完整转录时(50 次测试中的 15 次),其准确率实际上有竞争力——在相同片段上词错误率约 24%,而 Qwen3-ASR 约 21%。问题不在于识别。而在于大多数听写时,你根本得不到你所说的内容!**我的推测:** 转录器是一个聊天式 AI 模型,聊天模型有时会*针对*你的音频做出回应,而不是转录它。为了验证这一点,我直接绕过 Eloquent 应用,在相同片段上运行 Gemma 3n(Google 同系列的开源模型)。在 44 次尝试中,有 11 次它回复了类似“对不起,我无法转录这个”的内容,而不是生成转录(见[最后一列](https://www.getonit.ai/eloquent-review))。Gemma 的词错误率与 Eloquent 相同,约 60%。我猜 Eloquent 的模型也存在同样问题,只是应用隐藏了它。有人能从这个应用中获得良好的结果吗?或者其他人也看到了这个问题?**声明:** 我开发了一个与之竞争的本地听写应用,所以并非中立的一方!
相似文章
@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai
来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。
ChatGPT 语音模式是一个较弱的模型
ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上,知识截止日期为 2024 年 4 月,比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距,这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。
Google 新款视频模型 "Omni" 遭泄露,用户指出其文本连贯性
一款名为 Omni 的 Google 视频模型遭泄露并在网上流传,早期用户对其出色的文本连贯性能力给予了高度评价。
18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。
Gemini 音频模型升级,打造更强大的语音体验
Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。