speech-to-text

#speech-to-text

如果应用需要实时语音转文字，Whisper 是否仍是最佳默认选择？

Reddit r/AI_Agents ↗ · 昨天

探讨在考虑替代方案和性能权衡的情况下，OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。

0 人收藏 0 人点赞

#speech-to-text

完全本地语音助手搭建指南

Lobsters Hottest ↗ · 昨天缓存

基于树莓派和Platypush搭建完全本地语音助手指南，涵盖热词检测、语音转文字、文字转语音以及家庭自动化集成。

0 人收藏 0 人点赞

#speech-to-text

@iluciddreaming: Google 又干掉了一个创业公司…… Google AI Edge Eloquent 现已支持 Mac，完全本地的 Wispr Flow 替代品。基于最新 Gemma 模型，支持实时语音转录 + 语音命令编辑文本。免费、无订阅、无需…

X AI KOLs Timeline ↗ · 2天前缓存

Google AI Edge Eloquent 现已支持 Mac，作为完全本地的 Wispr Flow 替代品，基于最新 Gemma 模型实现实时语音转录和语音命令编辑文本，免费、无订阅且隐私全本地。

0 人收藏 0 人点赞

#speech-to-text

Mutter AI Dictation

Product Hunt ↗ · 5天前

Mutter AI Dictation 是一款私密的 AI 听写工具，支持离线使用。

0 人收藏 0 人点赞

#speech-to-text

我患有脊髓性肌萎缩症，却依然玩电子游戏

Hacker News Top ↗ · 6天前缓存

患有脊髓性肌萎缩症的游戏玩家安德烈·切博塔尔分享了他日常使用的辅助工具，包括用于面部手势控制的PlayAbility、用于本地语音转文字的Handy以及Xbox自适应控制器，以进行游戏和交流。

0 人收藏 0 人点赞

#speech-to-text

Montreal Forced Aligner与2026年语音转文字对齐的现状

arXiv cs.CL ↗ · 6天前缓存

本文记录了Montreal Forced Aligner 3.0，一款广泛使用的开源强制对齐工具，在英语、日语和韩语上实现了最先进的性能，平均边界误差低于15毫秒。

0 人收藏 0 人点赞

#speech-to-text

@svpino: 这样的表现之后，呼叫中心不可能继续存在。听听这段对话，你分辨不出我是在和一个……

X AI KOLs Following ↗ · 2026-06-15 缓存

Cartesia 发布了 Sonic-3.5（文本转语音）和 Ink-2（语音转文本），声称它们是语音助手领域排名第一的流式模型，有可能颠覆呼叫中心。

0 人收藏 0 人点赞

#speech-to-text

@Smartpigai: 每次有人问我“做内容 / 视频 / 素材管理用啥工具”，我都懒得再解释了，直接一次性整理好，你自己存 1、视频剪辑（用代码做视频） https://github.com/remotion-dev/remotion… 2、语音转字幕 / 会…

X AI KOLs Timeline ↗ · 2026-06-07 缓存

一个帖子整理了多个用于内容创作的开源工具，包括视频剪辑、语音转字幕、AI绘图、媒体处理等，强调免费开源且可拼成自己的系统。

0 人收藏 0 人点赞

#speech-to-text

@kwindla: https://x.com/kwindla/status/2062544580105359686

X AI KOLs Timeline ↗ · 2026-06-04 缓存

NVIDIA 发布了 Nemotron 3.5 ASR，这是一款开源的多语言语音转文字模型，在测试中延迟最低，提供多语言和纯英文两个版本，非常适合语音助手和自托管部署场景。

0 人收藏 0 人点赞

#speech-to-text

@debugginglife25：使用@SarvamAI构建的Telugu Thodu演示，语音转文字系统将泰卢固语无缝翻译成英语，准确处理…

X AI KOLs Following ↗ · 2026-06-02 缓存

Telugu Thodu 是一款使用 SarvamAI 语音转文字系统构建的应用，演示了其将泰卢固语翻译成英语的高准确度，并能处理停顿和细微差别。

0 人收藏 0 人点赞

#speech-to-text

我将 NVIDIA Parakeet（语音转文本）移植到 ggml：与 NeMo 输出相同，速度更快，GGUF 量化，无需 Python

Reddit r/LocalLLaMA ↗ · 2026-05-31

NVIDIA 的 Parakeet 语音转文本模型已被移植到纯 C++/ggml，实现了与 NeMo 字节完全相同的输出，GPU 上推理速度提升高达 5 倍，并提供量化的 GGUF 变体，无需 Python 或 PyTorch 即可在任何地方高效部署。

0 人收藏 0 人点赞

#speech-to-text

我的无障碍技术栈与 Wayland 上的未来

Lobsters Hottest ↗ · 2026-05-31 缓存

一篇个人记述，讲述 Linux 桌面即将全面转向 Wayland 的未来将如何破坏依赖 Talon Voice 等输入工具的无障碍用户体验，并指出输入无障碍相较于输出无障碍受到的关注严重不足。

0 人收藏 0 人点赞

#speech-to-text

@Honcia13: 强烈推荐一款开源的语音转字幕神器！速度飞快，质量极高！支持中文、日语、韩语、英语等多语言，还特别优化了排版规则，字幕效果自然又专业。这是一款基于 PySide6 + ElevenLabs API 的桌面工具，能把音视频文件或JS…

X AI KOLs Timeline ↗ · 2026-05-30 缓存

推荐基于PySide6和ElevenLabs API的开源语音转字幕工具Scribe2SRT，支持多语言并优化排版，快速生成高质量SRT字幕。

0 人收藏 0 人点赞

#speech-to-text

你真的需要为转录软件付费吗？

Wired ↗ · 2026-05-30 缓存

本文评估了AI转录工具Wispr Flow，并将其与免费替代方案（如开源模型Whisper、Canary以及内置功能苹果听写、谷歌语音输入）进行比较，得出结论：对许多用户来说，付费订阅可能并无必要。

0 人收藏 0 人点赞

#speech-to-text

Parrot Speech-to-text API

Product Hunt ↗ · 2026-05-25

Parrot Speech-to-text API 为生产级语音代理提供快速准确的转写服务。

0 人收藏 0 人点赞

#speech-to-text

我微调了Cohere Transcribe以支持说话人分离和时间戳

Reddit r/LocalLLaMA ↗ · 2026-05-22

微调了最佳开源语音转文字模型Cohere Transcribe，使其支持说话人分离和时间戳。新模型已在Hugging Face上发布。

0 人收藏 0 人点赞

#speech-to-text

AI语音代理的实际工作原理

Reddit r/AI_Agents ↗ · 2026-05-22

关于AI语音代理五层架构的详细解释，包括语音转文字、大语言模型（LLM）、文字转语音、编排器和电话通信，所有层均在500毫秒延迟约束下运行，以保持自然的对话流畅度。

0 人收藏 0 人点赞

#speech-to-text

@gkxspace: 我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码可算找到了一个活菩萨，阶跃星辰的 S…

X AI KOLs Timeline ↗ · 2026-05-20 缓存

阶跃星辰推出Step Plan订阅服务，月费6.99美元，整合了LLM、TTS、ASR、图像生成等多种AI模型，支持OpenAI SDK直连，可用于语音复刻、会议转写、AI播客生成等场景。

0 人收藏 0 人点赞

#speech-to-text

TongueType for macOS

Product Hunt ↗ · 2026-05-19

TongueType 是一款适用于 macOS 的本地听写应用，无需订阅。

0 人收藏 0 人点赞

#speech-to-text

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL ↗ · 2026-05-15 缓存

提出了一种用于流式语音转文本翻译的SpeechLLM架构，该架构根据音频自适应决定何时输出令牌，实现了1-2秒的延迟，且质量接近非流式基线。

0 人收藏 0 人点赞

speech-to-text

提交意见反馈