speech-to-text

标签

Cards List
#speech-to-text

如果应用需要实时语音转文字,Whisper 是否仍是最佳默认选择?

Reddit r/AI_Agents · 昨天

探讨在考虑替代方案和性能权衡的情况下,OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。

0 人收藏 0 人点赞
#speech-to-text

完全本地语音助手搭建指南

Lobsters Hottest · 昨天 缓存

基于树莓派和Platypush搭建完全本地语音助手指南,涵盖热词检测、语音转文字、文字转语音以及家庭自动化集成。

0 人收藏 0 人点赞
#speech-to-text

@iluciddreaming: Google 又干掉了一个创业公司…… Google AI Edge Eloquent 现已支持 Mac,完全本地的 Wispr Flow 替代品。 基于最新 Gemma 模型,支持实时语音转录 + 语音命令编辑文本。 免费、无订阅、无需…

X AI KOLs Timeline · 2天前 缓存

Google AI Edge Eloquent 现已支持 Mac,作为完全本地的 Wispr Flow 替代品,基于最新 Gemma 模型实现实时语音转录和语音命令编辑文本,免费、无订阅且隐私全本地。

0 人收藏 0 人点赞
#speech-to-text

Mutter AI Dictation

Product Hunt · 5天前

Mutter AI Dictation 是一款私密的 AI 听写工具,支持离线使用。

0 人收藏 0 人点赞
#speech-to-text

我患有脊髓性肌萎缩症,却依然玩电子游戏

Hacker News Top · 6天前 缓存

患有脊髓性肌萎缩症的游戏玩家安德烈·切博塔尔分享了他日常使用的辅助工具,包括用于面部手势控制的PlayAbility、用于本地语音转文字的Handy以及Xbox自适应控制器,以进行游戏和交流。

0 人收藏 0 人点赞
#speech-to-text

Montreal Forced Aligner与2026年语音转文字对齐的现状

arXiv cs.CL · 6天前 缓存

本文记录了Montreal Forced Aligner 3.0,一款广泛使用的开源强制对齐工具,在英语、日语和韩语上实现了最先进的性能,平均边界误差低于15毫秒。

0 人收藏 0 人点赞
#speech-to-text

@svpino: 这样的表现之后,呼叫中心不可能继续存在。听听这段对话,你分辨不出我是在和一个……

X AI KOLs Following · 2026-06-15 缓存

Cartesia 发布了 Sonic-3.5(文本转语音)和 Ink-2(语音转文本),声称它们是语音助手领域排名第一的流式模型,有可能颠覆呼叫中心。

0 人收藏 0 人点赞
#speech-to-text

@Smartpigai: 每次有人问我“做内容 / 视频 / 素材管理用啥工具”,我都懒得再解释了,直接一次性整理好,你自己存 1、视频剪辑(用代码做视频) https://github.com/remotion-dev/remotion… 2、语音转字幕 / 会…

X AI KOLs Timeline · 2026-06-07 缓存

一个帖子整理了多个用于内容创作的开源工具,包括视频剪辑、语音转字幕、AI绘图、媒体处理等,强调免费开源且可拼成自己的系统。

0 人收藏 0 人点赞
#speech-to-text

@kwindla: https://x.com/kwindla/status/2062544580105359686

X AI KOLs Timeline · 2026-06-04 缓存

NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。

0 人收藏 0 人点赞
#speech-to-text

@debugginglife25:使用@SarvamAI构建的Telugu Thodu演示,语音转文字系统将泰卢固语无缝翻译成英语,准确处理…

X AI KOLs Following · 2026-06-02 缓存

Telugu Thodu 是一款使用 SarvamAI 语音转文字系统构建的应用,演示了其将泰卢固语翻译成英语的高准确度,并能处理停顿和细微差别。

0 人收藏 0 人点赞
#speech-to-text

我将 NVIDIA Parakeet(语音转文本)移植到 ggml:与 NeMo 输出相同,速度更快,GGUF 量化,无需 Python

Reddit r/LocalLLaMA · 2026-05-31

NVIDIA 的 Parakeet 语音转文本模型已被移植到纯 C++/ggml,实现了与 NeMo 字节完全相同的输出,GPU 上推理速度提升高达 5 倍,并提供量化的 GGUF 变体,无需 Python 或 PyTorch 即可在任何地方高效部署。

0 人收藏 0 人点赞
#speech-to-text

我的无障碍技术栈与 Wayland 上的未来

Lobsters Hottest · 2026-05-31 缓存

一篇个人记述,讲述 Linux 桌面即将全面转向 Wayland 的未来将如何破坏依赖 Talon Voice 等输入工具的无障碍用户体验,并指出输入无障碍相较于输出无障碍受到的关注严重不足。

0 人收藏 0 人点赞
#speech-to-text

@Honcia13: 强烈推荐一款开源的语音转字幕神器! 速度飞快,质量极高! 支持中文、日语、韩语、英语等多语言,还特别优化了排版规则, 字幕效果自然又专业。 这是一款基于 PySide6 + ElevenLabs API 的桌面工具, 能把音视频文件或JS…

X AI KOLs Timeline · 2026-05-30 缓存

推荐基于PySide6和ElevenLabs API的开源语音转字幕工具Scribe2SRT,支持多语言并优化排版,快速生成高质量SRT字幕。

0 人收藏 0 人点赞
#speech-to-text

你真的需要为转录软件付费吗?

Wired · 2026-05-30 缓存

本文评估了AI转录工具Wispr Flow,并将其与免费替代方案(如开源模型Whisper、Canary以及内置功能苹果听写、谷歌语音输入)进行比较,得出结论:对许多用户来说,付费订阅可能并无必要。

0 人收藏 0 人点赞
#speech-to-text

Parrot Speech-to-text API

Product Hunt · 2026-05-25

Parrot Speech-to-text API 为生产级语音代理提供快速准确的转写服务。

0 人收藏 0 人点赞
#speech-to-text

我微调了Cohere Transcribe以支持说话人分离和时间戳

Reddit r/LocalLLaMA · 2026-05-22

微调了最佳开源语音转文字模型Cohere Transcribe,使其支持说话人分离和时间戳。新模型已在Hugging Face上发布。

0 人收藏 0 人点赞
#speech-to-text

AI语音代理的实际工作原理

Reddit r/AI_Agents · 2026-05-22

关于AI语音代理五层架构的详细解释,包括语音转文字、大语言模型(LLM)、文字转语音、编排器和电话通信,所有层均在500毫秒延迟约束下运行,以保持自然的对话流畅度。

0 人收藏 0 人点赞
#speech-to-text

@gkxspace: 我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样 我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码 可算找到了一个活菩萨,阶跃星辰的 S…

X AI KOLs Timeline · 2026-05-20 缓存

阶跃星辰推出Step Plan订阅服务,月费6.99美元,整合了LLM、TTS、ASR、图像生成等多种AI模型,支持OpenAI SDK直连,可用于语音复刻、会议转写、AI播客生成等场景。

0 人收藏 0 人点赞
#speech-to-text

TongueType for macOS

Product Hunt · 2026-05-19

TongueType 是一款适用于 macOS 的本地听写应用,无需订阅。

0 人收藏 0 人点赞
#speech-to-text

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL · 2026-05-15 缓存

提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈