标签
FastUbu 是一个工具,它将索引和转录等现代 AI 技术应用于已有 30 年历史的 Ubu 电影档案,旨在通过 Kino API 提供超快速的视频处理。
Trace是一款Mac应用,能在本地转录会议内容,无需上传音频,用户可在通话中标记重要时刻,并获取清晰的Markdown转录稿。
开源了一套包含11个AI工具脚本的集合,用于从抖音、B站、微信公众号等多渠道采集内容并转录为文字,方便构建个人知识库。支持Claude Code、Codex等Agent直接安装使用。
用户解释了他们如何使用Fable(一款AI工具)通过代码和工具调用来编辑自己的发布视频,包括转录、ffmpeg、色彩校正、Figma MCP和Remotion UI,全程无需触碰视频编辑器。
一套包含11个AI技能的开源工具包,支持多平台内容自动转录、知识库管理、行业情报监测等,可直接在Claude Code等AI代理中加载使用。
微软发布了VibeVoice开源模型,可一次性处理一整小时的音频,并返回带有说话人识别和时间戳的结构化文本,颠覆了付费转录服务。
Signal Recorder SR-7 是一款设备端语音记录器,可转录音频并导出 Markdown 文件。
本文评估了AI转录工具Wispr Flow,并将其与免费替代方案(如开源模型Whisper、Canary以及内置功能苹果听写、谷歌语音输入)进行比较,得出结论:对许多用户来说,付费订阅可能并无必要。
用户分享如何将 Granola(通话转录工具)和 Lovable(构建工具)结合使用,在通话结束15分钟内为客户交付了一个可运行的原型。
TechCrunch对亚马逊Bee可穿戴设备的评测,这是一款能够记录、转录和总结对话的AI设备。评测者认为它在专业场景下很有用,但表达了对隐私的担忧。
Voice-Pro 是一个整合了六个顶级开源模型(Whisper、Demucs、CosyVoice、F5-TTS 等)的网页工具,支持 YouTube 视频下载、去人声、转录、翻译、语音克隆和全自动配音,全程不到2分钟,100%本地运行且免费。
yapsnap 是一个命令行工具,用于将来自各种来源(YouTube、TikTok 等)的视频/音频转录为纯文本,仅使用 CPU,无需 GPU 或云。它利用 sherpa-onnx 和 yt-dlp 实现离线快速转录。
PrivateScribe.ai 是一个完全本地化、MIT许可的AI转录平台,具有HIPAA保护机制,现已推出捆绑的macOS应用、上手向导、说话人分离和加密功能。
本文评估了使用大语言模型自动标注汉语口语叙事宏观结构的效果,发现最佳模型在降低65%标注时间的同时,达到了接近人类水平的可靠性,但在语义复杂或词汇多样的叙事文本上性能有所下降。
本文分析了《回通官话译语》这一明代多语词汇集,将其视为一种结构化的跨语言转录系统,该系统使用汉字来代表非汉语语言,揭示了汉语音韵范畴如何被灵活扩展用于语音近似。
安大略省审计长发现,医生使用的AI转录工具产生错误和幻觉,可能危及患者护理,并批评政府测试不足。
Meetily 是一款以隐私为先、开源的 AI 会议助手,能够完全在用户的基础设施上本地捕获、转录和总结会议。
一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。