@Honcia13: 强烈推荐一款开源的语音转字幕神器！速度飞快，质量极高！支持中文、日语、韩语、英语等多语言，还特别优化了排版规则，字幕效果自然又专业。这是一款基于 PySide6 + ElevenLabs API 的桌面工具，能把音视频文件或JS…

X AI KOLs Timeline 2026/05/30 13:23 工具

open-source speech-to-text subtitle-tool desktop-application elevenlabs multi-language productivity-tool

摘要

推荐基于PySide6和ElevenLabs API的开源语音转字幕工具Scribe2SRT，支持多语言并优化排版，快速生成高质量SRT字幕。

强烈推荐一款开源的语音转字幕神器！速度飞快，质量极高！支持中文、日语、韩语、英语等多语言，还特别优化了排版规则，字幕效果自然又专业。这是一款基于 PySide6 + ElevenLabs API 的桌面工具，能把音视频文件或JSON转录稿智能转换成高质量SRT字幕，尤其适合中日韩英的排版习惯。做视频、剪辑、做课件、出字幕的朋友，真的太香了！ https://github.com/cylind/scribe2srt…

查看原文

查看缓存全文

缓存时间: 2026/05/31 07:03

cylind/scribe2srt

Source: https://github.com/cylind/scribe2srt

Scribe2SRT

Scribe2SRT 是一款专业的音视频转字幕工具。通过集成 ElevenLabs 语音识别技术和智能字幕分割算法，让字幕制作变得简单高效。

🚀 主要特性

🎯 高质量转录：基于 ElevenLabs 先进的语音识别技术
🌍 多语言支持：支持中文、英文、日文、韩文等多种语言
📝 专业字幕标准：遵循 Netflix 等行业标准的字幕制作规范
⚡ 智能分割算法：基于标点符号优先级的语义分割，保持句子完整性
🔄 智能重试机制：失败时自动保留临时文件，重试时快速恢复
🎨 用户友好界面：简洁直观的图形用户界面，支持拖拽操作
📊 实时进度反馈：清晰的进度显示和状态提示

💻 安装使用

快速开始

前往 Releases 页面下载最新版本
解压后直接运行程序
推荐安装 FFmpeg：用于视频文件处理，提升兼容性和处理效率

从源码运行（点击展开）

安装步骤

下载项目

git clone https://github.com/your-username/scribe2srt.git
cd scribe2srt

安装依赖
```
pip install -r requirements.txt
```
运行程序
```
python app.py
```

📖 使用方法

基本操作流程

选择输入文件
- 点击“选择文件“按钮或直接拖拽文件到程序窗口
- 支持三种输入类型：
  - 音频文件：支持所有常见音频格式（MP3, WAV, FLAC, M4A, AAC, OGG 等）
  - 视频文件：支持所有常见视频格式（MP4, MOV, MKV, AVI, FLV, WEBM 等）
  - JSON 转录文件：ElevenLabs 格式的转录数据
配置处理选项
- 语言选择：选择源语言或使用“自动检测“
- 音频事件标记：选择是否标记非语音事件（如笑声、掌声等）
开始处理
- 点击“生成字幕“按钮开始转录
- 程序会显示详细的处理进度
获取结果
- 处理完成后，SRT 字幕文件会自动保存到源文件同目录
- 程序会显示输出文件路径

字幕质量标准

本工具遵循专业字幕制作标准：

时长控制：最短 0.83 秒，最长 7.0 秒
字符密度：CJK 语言每秒最多 11 字符，拉丁语言每秒最多 15 字符
行长限制：CJK 语言每行最多 25 字符，拉丁语言每行最多 42 字符
语义完整性：优先保持句子完整，基于标点符号优先级分割

⚙️ 高级设置

字幕参数调整

通过“字幕设置“菜单可以调整：

字幕显示时长和间隔
字符密度限制
每行字符数限制

大文件处理

自动分段处理长文件（90分钟以上）
支持并发处理，提升处理速度
智能重试机制，确保处理成功

🔧 技术特点

智能分割算法

两阶段处理：句子预分割 + 智能合并
标点符号优先：基于语言学规律的分割策略
语义完整性：避免破坏句子结构
多语言优化：针对不同语言的差异化处理

📄 许可证

本项目采用 MIT 许可证。

如果这个项目对您有帮助，请给我们一个 ⭐ Star！

相似文章

@yhslgg: 兄弟们，再分享一个开源视频翻译工具——pyVideoTrans，GitHub 17700 星，做视频搬运和本地化的必备！一句话：一个视频丢进去，自动走完语音识别→字幕翻译→AI配音→视频合成整条流水线，出来就是另一种语言的完整视频。核…

X AI KOLs Timeline

pyVideoTrans 是一个开源视频翻译工具，支持自动语音识别、字幕翻译、AI 配音和视频合成，集成了多种 ASR、翻译和 TTS 引擎，适合跨语言视频制作和本地化。

@wsl8297: 想把电子书或文档做成有声书？很多工具不是声音太“机器人”，就是不支持字幕同步，折腾一圈还是不满意。我后来发现了开源项目 Abogen：支持 ePub、PDF、纯文本等，一键转高质量音频，还能自动生成同步字幕。它底层用 Kokoro 语…

X AI KOLs Timeline

Abogen 是一个开源工具，可将 ePub、PDF 等文档一键转为高质量音频，并自动生成同步字幕，支持语音混合器和多种部署方式。

@yhslgg: 老杨再特么分享一个宝藏开源工具——KrillinAI，GitHub 10000 星，做多语言音视频内容的绝对值得看！一句话：从视频下载到字幕翻译、AI配音、视频合成，整条链路全包，还能自动生成平台封面，B站、抖音、小红书、YouTube…

X AI KOLs Timeline

KrillinAI 是一款开源工具，整合了视频下载、字幕翻译、AI配音、视频合成全流程，支持上下文感知翻译、语音克隆、自动布局和封面生成，兼容多种AI模型，适合多语言音视频内容创作与分发。

@noahduck283: 可以下载任何 YouTube 视频、干净地去除人声、进行转录、翻译成 100 多种语言、克隆原声并完成全自动配音的工具。全程不到 2 分钟。100% 本地运行。免费把六个顶级开源模型缝进了一个网页"一键下载、去人声、转录、翻译、配音"的…

X AI KOLs Timeline

Voice-Pro 是一个整合了六个顶级开源模型（Whisper、Demucs、CosyVoice、F5-TTS 等）的网页工具，支持 YouTube 视频下载、去人声、转录、翻译、语音克隆和全自动配音，全程不到2分钟，100%本地运行且免费。

@VincentLogic: 发现个字节开源的桌面 AI 神器！ UI-TARS Desktop，31k stars 不是吹的，这玩意儿真能看懂你的屏幕，然后帮你自动操作电脑。你告诉它"帮我把 VS Code 的自动保存打开，延迟改成 500 毫秒"，它就自己： -…

X AI KOLs Timeline

字节跳动开源的桌面 AI 自动化工具 UI-TARS Desktop 支持本地运行与屏幕视觉理解，可通过自然语言指令自主操控电脑完成日常任务。

cylind/scribe2srt

Scribe2SRT

🚀 主要特性

💻 安装使用

快速开始

安装步骤

📖 使用方法

基本操作流程

字幕质量标准

⚙️ 高级设置

字幕参数调整

大文件处理

🔧 技术特点

智能分割算法

📄 许可证

相似文章

@VincentLogic: 发现个字节开源的桌面 AI 神器！ UI-TARS Desktop，31k stars 不是吹的，这玩意儿真能看懂你的屏幕，然后帮你自动操作电脑。 你告诉它"帮我把 VS Code 的自动保存打开，延迟改成 500 毫秒"，它就自己： -…

提交意见反馈

@VincentLogic: 发现个字节开源的桌面 AI 神器！ UI-TARS Desktop，31k stars 不是吹的，这玩意儿真能看懂你的屏幕，然后帮你自动操作电脑。你告诉它"帮我把 VS Code 的自动保存打开，延迟改成 500 毫秒"，它就自己： -…