@KevinQHLin:介绍 Violin —— 一款开源视频翻译技能。视频是互联网上的主流媒介,然而大多数高质量内容(讲座、演讲、播客)都局限于单一语言,将全球观众拒之门外。
摘要
Violin 是一款开源视频翻译技能,它将语音识别、LLM 翻译和语音合成整合成一个无缝流水线,支持多语言 ASR、个性化翻译以及与视频内容的交互式聊天。
查看缓存全文
缓存时间: 2026/05/15 02:55
介绍Violin——一款开源视频翻译技能。视频是互联网上的主导媒介,但大多数高质量内容(讲座、谈话、播客)局限于单一语言,将全球受众拒之门外。因此,我们构建了Violin:一种视频技能,将语音识别、大语言模型翻译和语音合成整合成一个无缝流程。演示:https://violin-ai.com 博客:https://together.ai/blog/violin-open-source-translation-skill… GitHub:https://github.com/shang-zhu/violin… 主要特性:高质量多语言自动语音识别及翻译及文本转语音。可个性化定制翻译与语音(将学术讲座转化为儿童也能理解的内容)。与视频对话——基于视频内容提出任何问题。支持Web应用、命令行界面和智能体技能。完全开源,采用MIT许可证。由出色的 @ShangZhu18 构建,并在 @james_y_zou 的指导下完成!所有功能由 @togethercompute 提供支持。立即体验并告诉我们你的想法!
Violin — 视频叙述器
来源:https://www.violin-ai.com/ 支持Vimeo、X/Twitter以及1000+个站点(https://github.com/yt-dlp/yt-dlp/blob/master/supportedsites.md)· 最长2小时 · YouTube可能无法在云服务器上使用
仅使用你有权下载的网址——知识共享、公共领域或你自己的内容。
相似文章
@berryxia: 兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被…
Violin是一个开源视频翻译工具,集成了语音识别、大语言模型翻译和语音合成功能,支持30多种语言,提供CLI、Web应用和Claude Code三种使用方式。
@aigclink: 一个开源的端到端视频翻译+视频问答Skill:violin,亮点是不只是直译,而是内容再创作的设想 它把ASR、LLM翻译和TTS整合成了一条无缝管道视频Skill,这三个环节自动衔接,输入视频即得到翻译后的配音视频 翻译风格可调,比如说…
Violin是一个开源端到端视频翻译+视频问答工具,整合ASR、LLM翻译和TTS,支持风格调整和内容再创作,可针对视频内容问答。
VITA-QinYu:用于角色扮演和唱歌的表现力口语语言模型
VITA-QinYu 是一个具有表现力的端到端口语语言模型,支持角色扮演和唱歌功能。该模型在 15.8 万小时的数据集上进行训练,在表现力和对话准确性方面均优于同类模型。
构建实时语音翻译应用(阅读时长:28 分钟)
OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。
Descript 如何大规模实现多语言视频配音
Descript 重新设计了其翻译管道,使用 OpenAI 推理模型来优化大规模多语言视频配音,通过解决语音时长与视频时间限制匹配的挑战,实现了翻译视频导出量增加 15%,以及各语言时长符合度提升 13-43%。