easyaligner: 支持GPU加速和灵活文本归一化的强制对齐工具(兼容HF Hub上的所有w2v2模型)[P]
摘要
easyaligner是一个开源强制对齐库,具有GPU加速和灵活的文本归一化功能,适配Hugging Face Hub上的所有wav2vec2模型。它针对实际工作流进行了优化,可以处理部分转录、无关语音段落和长音频(无需分块),同时保留原始文本格式。
https://preview.redd.it/f4d5krhkjyvg1.png?width=1020&format=png&auto=webp&s=11310f377b22abbe3dd110cc7d362ba8aae35f8d 我开发了[`easyaligner`](https://kb-labb.github.io/easyaligner/),一个设计用于高性能且易于使用的强制对齐库。在为语音转文字模型预处理数十万小时的音频和文本的工作中,我发现现有的开源强制对齐库往往缺少一些实用功能。对我们的目的而言,工具特别需要能够:
* 处理转录内容不覆盖音频全部内容的情况(通过自动检测相关音频区域)。
* 处理音频段开头/结尾存在的无关语音。
* 最好能处理长音频和文本段落,无需分块。
* 对原始文本进行归一化以提高对齐质量,同时保持归一化文本与原始文本的映射关系,以便对齐后恢复原始文本的格式。
`easyaligner`将这些工作流改进整合到一个强制对齐库中。文档包含了不同[对齐场景](https://kb-labb.github.io/easyaligner/get-started/overview.html#tutorials)和[自定义文本处理](https://kb-labb.github.io/easyaligner/get-started/text_processing.html)的教程。对齐输出可以在任何粒度级别(句子、段落等)进行分割,同时保留原始文本的格式。
强制对齐后端使用[PyTorch的强制对齐API](https://docs.pytorch.org/audio/main/tutorials/ctc_forced_alignment_api_tutorial.html),并采用基于GPU的Viterbi算法实现。它既快速又节省内存,可以在一次处理中处理数小时的音频/文本,无需对音频进行分块。我已经调整了API,支持从Hugging Face Hub上所有的wav2vec2模型提取发射值。只要HF Hub上有能转录该语言的w2v2模型,你就可以对任何语言的音频和文本进行强制对齐。
`easyaligner`支持从原始转录和ASR模型输出进行对齐。查看其配套库[`easytranscriber`](https://kb-labb.github.io/easytranscriber/)了解如何将`easyaligner`作为后端来对齐ASR输出的示例。它的工作方式与`WhisperX`相同,但转录速度[快35%到102%](https://kb-labb.github.io/easytranscriber/benchmarks.html),具体取决于硬件配置。
文档:[https://kb-labb.github.io/easyaligner/](https://kb-labb.github.io/easyaligner/)
Github源码(MIT许可证):[https://github.com/kb-labb/easyaligner](https://github.com/kb-labb/easyaligner)
相似文章
WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力
WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。
WildFeedback: 通过原位用户交互和反馈对齐大语言模型
WildFeedback是一个新颖的框架,它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集,用于将语言模型与人类偏好对齐,解决了传统基于标注的对齐方法中的可扩展性和偏差问题。
我们的对齐研究方法
OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
dealignai/Gemma-4-31B-JANG_4M-CRACK
这是 Gemma-4-31B 模型的一个消融版本的 Hugging Face 发布,旨在绕过安全过滤器以进行安全性与危害性基准测试,同时保留多模态能力。