easyaligner: 支持GPU加速和灵活文本归一化的强制对齐工具(兼容HF Hub上的所有w2v2模型)[P]

Reddit r/MachineLearning 工具

摘要

easyaligner是一个开源强制对齐库,具有GPU加速和灵活的文本归一化功能,适配Hugging Face Hub上的所有wav2vec2模型。它针对实际工作流进行了优化,可以处理部分转录、无关语音段落和长音频(无需分块),同时保留原始文本格式。

https://preview.redd.it/f4d5krhkjyvg1.png?width=1020&format=png&auto=webp&s=11310f377b22abbe3dd110cc7d362ba8aae35f8d 我开发了[`easyaligner`](https://kb-labb.github.io/easyaligner/),一个设计用于高性能且易于使用的强制对齐库。在为语音转文字模型预处理数十万小时的音频和文本的工作中,我发现现有的开源强制对齐库往往缺少一些实用功能。对我们的目的而言,工具特别需要能够: * 处理转录内容不覆盖音频全部内容的情况(通过自动检测相关音频区域)。 * 处理音频段开头/结尾存在的无关语音。 * 最好能处理长音频和文本段落,无需分块。 * 对原始文本进行归一化以提高对齐质量,同时保持归一化文本与原始文本的映射关系,以便对齐后恢复原始文本的格式。 `easyaligner`将这些工作流改进整合到一个强制对齐库中。文档包含了不同[对齐场景](https://kb-labb.github.io/easyaligner/get-started/overview.html#tutorials)和[自定义文本处理](https://kb-labb.github.io/easyaligner/get-started/text_processing.html)的教程。对齐输出可以在任何粒度级别(句子、段落等)进行分割,同时保留原始文本的格式。 强制对齐后端使用[PyTorch的强制对齐API](https://docs.pytorch.org/audio/main/tutorials/ctc_forced_alignment_api_tutorial.html),并采用基于GPU的Viterbi算法实现。它既快速又节省内存,可以在一次处理中处理数小时的音频/文本,无需对音频进行分块。我已经调整了API,支持从Hugging Face Hub上所有的wav2vec2模型提取发射值。只要HF Hub上有能转录该语言的w2v2模型,你就可以对任何语言的音频和文本进行强制对齐。 `easyaligner`支持从原始转录和ASR模型输出进行对齐。查看其配套库[`easytranscriber`](https://kb-labb.github.io/easytranscriber/)了解如何将`easyaligner`作为后端来对齐ASR输出的示例。它的工作方式与`WhisperX`相同,但转录速度[快35%到102%](https://kb-labb.github.io/easytranscriber/benchmarks.html),具体取决于硬件配置。 文档:[https://kb-labb.github.io/easyaligner/](https://kb-labb.github.io/easyaligner/) Github源码(MIT许可证):[https://github.com/kb-labb/easyaligner](https://github.com/kb-labb/easyaligner)
查看原文

相似文章

我们的对齐研究方法

OpenAI Blog

OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。

LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型

Hugging Face Daily Papers

LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。

dealignai/Gemma-4-31B-JANG_4M-CRACK

Hugging Face Models Trending

这是 Gemma-4-31B 模型的一个消融版本的 Hugging Face 发布,旨在绕过安全过滤器以进行安全性与危害性基准测试,同时保留多模态能力。