将E4B音频编码器添加到更大的模型

Reddit r/LocalLLaMA 工具

摘要

作者提出一种方法,将E4B音频编码器添加到更大的模型中,通过提取编码器、创建线性投影层,并仅使用文本-音频对微调该层,类似于参考论文中的方法,但使用Gemma而非Whisper。

我很好奇是否有人尝试过这样做,我稍微研究了一下,发现这似乎比我想象的要容易,如果我的假设有误,请指正。以下是我的操作步骤:1. 从E4B或E2B中提取300MB的音频编码器 2. 在PyTorch中创建一个新的线性投影层,将E4B编码器的输出映射到更大目标模型的隐藏维度大小 3. 获取文本和音频配对的数据集 4. 冻结大型模型和音频编码器,只训练新的线性投影层 由于只需训练新层,训练过程应该相对较快,且不会对大型模型的输出产生负面影响。基本上与[这篇论文](https://arxiv.org/html/2309.13963)相同,但使用为低延迟LLM构建的Gemma编码器代替Whisper编码器。
查看原文

相似文章

Gemma 4 音频与 MLX

Simon Willison's Blog

在 macOS 上使用 Gemma 4 E2B 模型、MLX 和 mlx-vlm 进行音频转录的实用指南,包含 uv run 方法及工作流程演示。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。

google/gemma-4-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。

Whisper 介绍

OpenAI Blog

OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。