将E4B音频编码器添加到更大的模型

Reddit r/LocalLLaMA 2026/05/15 16:48 工具

audio-encoder model-integration linear-projection transfer-learning e4b gemma

摘要

作者提出一种方法，将E4B音频编码器添加到更大的模型中，通过提取编码器、创建线性投影层，并仅使用文本-音频对微调该层，类似于参考论文中的方法，但使用Gemma而非Whisper。

我很好奇是否有人尝试过这样做，我稍微研究了一下，发现这似乎比我想象的要容易，如果我的假设有误，请指正。以下是我的操作步骤：1. 从E4B或E2B中提取300MB的音频编码器 2. 在PyTorch中创建一个新的线性投影层，将E4B编码器的输出映射到更大目标模型的隐藏维度大小 3. 获取文本和音频配对的数据集 4. 冻结大型模型和音频编码器，只训练新的线性投影层由于只需训练新层，训练过程应该相对较快，且不会对大型模型的输出产生负面影响。基本上与[这篇论文](https://arxiv.org/html/2309.13963)相同，但使用为低延迟LLM构建的Gemma编码器代替Whisper编码器。

查看原文

将E4B音频编码器添加到更大的模型

相似文章

Gemma 4 音频与 MLX

T5Gemma：一种新的编码器-解码器 Gemma 模型集合

google/gemma-4-31B-it-assistant

google/gemma-4-26B-A4B-it

Whisper 介绍

提交意见反馈