MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调
摘要
论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - MNAFT:用于图像翻译的多模态大型语言模型模态神经元感知微调
来源:https://huggingface.co/papers/2604.16943 发布日期:4月18日
·
提交者:https://huggingface.co/liboaccn
(https://huggingface.co/liboaccn)
李波 (https://huggingface.co/liboaccn) 于 4月21日
摘要
模态神经元感知微调(MNAFT)通过有选择性地更新多模态大型语言模型中的特定神经元来增强图像翻译,在保留预训练知识的同时提升跨模态理解能力。
多模态大型语言模型(https://huggingface.co/papers?q=Multimodal%20large%20language%20models)(MLLM)已展现出令人印象深刻的能力,但它们往往难以有效捕捉图像中对于准确图像翻译(https://huggingface.co/papers?q=image%20translation)至关重要的细粒度文本信息。这通常导致视觉文本输入与用于图像翻译(https://huggingface.co/papers?q=image%20translation)的文本输入/输出之间存在模态差距(https://huggingface.co/papers?q=modality%20gap)。现有方法主要依赖于指令微调(https://huggingface.co/papers?q=instruction%20fine-tuning),存在预训练知识参数冗余(https://huggingface.co/papers?q=parameter%20redundancy)的风险,阻碍了泛化性能。为了解决这一问题,我们引入了模态神经元感知微调(https://huggingface.co/papers?q=modality%20neuron-aware%20fine-tuning)(MNAFT),这是一种利用多模态大型语言模型中单个神经元专门角色来增强图像翻译(https://huggingface.co/papers?q=image%20translation)的新方法。MNAFT 通过指令驱动的激活分析(https://huggingface.co/papers?q=instruction-driven%20activation%20analysis),识别视觉和语言模块中的语言无关神经元和语言特定神经元(https://huggingface.co/papers?q=language-specific%20neurons),并评估它们在各种翻译任务中的重要性。然后,我们执行选择性微调(https://huggingface.co/papers?q=selective%20fine-tuning),仅更新与目标任务相关的所选层中语言特定和语言无关神经元(https://huggingface.co/papers?q=language-agnostic%20neurons)的参数,同时保留其他神经元和层中编码的知识。我们在多个基准上进行的广泛实验表明,MNAFT 显著优于最先进 的图像翻译(https://huggingface.co/papers?q=image%20translation)方法,包括级联模型、标准全参数微调和参数高效微调技术。此外,我们提供了全面分析,包括神经元激活和聚类模式的可视化,以深入了解不同神经元组在促进跨模态理解(https://huggingface.co/papers?q=cross-modal%20understanding)和实现准确语言特定翻译中的作用。
查看 arXiv 页面(https://arxiv.org/abs/2604.16943)查看 PDF(https://arxiv.org/pdf/2604.16943)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2604.16943)
在您的 agent 中获取此论文:
hf papers read 2604\.16943
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。
引用此论文的数据集0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。
包含此论文的收藏集0
没有包含此论文的收藏集
将本文添加到收藏集(https://huggingface.co/new-collection)即可链接到本页面。
相似文章
人工神经网络中的多模态神经元
OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。
基于LMO方法的零阶无参数优化:高效微调的新方法
本文介绍了AdaNAGED,一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法,用于大型语言模型的内存高效微调,具有理论收敛保证,并在OPT-1.3B模型上进行了验证。
LiFT:指令微调能否提升大语言模型的纵向建模上下文学习能力?
## 指令微调能否提升大语言模型的纵向建模上下文学习能力? 来源:[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学(英国),²艾伦·图灵研究所(英国) {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要 纵向NLP任务要求对时间有序的文本进行推理,以检测人类行为和观点的持续性和变化。然而,大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互,以及处理罕见变化事件的任务上存在困难。我们提出了LiFT,一个纵向指令微调框架,将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法,在逐步增加时间难度的同时融入少样本结构和时间条件化,以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型,在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型(OLMo(1B/7B)、LLaMA-8B和Qwen-14B)中,LiFT始终优于基线模型的上下文学习,在分布外数据和少数类变化事件上表现出显著的提升。
迈向原生多模态建模:路线图
本文提出了一份正式的路线图,用于从晚期融合多模态方法向统一Transformer框架内的原生多模态建模(NMM)转型,根据输入-输出对偶性对现有模型进行分类,并系统性地讨论了架构协调、数据整理、训练方案和评估。
使用ART微调多模态大语言模型:基于艺术强化训练
ART(基于艺术强化训练)通过梯度反向传播优化原始视觉输入,实现对冻结的多模态大语言模型的参数高效微调,其性能与LoRA相当,同时支持为vLLM等高吞吐引擎预编译的计算图。