MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调

Hugging Face Daily Papers 论文

摘要

论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/6582c482f3006507ea10302a/KbgSsq0FnbMngBcWPhIXi.jpeg)](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)

多模态大语言模型(MLLMs)已展现出令人印象深刻的能力,但它们往往难以有效捕捉图像中对于准确图像翻译至关重要的细粒度文本信息。这经常导致视觉文本输入与图像翻译的文本输入/输出之间存在模态差距。现有方法主要依赖指令微调,存在预训练知识参数冗余的风险,阻碍了泛化性能。为了解决这一问题,我们提出了模态神经元感知微调(MNAFT),这是一种利用MLLMs中单个神经元的专门角色来增强图像翻译的新方法。MNAFT通过指令驱动的激活分析,在视觉和语言模块中识别语言无关和语言特定神经元,评估它们在各种翻译任务中的重要性。然后,我们执行选择性微调,仅更新与目标任务相关的所选层中语言特定和语言无关神经元的参数,同时保留其他神经元和层中编码的知识。我们在多个基准测试上进行的广泛实验表明,MNAFT显著优于最先进的图像翻译方法,包括级联模型、标准全参数微调和参数高效微调技术。此外,我们提供了全面分析,包括神经元激活和聚类模式的可视化,以深入了解不同神经元群体在促进跨模态理解和准确语言特定翻译中的作用。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - MNAFT:用于图像翻译的多模态大型语言模型模态神经元感知微调

来源:https://huggingface.co/papers/2604.16943 发布日期:4月18日

·

提交者:https://huggingface.co/liboaccn

(https://huggingface.co/liboaccn)

李波 (https://huggingface.co/liboaccn) 于 4月21日

摘要

模态神经元感知微调(MNAFT)通过有选择性地更新多模态大型语言模型中的特定神经元来增强图像翻译,在保留预训练知识的同时提升跨模态理解能力。

多模态大型语言模型(https://huggingface.co/papers?q=Multimodal%20large%20language%20models)(MLLM)已展现出令人印象深刻的能力,但它们往往难以有效捕捉图像中对于准确图像翻译(https://huggingface.co/papers?q=image%20translation)至关重要的细粒度文本信息。这通常导致视觉文本输入与用于图像翻译(https://huggingface.co/papers?q=image%20translation)的文本输入/输出之间存在模态差距(https://huggingface.co/papers?q=modality%20gap)。现有方法主要依赖于指令微调(https://huggingface.co/papers?q=instruction%20fine-tuning),存在预训练知识参数冗余(https://huggingface.co/papers?q=parameter%20redundancy)的风险,阻碍了泛化性能。为了解决这一问题,我们引入了模态神经元感知微调(https://huggingface.co/papers?q=modality%20neuron-aware%20fine-tuning)(MNAFT),这是一种利用多模态大型语言模型中单个神经元专门角色来增强图像翻译(https://huggingface.co/papers?q=image%20translation)的新方法。MNAFT 通过指令驱动的激活分析(https://huggingface.co/papers?q=instruction-driven%20activation%20analysis),识别视觉和语言模块中的语言无关神经元和语言特定神经元(https://huggingface.co/papers?q=language-specific%20neurons),并评估它们在各种翻译任务中的重要性。然后,我们执行选择性微调(https://huggingface.co/papers?q=selective%20fine-tuning),仅更新与目标任务相关的所选层中语言特定和语言无关神经元(https://huggingface.co/papers?q=language-agnostic%20neurons)的参数,同时保留其他神经元和层中编码的知识。我们在多个基准上进行的广泛实验表明,MNAFT 显著优于最先进 的图像翻译(https://huggingface.co/papers?q=image%20translation)方法,包括级联模型、标准全参数微调和参数高效微调技术。此外,我们提供了全面分析,包括神经元激活和聚类模式的可视化,以深入了解不同神经元组在促进跨模态理解(https://huggingface.co/papers?q=cross-modal%20understanding)和实现准确语言特定翻译中的作用。

查看 arXiv 页面(https://arxiv.org/abs/2604.16943)查看 PDF(https://arxiv.org/pdf/2604.16943)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2604.16943)

在您的 agent 中获取此论文:

hf papers read 2604\.16943

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。

引用此论文的数据集0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。

包含此论文的收藏集0

没有包含此论文的收藏集

将本文添加到收藏集(https://huggingface.co/new-collection)即可链接到本页面。

相似文章

人工神经网络中的多模态神经元

OpenAI Blog

OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。

LiFT:指令微调能否提升大语言模型的纵向建模上下文学习能力?

arXiv cs.CL

## 指令微调能否提升大语言模型的纵向建模上下文学习能力? 来源:[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学(英国),²艾伦·图灵研究所(英国) {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要 纵向NLP任务要求对时间有序的文本进行推理,以检测人类行为和观点的持续性和变化。然而,大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互,以及处理罕见变化事件的任务上存在困难。我们提出了LiFT,一个纵向指令微调框架,将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法,在逐步增加时间难度的同时融入少样本结构和时间条件化,以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型,在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型(OLMo(1B/7B)、LLaMA-8B和Qwen-14B)中,LiFT始终优于基线模型的上下文学习,在分布外数据和少数类变化事件上表现出显著的提升。

面向大型语言模型归因引导的持续学习

arXiv cs.LG

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。