MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调
摘要
论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - MNAFT:用于图像翻译的多模态大型语言模型模态神经元感知微调
来源:https://huggingface.co/papers/2604.16943 发布日期:4月18日
·
提交者:https://huggingface.co/liboaccn
(https://huggingface.co/liboaccn)
李波 (https://huggingface.co/liboaccn) 于 4月21日
摘要
模态神经元感知微调(MNAFT)通过有选择性地更新多模态大型语言模型中的特定神经元来增强图像翻译,在保留预训练知识的同时提升跨模态理解能力。
多模态大型语言模型(https://huggingface.co/papers?q=Multimodal%20large%20language%20models)(MLLM)已展现出令人印象深刻的能力,但它们往往难以有效捕捉图像中对于准确图像翻译(https://huggingface.co/papers?q=image%20translation)至关重要的细粒度文本信息。这通常导致视觉文本输入与用于图像翻译(https://huggingface.co/papers?q=image%20translation)的文本输入/输出之间存在模态差距(https://huggingface.co/papers?q=modality%20gap)。现有方法主要依赖于指令微调(https://huggingface.co/papers?q=instruction%20fine-tuning),存在预训练知识参数冗余(https://huggingface.co/papers?q=parameter%20redundancy)的风险,阻碍了泛化性能。为了解决这一问题,我们引入了模态神经元感知微调(https://huggingface.co/papers?q=modality%20neuron-aware%20fine-tuning)(MNAFT),这是一种利用多模态大型语言模型中单个神经元专门角色来增强图像翻译(https://huggingface.co/papers?q=image%20translation)的新方法。MNAFT 通过指令驱动的激活分析(https://huggingface.co/papers?q=instruction-driven%20activation%20analysis),识别视觉和语言模块中的语言无关神经元和语言特定神经元(https://huggingface.co/papers?q=language-specific%20neurons),并评估它们在各种翻译任务中的重要性。然后,我们执行选择性微调(https://huggingface.co/papers?q=selective%20fine-tuning),仅更新与目标任务相关的所选层中语言特定和语言无关神经元(https://huggingface.co/papers?q=language-agnostic%20neurons)的参数,同时保留其他神经元和层中编码的知识。我们在多个基准上进行的广泛实验表明,MNAFT 显著优于最先进 的图像翻译(https://huggingface.co/papers?q=image%20translation)方法,包括级联模型、标准全参数微调和参数高效微调技术。此外,我们提供了全面分析,包括神经元激活和聚类模式的可视化,以深入了解不同神经元组在促进跨模态理解(https://huggingface.co/papers?q=cross-modal%20understanding)和实现准确语言特定翻译中的作用。
查看 arXiv 页面(https://arxiv.org/abs/2604.16943)查看 PDF(https://arxiv.org/pdf/2604.16943)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2604.16943)
在您的 agent 中获取此论文:
hf papers read 2604\.16943
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。
引用此论文的数据集0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2604.16943 即可链接到本页面。
包含此论文的收藏集0
没有包含此论文的收藏集
将本文添加到收藏集(https://huggingface.co/new-collection)即可链接到本页面。
相似文章
人工神经网络中的多模态神经元
OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。
LiFT:指令微调能否提升大语言模型的纵向建模上下文学习能力?
## 指令微调能否提升大语言模型的纵向建模上下文学习能力? 来源:[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学(英国),²艾伦·图灵研究所(英国) {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要 纵向NLP任务要求对时间有序的文本进行推理,以检测人类行为和观点的持续性和变化。然而,大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互,以及处理罕见变化事件的任务上存在困难。我们提出了LiFT,一个纵向指令微调框架,将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法,在逐步增加时间难度的同时融入少样本结构和时间条件化,以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型,在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型(OLMo(1B/7B)、LLaMA-8B和Qwen-14B)中,LiFT始终优于基线模型的上下文学习,在分布外数据和少数类变化事件上表现出显著的提升。
使用 Sentence Transformers 训练和微调多模态 Embedding 与 Reranker 模型
本文提供了使用 Sentence Transformers 库训练和微调多模态 Embedding 与 Reranker 模型的技术指南,展示了在基于 Qwen3-VL 的视觉文档检索任务上的性能提升。
面向大型语言模型归因引导的持续学习
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。