使用ART微调多模态大语言模型:基于艺术强化训练

Hugging Face Daily Papers 论文

摘要

ART(基于艺术强化训练)通过梯度反向传播优化原始视觉输入,实现对冻结的多模态大语言模型的参数高效微调,其性能与LoRA相当,同时支持为vLLM等高吞吐引擎预编译的计算图。

对于大型语言模型(LLM),主要有两种参数高效微调(PEFT)技术。低秩自适应(LoRA)在LLM层之间引入额外权重,而软提示则在LLM输入中添加额外的微调特定原始令牌。然而,两者都需要修改预编译、预优化LLM的计算图。因此,在高吞吐引擎(如vLLM)中均未得到完全支持。我们提出使用ART(基于艺术强化训练)进行微调。该方法通过仅优化冻结的多模态大语言模型(MLLM)的原始视觉输入来注入信息,从而在预编译的计算图上实现软令牌方法。它依赖于将梯度反向传播回普通像素数组,因此支持任何微调目标。此外,优化的视觉输入可以风格化为与任务相关的计算艺术品。该方法在流行的开源Qwen架构的不同规模以及几个文本基准测试中的有效性得到确认。具体而言,ART在数学和结构化工具使用基准测试中达到了与LoRA相当的准确率。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:37

论文页面 - 使用ART(基于艺术的强化训练)微调多模态大语言模型

来源:https://huggingface.co/papers/2606.11854

摘要

ART 通过梯度反向传播优化原始视觉输入,实现对冻结多模态语言模型的参数高效微调,性能与 LoRA 相当,同时支持预编译计算图。

大型语言模型(LLM)主要有两种参数高效微调(https://huggingface.co/papers?q=Parameter-Efficient%20Fine-Tuning)(PEFT)技术。低秩适配(LoRA(https://huggingface.co/papers?q=LoRA))在 LLM 层之间引入额外权重,而软提示(https://huggingface.co/papers?q=Soft%20Prompting)则向 LLM 输入中添加微调特有的原始 token。然而,这两种方法都需要修改预编译、预优化 LLM 的计算图(https://huggingface.co/papers?q=computational%20graphs),因此在高吞吐引擎(如 vLLM(https://huggingface.co/papers?q=vLLM))中均未得到完全支持。我们提出使用 ART(基于艺术的强化训练)进行微调。该方法仅通过优化原始视觉输入,将信息注入冻结的多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Model)(MLLM),从而在预编译计算图(https://huggingface.co/papers?q=computational%20graphs)上支持软 token 方法。它依赖反向传播(https://huggingface.co/papers?q=backpropagation)将梯度传回普通像素数组,因此支持任何微调目标。此外,优化后的视觉输入可风格化为任务相关的计算艺术作品。该方法的有效性已在不同规模的流行开源 Qwen 架构及多个文本基准上得到验证。具体而言,ART 在数学和结构化工具使用基准上达到了与 LoRA(https://huggingface.co/papers?q=LoRA)相当的精度。

查看 arXiv 页面(https://arxiv.org/abs/2606.11854)查看 PDF(https://arxiv.org/pdf/2606.11854)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11854)

让你的智能体获取这篇论文:

hf papers read 2606\.11854

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

尚无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.11854 以建立链接。

引用此论文的数据集0

尚无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11854 以建立链接。

引用此论文的 Space0

尚无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.11854 以建立链接。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以建立链接。

相似文章

ART:高效大语言模型解码中的注意力运行时终止

arXiv cs.CL

本文提出ART,一种轻量级的运行时机制,它在LLM解码过程中追踪累积的注意力输出,并在进一步贡献变得微不足道时终止不必要的KV块访问,从而在保持相当精度的同时实现20%更高的生成吞吐量。

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。

CRMA: 一种用于LLM模块化持续微调的谱界主干

arXiv cs.LG

CRMA引入了一种谱界残差适配器,通过Sinkhorn归一化强制实现双随机混合矩阵,使LLM能够持续微调而不发生灾难性遗忘。在Mistral-7B和Gemma-2-9B上的实验结果表明,与冻结基底的基线相比,后向迁移得到改善,遗忘减少。

目标条件监督学习用于LLM微调

arXiv cs.LG

本文提出了目标条件监督学习(GCSL)作为LLM的离线微调框架,该方法将反馈作为显式目标,通过一种新颖的目标公式和自然语言目标表示,使用监督学习训练模型。在无毒生成、代码生成和LLM推荐三个任务上的评估显示,该方法优于标准的离线基线方法。