使用ART微调多模态大语言模型：基于艺术强化训练

Hugging Face Daily Papers 2026/06/10 09:30 论文

fine-tuning multimodal-llm parameter-efficient gradient-backpropagation visual-input-optimization qwen art

摘要

ART（基于艺术强化训练）通过梯度反向传播优化原始视觉输入，实现对冻结的多模态大语言模型的参数高效微调，其性能与LoRA相当，同时支持为vLLM等高吞吐引擎预编译的计算图。

对于大型语言模型（LLM），主要有两种参数高效微调（PEFT）技术。低秩自适应（LoRA）在LLM层之间引入额外权重，而软提示则在LLM输入中添加额外的微调特定原始令牌。然而，两者都需要修改预编译、预优化LLM的计算图。因此，在高吞吐引擎（如vLLM）中均未得到完全支持。我们提出使用ART（基于艺术强化训练）进行微调。该方法通过仅优化冻结的多模态大语言模型（MLLM）的原始视觉输入来注入信息，从而在预编译的计算图上实现软令牌方法。它依赖于将梯度反向传播回普通像素数组，因此支持任何微调目标。此外，优化的视觉输入可以风格化为与任务相关的计算艺术品。该方法在流行的开源Qwen架构的不同规模以及几个文本基准测试中的有效性得到确认。具体而言，ART在数学和结构化工具使用基准测试中达到了与LoRA相当的准确率。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:37

论文页面 - 使用ART（基于艺术的强化训练）微调多模态大语言模型

来源：https://huggingface.co/papers/2606.11854

摘要

ART 通过梯度反向传播优化原始视觉输入，实现对冻结多模态语言模型的参数高效微调，性能与 LoRA 相当，同时支持预编译计算图。

大型语言模型（LLM）主要有两种参数高效微调（https://huggingface.co/papers?q=Parameter-Efficient%20Fine-Tuning）（PEFT）技术。低秩适配（LoRA（https://huggingface.co/papers?q=LoRA））在 LLM 层之间引入额外权重，而软提示（https://huggingface.co/papers?q=Soft%20Prompting）则向 LLM 输入中添加微调特有的原始 token。然而，这两种方法都需要修改预编译、预优化 LLM 的计算图（https://huggingface.co/papers?q=computational%20graphs），因此在高吞吐引擎（如 vLLM（https://huggingface.co/papers?q=vLLM））中均未得到完全支持。我们提出使用 ART（基于艺术的强化训练）进行微调。该方法仅通过优化原始视觉输入，将信息注入冻结的多模态大语言模型（https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Model）（MLLM），从而在预编译计算图（https://huggingface.co/papers?q=computational%20graphs）上支持软 token 方法。它依赖反向传播（https://huggingface.co/papers?q=backpropagation）将梯度传回普通像素数组，因此支持任何微调目标。此外，优化后的视觉输入可风格化为任务相关的计算艺术作品。该方法的有效性已在不同规模的流行开源 Qwen 架构及多个文本基准上得到验证。具体而言，ART 在数学和结构化工具使用基准上达到了与 LoRA（https://huggingface.co/papers?q=LoRA）相当的精度。

查看 arXiv 页面（https://arxiv.org/abs/2606.11854）查看 PDF（https://arxiv.org/pdf/2606.11854）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.11854）

让你的智能体获取这篇论文：

hf papers read 2606\.11854

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

尚无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.11854 以建立链接。

引用此论文的数据集0

尚无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11854 以建立链接。

引用此论文的 Space0

尚无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.11854 以建立链接。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加到一个收藏集（https://huggingface.co/new-collection）以建立链接。

使用ART微调多模态大语言模型：基于艺术强化训练

论文页面 - 使用ART（基于艺术的强化训练）微调多模态大语言模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

@akshay_pachaar: 如果要定制LLM，我会学习的微调技术：收藏此推。1. LoRA 2. QLoRA 3. Prefix Tuning 4. A…

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

ART：高效大语言模型解码中的注意力运行时终止

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

增强多模态推理以对抗视觉退化

提交意见反馈