visual-input-optimization

#visual-input-optimization

使用ART微调多模态大语言模型：基于艺术强化训练

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

ART（基于艺术强化训练）通过梯度反向传播优化原始视觉输入，实现对冻结的多模态大语言模型的参数高效微调，其性能与LoRA相当，同时支持为vLLM等高吞吐引擎预编译的计算图。

0 人收藏 0 人点赞