PRISMR: 通过参数化表征内化克服多模态列表排序中的解析崩溃

arXiv cs.AI 论文

摘要

PRISMR 提出了一种使用超网络和 LoRA 内化列表结构的框架,克服了多模态列表排序中的解析崩溃。它引入了一个大规模基准,并展示了在多个领域和骨干网络上的解析崩溃减少和排序性能提升。

arXiv:2606.12942v1 公告类型:新 摘要:基于生成式列表排序的大型多模态模型(LMMs)旨在通过单次前向传播捕获全局列表上下文,但在长上下文多模态场景中其效果会下降。我们识别出一种反复出现的失败模式,即解析崩溃(parse collapse),其中自回归解码器生成流畅但不完整的排序,通过静默省略候选并提前终止。这种失败源于有限的上下文利用率,而非简单的格式错误,使得提示工程和约束解码不足以解决。我们提出 PRISMR(Parameterized Representation Internalization for Semantic Multimodal Ranking,语义多模态排序的参数化表征内化),一种用参数化结构条件替代瞬态上下文列表处理的框架。PRISMR 使用轻量级超网络并行编码多模态候选,并生成特定项的 LoRA 权重,这些权重被合成为 LMM 的实例特定适配器。这一范式能够在保留基础模型的同时更鲁棒地内化列表结构。我们还引入了一个大规模的多模态评论排序基准用于评估。实验表明,PRISMR 大幅减少了解析崩溃,提升了列表排序性能,并能在不同领域和指令微调骨干网络上有效迁移。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:54

# PRISMR:通过参数化表征内化克服多模态列表排序中的解析崩溃  
来源:https://arxiv.org/html/2606.12942  

郝江¹ 李欣¹ 王安南¹ 杨志² 张浩翔² 张一驰³ 林伟思¹  
¹南洋理工大学 ²北京大学 ³独立研究者  
\{jianghao907, lixin.1997.lixin, haoxiang.z.f, yichizhang0926\}@gmail.com  
[email protected]  
[email protected]  
[email protected]  

###### 摘要  
使用大型多模态模型(LMM)进行生成式列表排序旨在通过单次前向传播捕获全局列表上下文,但在长上下文多模态场景中其效果会下降。我们识别出一种反复出现的失败模式——*解析崩溃*,即自回归解码器会产生流畅但不完整的排序,悄悄地遗漏候选项并提前终止。这种失败源于有限的上下文利用,而非简单的格式错误,因此提示工程和约束解码不足以应对。我们提出 **PRISMR**(用于语义多模态排序的参数化表征内化),这是一种框架,用参数化结构条件取代瞬时的上下文列表处理。PRISMR 使用轻量级超网络并行编码多模态候选项,并生成每个项特定的 LoRA 权重,然后合成为一个实例特定的适配器用于 LMM。这种范式能够在保留基础模型的同时更稳健地内化列表结构。我们还引入了一个大规模多模态评论排序基准用于评估。实验表明,PRISMR 显著减少了解析崩溃,提高了列表排序性能,并能跨领域和指令微调骨干有效迁移。  

## 1 引言  
大型多模态模型(LMM)[1 (https://arxiv.org/html/2606.12942#bib.bib1),30 (https://arxiv.org/html/2606.12942#bib.bib30),33 (https://arxiv.org/html/2606.12942#bib.bib33)] 在交织文本和视觉上下文的推理中展现了卓越能力。随着这些模型越来越多地部署在排序学习(LTR)场景中,现有排序范式在长上下文设置下面临持续的权衡[12 (https://arxiv.org/html/2606.12942#bib.bib12)]。传统上,点式评分计算高效但本质上无法考虑列表级别的交互,导致 top-k 排序校准不良[15 (https://arxiv.org/html/2606.12942#bib.bib15),7 (https://arxiv.org/html/2606.12942#bib.bib7)]。成对排序捕获了相对偏好,但在推理时带来了难以处理的 O(N²) 计算复杂度。生成式列表排序[8 (https://arxiv.org/html/2606.12942#bib.bib8),16 (https://arxiv.org/html/2606.12942#bib.bib16),3 (https://arxiv.org/html/2606.12942#bib.bib3),32 (https://arxiv.org/html/2606.12942#bib.bib32),24 (https://arxiv.org/html/2606.12942#bib.bib24),25 (https://arxiv.org/html/2606.12942#bib.bib25),17 (https://arxiv.org/html/2606.12942#bib.bib17)] 理论上通过评估整个候选项列表以利用全局上下文解决了这些低效问题,但随着候选项列表的增长,它变得高度不稳定且计算昂贵。这种不稳定表现为将 LMM 用于多模态列表排序时严重的生成脆弱性。如图 1 (https://arxiv.org/html/2606.12942#S1.F1) 所示,当处理长多模态上下文(其中大量文本与密集视觉特征交错)时,LMM 会遭受加剧的注意力稀释和“中间丢失”现象[14 (https://arxiv.org/html/2606.12942#bib.bib14)]。因此,LMM 经常经历灾难性的**解析崩溃**。自回归生成过程未能严格遵守结构约束,导致严重的幻觉、遗漏候选项以及不可解析的对话式输出,而非请求的排序列表。  

现有的适应方法无法解决这一瓶颈。标准的有监督微调(SFT)和直接偏好优化(DPO)试图通过永久性地改变全局权重来强制输出格式,但难以动态适应高度可变的实例级多模态上下文。相反,传统的上下文蒸馏(CD)方法需要计算昂贵的逐提示梯度更新,使其不适用于实时的、大规模的排序系统。  

参照标题 图 1:传统的生成式列表排序将所有多模态候选项输入解码器上下文,随着列表增长导致注意力稀释和解析崩溃。  

为了克服列表生成的固有脆弱性和当前适应方法的低效,我们提出了 **PRISMR**(用于语义多模态排序的参数化表征内化)。将范式从传统的上下文提示处理转变为参数化结构条件,PRISMR 利用轻量级超网络通过单次前馈传递即时编码复杂的系统指令和丰富的多模态候选项上下文(评论内容、商品标题和图像)到一个低秩适应(LoRA)模块。通过将跨模态交互和排序任务约束投影到解码前的低秩权重增量中,PRISMR 大幅减少了导致解析崩溃的上下文负担。生成的 LoRA 在解码过程中充当强大的实例级结构先验,在我们的实验中经验性地将每槽解析率提升至 99.9% 以上,同时保留基础模型的通用世界知识和零样本能力。大量实验表明,PRISMR 建立了多模态列表排序的新最先进水平。我们的主要贡献总结如下:  

- • **一种长度自适应的 PRISMR 框架,用于多模态列表排序。** 我们提出 PRISMR,一种参数化内化框架,将长的多模态列表实例映射为前馈 LoRA 更新,从而将候选项信息从脆弱的提示 token 转移到结构化的参数空间。单一训练好的超网络支持两种零成本测试时合成模式:α 模式(∑ᵢ Bᵢ Aᵢ),提供更高的分布内容量;以及 β 模式(1/N ∑ᵢ Bᵢ Aᵢ),在长度外推下提高鲁棒性。  
- • **一个多模态列表评论排序基准。** 我们从 Amazon Reviews 2023[9 (https://arxiv.org/html/2606.12942#bib.bib9)] 构建了一个特定领域的多模态评论排序基准,其中每个示例包含同一产品的多条评论,包括标题、文本内容和用户上传的图像。该基准提供对评论质量的列表级监督,并将公开发布以支持长上下文多模态排序研究。  
- • **对解析崩溃和排序质量的系统分析。** 我们将解析崩溃识别为生成式 LMM 列表排序的主要失败模式,其中模型静默地遗漏候选项或无法产生有效排序。我们刻画了其对列表长度和图像密度的依赖性,并展示了 PRISMR 如何提高格式可靠性。  

## 2 相关工作  

### 2.1 多模态列表排序与生成脆弱性  
生成式大语言模型(LLM)重塑了信息检索(IR)和排序学习(LTR)。虽然点式方法线性扩展但忽略列表级动态,而像 RankGPT[29 (https://arxiv.org/html/2606.12942#bib.bib29)] 这样的生成式列表方法评估整个候选项列表以利用全局上下文。为了直接优化列表级指标,最近的工作提出了可微替代损失(如 diffNDCG[22 (https://arxiv.org/html/2606.12942#bib.bib22)])和排列偏好对齐(PPA)[34 (https://arxiv.org/html/2606.12942#bib.bib34)]。然而,将列表范式扩展到大型多模态模型(LMM)引入了严重的生成脆弱性。处理交织文本和密集视觉特征的长序列会加剧注意力稀释和“中间丢失”现象[14 (https://arxiv.org/html/2606.12942#bib.bib14)],引发“解析崩溃”——模型无法遵守输出格式。虽然标准的有监督微调(SFT)、直接偏好优化[23 (https://arxiv.org/html/2606.12942#bib.bib23)] 和强化学习(如 GRPO[26 (https://arxiv.org/html/2606.12942#bib.bib26)])在静态分布上缓解了这一问题,但它们难以动态适应高度可变的实例级多模态上下文,且不会导致灾难性遗忘或推理开销。仅基于 logits 的列表重排序器如 FIRST[24 (https://arxiv.org/html/2606.12942#bib.bib24)] 和 RankZephyr[21 (https://arxiv.org/html/2606.12942#bib.bib21)] 规避了生成失败,但继承了随着 N 扩展的相同长上下文注意力压力。  

### 2.2 提示内化与上下文蒸馏  
为了缓解长提示的计算瓶颈和注意力稀释,先前的工作探索了上下文蒸馏(CD)和提示压缩。像 LLMLingua[13 (https://arxiv.org/html/2606.12942#bib.bib13)] 和 LLMLingua-2[19 (https://arxiv.org/html/2606.12942#bib.bib19)] 这类压缩技术通过信息熵丢弃 token,但天生会丢失信息,且无法绕过上下文窗口限制;我们在第 4.2 节中经验性地确认,token 预算压缩*不会*缓解解析崩溃。Gisting[18 (https://arxiv.org/html/2606.12942#bib.bib18)] 学习特殊的“gist” token,将指令提示压缩成少量恒定数量的软 token,而 Snell-CD[28 (https://arxiv.org/html/2606.12942#bib.bib28)] 通过从上下文增强的教师进行 token 级蒸馏,将长上下文分摊到模型参数中。生成式提示内化(GenPI)[27 (https://arxiv.org/html/2606.12942#bib.bib27)] 联合蒸馏教师的输出和提示内容。这三者都针对*单个*长上下文,而多模态列表排序包含 N 个短多模态项,并且需要参数化编码感知 N 个项之间的相对顺序。  

### 2.3 基于超网络的 PEFT  
我们的工作建立在基于超网络的 PEFT[10 (https://arxiv.org/html/2606.12942#bib.bib10)] 之上:一个小型网络根据辅助信息产生任务特定的权重。HyperTuning[20 (https://arxiv.org/html/2606.12942#bib.bib20)] 根据少量示例描述预测冻结语言模型的软提示;HINT[11 (https://arxiv.org/html/2606.12942#bib.bib11)] 根据自然语言指令预测适配器参数,用于零/少样本任务泛化;Text-to-LoRA[4 (https://arxiv.org/html/2606.12942#bib.bib4)] 根据任务描述预测 LoRA 权重,用于零样本适应;Doc-to-LoRA[5 (https://arxiv.org/html/2606.12942#bib.bib5)] 使用基于 Perceiver 的架构,通过一次前馈传递将单个长文档内化成 LoRA 适配器。PRISMR 是这一系列工作的列表级多模态对应物:一个单一的全局超网络将 N 个多模态候选项中的每一个编码成每个项的 LoRA,并且我们明确研究如何将 N 个适配器组合成一个复合增量 ΔW。我们推导出闭合形式的秩拼接和均值池化算子,揭示了列表级超网络 PEFT 特有的容量与长度鲁棒性权衡。  

## 3 方法  
我们形式化多模态列表排序,并提出 PRISMR,这是一个用实例特定的参数化条件取代长上下文列表条件的框架。PRISMR 不将所有多模态候选项输入解码器提示,而是使用共享超网络将每个候选项编码成低秩适配器。然后将得到的适配器合成单个权重增量,安装在冻结的 LMM 上,用于一次性的列表解码。图 2 (https://arxiv.org/html/2606.12942#S3.F2) 展示了整体架构。  

参照标题 图 2:PRISMR 概述。一个共享超网络 H_φ 将每个多模态候选项 d_i 映射成每个项特定的 LoRA 适配器 (A_i, B_i)。通过同一检查点的两种零成本合成模式之一——秩维度拼接(α 模式)或均值池化(β 模式)——将 N 个适配器组合起来,得到复合增量 ΔW,安装在冻结的 LMM 上用于列表解码。PRISMR 默认对 N ≤ 50 使用 α 模式,对 N > 50 使用 β 模式。  

### 3.1 多模态列表排序与解析崩溃  
令 D = {d_1, ..., d_N} 表示一个多模态候选项列表,其中每个候选项 d_i = (t_i, v_i) 包含文本 t_i 和视觉输入 v_i。给定指令 I,一个冻结的 LMM f_θ 自回归地生成目标序列 y = (y_1, ..., y_T):  

P_θ(y|c) = ∏_{t=1}^T P_θ(y_t | y_{[50]}(外推)。除非另有说明,以下实验中的“PRISMR”均指代这一个带有 N=50 模式切换阈值的检查点。  

### 3.4 PRISMR 损失  
训练样本 (D, y^*) 来自一个前沿教师模型,该模型为每个候选项输出一行结构化分数。我们丢弃那些有缺失候选项、无效索引或格式错误的分数行的轨迹。训练期间,基础 LMM 保持冻结,仅更新超网络参数 φ。我们首先使用教师序列的负对数似然优化 token 级蒸馏:  

L_NLL(φ) = -∑_{t=1}^T log P_{θ+ΔW(φ)}(y_t^* | y_{<t}^*, c)  

然而,仅靠 token 级损失不会明确惩罚排名错误。由于 ΔW(φ) 是跨所有候选的合成权重,当排名预测与教师的排名不一致时,我们添加一个基于边际的排序损失,该损失使用标准化的贴现累积收益(NDCG)差异来加权成对错误。设 s_i 为教师分配给 d_i 的分数,并设 ŝ_i 为在给定 ΔW(φ) 下由 LMM 分配的相关性 logit。排序损失为:  

L_rank(φ) = (1/Z) ∑_{i,j: s_i > s_j} |ΔNDCG_ij| · softplus(-(ŝ_i - ŝ_j))  

其中 Z = |{(i,j): s_i > s_j}|。该项强调那些错误排序会对 NDCG 产生更大影响的成对。最终训练目标是:  

L_total(φ) = L_NLL(φ) + λ L_rank(φ)  

其中 λ 平衡 token 级模仿和列表级排序。由于 θ 被冻结,梯度仅通过合成的适配器 ΔW(φ) 流入超网络 H_φ。  

## 4 实验  
为了全面评估 PRISMR 的有效性,我们在一个大规模多模态排序基准上进行了大量实验。我们旨在回答四个主要研究问题:  

**RQ1:** PRISMR 能否根除列表排序中的生成式解析崩溃并提高排序质量?与提示工程和格式强制基线(如 RankGPT、LLMLingua-2 和约束解码)相比表现如何?  
**RQ2:** PRISMR 在训练时列表长度之外的泛化能力如何?其实际推理效率优势是什么?  
**RQ3:** 提示内化在点式设置中是否仍然有效,包括在微调后的骨干上应用时?  
**RQ4:** PRISMR 能否在没有额外训练的情况下跨领域迁移?这揭示了解析崩溃的根源是什么?  

### 4.1 实验设置  
**数据集。** 我们从 Amazon Reviews 2023[9 (https://arxiv.org/html/2606.12942#bib.bib9)] 构建了一个特定领域的多模态评论排序基准。如表 1 (https://arxiv.org/html/2606.12942#S4.T1) 所总结,每个示例包含 10

相似文章

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

Hugging Face Daily Papers

# Paper page - MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning Source: [https://huggingface.co/papers/2605.07850](https://huggingface.co/papers/2605.07850) We propose**MatryoshkaLoRA**, a general, Matryoshka\-inspired training framework for LoRA that learns accurate hierarchical low\-rank representations by inserting a fixed, carefully crafted diagonal matrix**P**between the existing LoRA adapters to scale their sub\-ranks accordingly\. By introducing

基于可学习秩的参数高效微调

arXiv cs.CL

来自阿德莱德大学的研究人员提出了 LR-LoRA(可学习秩 LoRA),这是一种参数高效微调方法,在训练过程中动态学习每个 Transformer 层的适配器秩,而非使用固定的全局秩。LR-LoRA 在语言理解和常识推理基准测试上达到了最先进的性能,超越了固定秩 LoRA 基线。

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。