稠密坐标列表微调在视觉语言模型中引发可控干涉面

arXiv cs.AI 2026/06/15 04:00 论文

摘要

本文研究了微调视觉语言模型生成稠密坐标列表如何创建可控干涉面，发现可移除重复压力而不牺牲定位精度。

arXiv:2606.14507v1 公告类型: 新摘要: 微调视觉语言模型以输出稠密坐标列表可改善视觉定位，但也会改变模型序列化、重复和终止结构化输出的方式。我们将这种表现视为一种生成与控制表面进行研究。在Gemma 4 12B中，高容量q/k/v/o LoRA将类别感知[email protected]从0.007提升至0.448，同时引入重复尾部压力（重复率0.080，最大重复次数23）。q/v秩扫描在秩4-64范围内将最大重复次数保持在21-22，显示出容量持久性。目标信号是可分离的：对象级重复停止移除完全重复的记录（重复率0.000，最大重复次数1），同时保持F1（0.494至0.490）和更严格的[email protected]（0.381至0.385）。结构轴探测将效应定位到bbox坐标对象列表；稠密非bbox和空间/计数JSON保持无重复，包括在高容量适配器下。Qwen3-VL-8B复现了干净可控的端点（[email protected] 0.318，重复率0.000），而COCO 2017复现了获取加重复压力。因此，稠密坐标列表适应创建了一个结构绑定、跨家族的干涉面，该干涉面可被测量和控制。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:12

# 密集坐标列表微调在视觉语言模型中诱发可控干扰面

来源：https://arxiv.org/html/2606.14507
11institutetext:东京科学大学工学院，日本
11email:zhou\.c\.76d6@m\.isct\.ac\.jp22institutetext:浙江大学控制科学与工程学院，中国
22email:jiangqiliang@zju\.edu\.cn33institutetext:早稻田大学信息、生产与系统研究生院
33email:jxdoudou@suou\.waseda\.jp
\*同等贡献。###### 摘要

微调视觉语言模型以输出密集坐标列表会改进视觉定位，但也会改变模型序列化、重复和终止结构化输出的方式。我们将这种行为作为一个生成与控制面进行研究。在 Gemma 4 12B 上，高容量 q/k/v/o LoRA 将类别感知的 [email protected] 从 0.007 提升至 0.448，同时诱发重复尾部压力（重复率 0.080，最大重复次数 23）。q/v 秩扫描显示，在秩 4–64 范围内最大重复次数保持在 21–22，表明容量持久性。目标信号是可分离的：对象级重复停止操作移除了精确重复记录（重复率 0.000，最大重复次数 1），同时保留了 F1（0.494 降至 0.490）和更严格的 [email protected]（0.381 升至 0.385）。结构轴探测将该效应定位到 bbox 坐标对象列表；密集非 bbox JSON 和空间/计数 JSON 仍保持无重复，包括在高容量适配器下。Qwen3-VL-8B 复现了一个干净的受控端点（[email protected] 0.318，重复率 0.000），COCO 2017 复现了获取过程加上重复压力。因此，密集坐标列表适应创建了一个结构约束、跨家族的干扰面，该面可被测量和控制。

## 1 引言

参见图 1 说明：图 1：干扰面及其两轴分解。密集 bbox 微调提升了目标定位，并在同一生成面上诱发重复尾部（红色记录）。密度-精度轴（提示预算，重复惩罚）选择运行密度；结构完整性轴（对象级重复停止）在第一个精确重复记录处关闭列表，在保留目标 F1 的同时达到干净端点。

视觉定位微调通常被评估为目标定位。在生成式多模态语言模型中，密集定位同时也是结构化输出控制。每个对象记录将一个类别标签与数值坐标耦合，整个响应则将多个记录与句法闭合及列表终止耦合。因此，密集 bbox 生成直接在输出表面暴露微调干扰：适应不仅教会模型物体在哪里——还重塑了列表如何继续以及何时停止。

本文直接研究这个表面（图 1 (https://arxiv.org/html/2606.14507#S1.F1)）。我们将*生成面*定义为模型在给定微调和解码配置下关于结构化输出的分布。我们将*控制面*定义为目标 F1、解析稳定性、预测密度、重复压力和终止行为之间的可测量权衡。密集坐标列表同时作用于所有这些轴。我们沿着两个正交的控制轴组织这个表面：一个*密度-精度轴*，选择模型承诺输出多少对象；一个*结构完整性轴*，确保输出的列表没有精确重复记录。

我们的核心结果是，这种干扰不是广泛的能力损失，而是一个局部化、可分解的表面。Gemma 4 12B 提供了机制链：对 q/k/v/o 的高容量适应提升了目标定位，并在同一表面诱发重复尾部压力，而移除精确重复记录则保留了目标 F1。我们沿着这两个轴导航该表面，并通过结构轴扫描将压力定位到 bbox 坐标对象列表，该扫描使密集非 bbox JSON 和空间/计数 JSON 在两个家族中均保持无重复（包括在 rank-8 q/v 适配器和高容量 rank-32 q/k/v/o 适配器下）。Qwen3-VL-8B 在不同架构和坐标协议下复现了该机制，而 COCO 2017 以物体为中心的复现表明获取过程和重复列表压力可以迁移到原始工业数据集之外。四个排除分析确定了其性质：压力在同等密集的非 bbox JSON 中不存在（并非结构化输出的一般属性）；在适配器容量变化 16 倍后仍然存在（并非容量伪影）；跨模型家族和在第二个公开数据集上复现（并非实现伪影）；并且承载的定位信号份额可忽略（并非承重结构）。剩下的是一个结构约束、可分解的干扰面。

### 贡献。

我们作出以下贡献：

- • 我们将密集坐标列表生成定义为一个集中的应力面，它耦合了视觉定位、数值序列化、重复类别调节和列表终止，并通过在单个留出评估集上配对的 目标、重复、密度、结构 和 结构轴 指标使该面可测量。
- • 我们展示了高容量 Gemma 4 12B 适应达到了强目标定位（[email protected] 0.448），同时在同一面上暴露了重复尾部压力，而轻量级的推理时控制可以将有用的定位与精确重复记录分开，在 [email protected] 0.490 和 [email protected] 0.385 处达到干净端点，重复率为 0，最大重复次数为 1。
- • 我们通过结构轴扫描将压力隔离到 bbox 坐标对象列表：密集非 bbox JSON 和空间/计数 JSON 在两个模型家族和高容量适配器下保持无重复，表明干扰特定于坐标列表结构，而不是通常的密集 JSON 生成。
- • 我们在主要设置之外验证了该机制：Qwen3-VL-8B 在不同架构和坐标协议下复现了密度/重复关系以及高容量可控端点，而 COCO 2017 在公开的以物体为中心的检测子集上复现了获取/重复特征。

## 2 密集坐标列表干扰

一个密集 bbox 输出是一个序列化的类别-坐标记录序列。模型必须输出类别标签、坐标数字、分隔符、对象边界以及最终的闭合。微调可以同时改变目标定位和列表生成行为，产生一个表面而非单一的标量目标指标。

密集坐标列表在接口的不同部分施加压力，与短 VQA、标题生成或稀疏单框定位不同。短答案在一个跨度后终止，而密集坐标列表必须在许多对象记录上保持可解析的模式，同时调节哪些类别重复并决定列表在哪里结束。视觉定位、数值序列化、重复类别调节和列表终止同时被调用，这使得该表面清晰可辨：一个单一的适配器可以同时改变目标准确度和列表生成行为。

三个结构属性使坐标列表模式在结构化输出中独具特色，每个属性都对应本文中的一个测量。首先，重复的类别标签在单个输出中是合法的——一张图像可以包含同一类别的多个实例——因此模型不能依赖类别新颖性来调节终止；这正是精确记录重复集中的地方（表 5 (https://arxiv.org/html/2606.14507#S5.T5)）。其次，记录载荷是数值型的：坐标携带定位信号，同一记录可以以相同数字重复出现，这正是精确重复指标检测的对象，也是对象级重复停止截断的对象。第三，列表终止是一个学到的决策，没有模式强制规定的端点，这就是为什么提示预算如此直接地改变运行点（表 2 (https://arxiv.org/html/2606.14507#S4.T2)）。密集非 bbox JSON 以更大的输出长度承载相同的模式负担，具有固定基数和键，并且在我们测试的每个适配器下都保持无重复——这种对比将干扰定位到坐标列表结构本身。

## 3 实验设置

### 模型。

Gemma 4 12B 是 Gemma 家族[14 (https://arxiv.org/html/2606.14507#bib.bib14)]的统一解码器专用多模态模型，其中视觉和文本标记共享一个 transformer 栈，没有单独的视觉编码器；它是暴露干扰表面的主要模型。Qwen3-VL-8B 是 Qwen-VL 家族[15 (https://arxiv.org/html/2606.14507#bib.bib15)]的基于编码器的多模态模型，用作相同数据跨家族对照。两个家族使用不同的坐标协议：Gemma 4 12B 读取像素坐标，Qwen3-VL-8B 使用其原生的 0–1000 归一化网格。两个家族在相同的评估集上使用相同指标进行评估。

### 数据。

我们在 InsPLAD 工业检测图像[17 (https://arxiv.org/html/2606.14507#bib.bib17)]上进行微调和评估。适配器在 160 张图像上训练，并在 80 张图像的留出评估集上评估，该评估集与训练集的文件名无重叠。每个报告的 InsPLAD 运行点都使用这个相同的集，因此目标、重复、密度、结构和结构轴指标可以直接比较。对于第二个数据集的复现，我们从 COCO 2017 val2017 检测标注[16 (https://arxiv.org/html/2606.14507#bib.bib16)]构建了一个以物体为中心的密集 bbox 子集：选定的分割排除 person 和 car，使用剩余十个最频繁的目标类别，保留具有 2 到 6 个目标对象的图像，并将 780 张训练图像与 120 张图像评估集分开；从同一子集中抽取的一个比例匹配的 160/80 分割镜像了 InsPLAD 协议。由于每张评估图像最多有六个目标对象，COCO 复现对基线和适应模型都使用匹配的六个提示预算。

### 适配器。

主要的 Gemma 4 12B 链使用高容量 q/k/v/o LoRA[13 (https://arxiv.org/html/2606.14507#bib.bib13)]，秩为 32，α=64，可训练参数为 42.7M。Qwen3-VL-8B 使用秩为 32 的 q/v 适配器以达到其高容量受控端点。对于结构轴分析，我们另外使用一个容量受控的秩 8 q/v 适配器，在匹配的适配器设置下隔离输出结构的影响。对于容量扫描，我们将 Gemma 4 12B 的模块集固定为 q/v，并在秩 4/8/16/32/64 上变化 LoRA 秩。

### 表面控制。

我们将干扰表面的控制组织成两个正交轴。一个*密度-精度轴*决定模型承诺输出多少个对象以及 token 级压力如何应用：提示级输出预算限制请求的对象数量，重复惩罚 1.05 应用 token 级压力。一个*结构完整性轴*决定输出的列表是否保持无精确重复记录：对象级重复停止是一个真正的生成时停止准则，检测到标准化对象记录即将第二次被输出时，关闭已保留的前缀成一个有效的 JSON 数组。两个轴都探索了微调模型暴露的生成面。

### 指标。

指标集跟踪解析有效率、每张图像的平均预测数、类别感知的一对一 [email protected]、精确对象重复率、最大精确对象重复数以及重复停止触发率。F1 测量目标信号；重复率和最大重复暴露重复尾部压力；解析有效率测量结构；触发率测量结构控制介入的频率。我们使用 1000 次重抽样报告 [email protected] 的图像级非参数 bootstrap 95% 置信区间，并使用类别感知 [email protected] 审计推广的运行点。

## 4 高容量控制面

表 1 (https://arxiv.org/html/2606.14507#S4.T1) 报告了主要控制面的行。这些行构成了证据链：Gemma 4 12B 高容量原始适应暴露了强目标信号加上重复尾部压力；重复惩罚移动了曲面；提示预算选择了一个高 F1 密度点；提示预算重复停止给出了干净的高容量端点。Qwen3-VL-8B 复现了相同的密度/重复模式，并提供了一个跨家族受控端点。

表 1：主要控制面证据。括号内为 [email protected] 的图像级 bootstrap 95% CI；未加括号的 [email protected] 值和所有控制列均为点估计，破折号表示该行未重新评分的指标。[email protected] 列在更严格的 IoU 阈值下审计推广的运行点。
参见图 2 说明：图 2：密集坐标列表微调的控制面视图。每个标记点是表 1 (https://arxiv.org/html/2606.14507#S4.T1) 中的一个运行配置。高容量 Gemma 适应在同一面上暴露目标信号和重复尾部压力；Qwen 以不同尺度复现该模式；两个控制轴在不损失目标 F1 的情况下将两个家族移向左上方的干净终止区域。

Gemma 4 12B 是典型的表面。基础模型在 JSON-bbox 协议上是模式稳定的（解析有效率为 0.963，重复率为 0.002）但无法定位（[email protected] 0.007），因此适配器后来输出的任何结构都是由微调诱导的，而非继承自零样本。高容量 q/k/v/o LoRA（秩 32）强烈激活目标任务，并在同一生成面上暴露重复尾部压力：原始适配器达到 [email protected] 0.448 [0.384, 0.513]，每张图像 6.713 个预测，重复率 0.080，最大重复次数 23。目标定位和重复尾部压力一起上升——这是密集坐标列表干扰的特征——我们沿第 3 节的两个正交轴导航这个表面。

一个模块受控的秩扫描证实了这种重复尾部压力不会因适配器容量而消除。保持 Gemma q/v 模块集、训练数据和 80 张图像评估集固定，秩 4/8/16/32/64 都保留了精确重复尾部压力：最大重复次数保持在狭窄的 21–22 区间，重复率非零（0.125–0.259）。图 3 (https://arxiv.org/html/2606.14507#S4.F3) 绘制了完整扫描：目标 F1 随秩变化，在秩 32 处达到峰值，而最大重复区间在整个范围内保持平坦在 21–22。秩改变目标强度和重复频率，但不消除尾部；重复尾部特征在可训练适配器参数超过一个数量级的变化（秩 4 时的 2.6M 到秩 64 时的 41.5M）中持续存在。

参见图 3 说明：图 3：模块受控 q/v 秩扫描中的容量持久性。目标 F1（左）随秩变化，在秩 32 处达到峰值，而最大精确对象重复次数（右，条形）保持在 21–22 平坦，重复率（右，线）在整个过程中非零：适配器容量移动目标信号，但不移除重复尾部。

### 密度-精度轴。

沿着这个轴移动，权衡模型承诺输出的对象数量与精度。重复惩罚 1.05 将运行点移至 [email protected] 0.474 [0.408, 0.544]，并将重复率降至 0.039，但最大重复次数仍为 19：token 级压力改善了目标点，但重复尾部仍然存在。八个对象的提示预算进一步移至最强的原始运行点，[email protected] 0.494 [0.428, 0.552]，解析有效率为 1.000，重复率 0.021，最大重复次数 8。密度调优因此达到了一个高 F1 点，但精确重复记录

稠密坐标列表微调在视觉语言模型中引发可控干涉面

相似文章

大型视觉-语言模型在注意力机制中迷失

为什么远处看起来在上方：探究视觉-语言模型中的空间表征

KODA：面向视觉-语言基础模型的对比表示比较与对齐

Stateful Visual Encoders for Vision-Language Models

余弦相似度具有误导性：辅助损失重塑了视觉语言模型，而非其潜变量

提交意见反馈