面向单图像3D网格质量的跨模型VLM评判协议(以及为何廉价代理存在不足)
摘要
本文提出并验证了一种用于评估单图像转3D网格质量的VLM评判协议,表明诸如render-CLIP和几何统计量等廉价代理无法可靠地追踪感知质量。
arXiv:2606.18451v1 公告类型:新
摘要:单图像转3D生成器正在快速发展,但目前尚无公认的、无需人工的方法来判断一个生成的网格是否优于另一个。从业者通常依赖廉价自动代理(渲染空间CLIP相似度和网格几何有效性统计量),但这些代理在追踪感知质量方面的有效性尚未得到验证。我们做出了两项贡献。首先,我们提出并验证了一种可复现的VLM评判评估协议:一个固定的24视角无头渲染装置、两个独立的视觉语言评判家族,以及一种强制的位置偏差校正方法——该方法同时查询两种呈现顺序,仅保留顺序一致的评判结果。这两个评判家族之间具有显著的一致性(Cohen's kappa = 0.66),远高于随机一致性基线。其次,以该协议为基准,我们表明廉价代理无法替代它。几何有效性平均而言仅是一个弱信号(因为我们表明它是双峰的),且低于我们预先注册的目标,而render-CLIP则处于随机水平。学习得到的Bradley-Terry头部将其简化为单一的流形统计量(赋予render-CLIP负权重),并且与仅使用几何特征的模型完全匹配,因此学习特征权重毫无收益。该代理也是双峰的:在具有明显几何缺陷的对比中显著高于随机水平,但在模糊对比中则处于随机水平,这与几何有效性仅在缺陷视觉显著时才能跟踪评判结果的现象一致。因此,我们推荐VLM评判协议作为在测试条件下(Google Scanned Objects上的两个前馈生成器,采用面片丢弃退化机制)可靠且可复现的评估器,并建议不要将几何/CLIP代理作为优化目标。
查看缓存全文
缓存时间: 2026/06/18 05:43
# 一种用于单图像3D网格质量的跨模型VLM评判协议(以及为何廉价代理指标难以胜任) 来源:https://arxiv.org/html/2606.18451 Tony Salomone Transformer LabDeep Gandhi Transformer Lab通讯作者:deep@lab\.cloud ###### 摘要 单图像到3D生成器正快速改进,但尚无公认的、无需人工的方式来判断一个生成的网格是否优于另一个。从业者通常依赖廉价的自动代理指标(渲染空间的CLIP相似度和网格几何有效性统计),但这些指标与感知质量的关联程度尚未明确。我们做出两项贡献。首先,我们提出并验证了一个可复现的*VLM评判评估协议*:一个固定的24视角无头渲染台,*两个独立的*视觉语言评判模型家族,以及一个必需的位置偏差校正——同时查询两种呈现顺序,仅保留顺序一致的判定。两个评判模型家族之间具有*相当高*的一致性(Cohen's κ = 0.66),远高于随机一致基线。其次,以该协议为参考,我们证明廉价代理指标*不能*替代它。几何有效性平均仅是一个*弱*信号(因为,如我们所示,它是双峰的),且低于我们预先注册的目标,而渲染CLIP则*与随机猜测无异*。一个学习的Bradley–Terry头坍缩到单个流形统计量上(赋予渲染CLIP负权重),且与纯几何指标完全一致,因此学习特征权重毫无增益。该代理指标也是*双峰的*:在面对可见几何缺陷的对比时显著高于随机水平,但在模糊的对比中则与随机无异,这与几何有效性仅在缺陷视觉显著时才追踪评判者的情况一致。因此,我们推荐VLM评判协议作为*在测试条件下*(在Google Scanned Objects上使用两个前馈生成器,并采用面删除退化策略)的可靠、可复现评估器,并建议不要将几何/CLIP代理指标作为优化目标。 ## 1 引言 单图像到3D生成器现在能够从一张照片生成看似合理的纹理网格,但它们的评估仍然零散。精心挑选的演示看起来很强;定量比较则默认使用渲染空间的CLIP相似度或网格几何有效性统计(水密性、流形性、法向一致性),因为两者都廉价且无需人工标注。但这些代理指标是否真正追踪*感知的*网格质量——下游用户、排序器或训练信号所关心的——尚未被仔细衡量。 我们的立场是,“这个网格好吗?”的合适参考是应用于资产固定多视角渲染的*视觉语言模型评判者*,而核心工程问题是如何使这样的评判者*可靠*,以及如何测试更廉价的代理指标是否可以替代它。我们围绕两个独立的开放VLM评判模型家族(一个裁判和一个独立的验证评判者)构建了一个协议,在固定的24视角无头渲染台上进行,并带有一个被证明至关重要的位置偏差校正。然后我们使用经过验证的评判者作为参考,在严格持有的物体上对廉价代理指标(几何有效性、渲染CLIP、它们的组合以及一个学习的组合)进行评分。 我们的发现是:该协议是可靠的(跨模型一致性较高),而代理指标是弱的,并且代理指标以一种特别具有误导性的方式失败:只有在几何缺陷在渲染*可见*的对比中(区分两个生成器,或一个有明显空洞的网格与一个完整的网格),它们才显著高于随机水平,而在对排名或优化单个模型更重要的模糊质量判断上则降至随机水平。 #### 贡献。 1. 一个经过验证的用于单图像到3D网格质量的VLM评判评估协议(固定渲染台、两个独立的评判模型家族,以及一个交换并保持一致的立场偏差校正),其评判家族在0.83处一致(Cohen's κ = 0.66,相当高;随机基线0.51),远高于简单一致基线(表1 (https://arxiv.org/html/2606.18451#S5.T1))。 2. 证据表明位置偏差很大且必须校正:大约26%的原始判定会随呈现顺序翻转(且该比例本身依赖于样本);作为一个说明性的基线,校正后的一致估计从0.333变为0.714(§3 (https://arxiv.org/html/2606.18451#S3))。 3. 证明了廉价代理指标不能替代评判者:几何有效性显著高于随机水平但*弱*(0.62,[0.55, 0.69])且低于我们的目标;渲染CLIP与随机无异(0.48);一个学习的头坍缩到单个流形统计量上,因此学习权重毫无益处(表1 (https://arxiv.org/html/2606.18451#S5.T1))。 4. 一个子组/误差分析显示代理指标是双峰的:在可见缺陷对比中显著高于随机水平(跨生成器0.91,TripoSR内0.80),但在模糊对比中与随机无异(跨生成器混合0.53;差距的 z = 5.06),我们将其解释为几何有效性仅在缺陷视觉显著时追踪评判者(§5 (https://arxiv.org/html/2606.18451#S5), §6 (https://arxiv.org/html/2606.18451#S6))。 ## 2 相关工作 #### 单图像和多视角3D生成。 快速前馈单图像到3D流程,如Unique3D[1 (https://arxiv.org/html/2606.18451#bib.bib1)]和资产流程如Meta 3D Gen[2 (https://arxiv.org/html/2606.18451#bib.bib2)],已经使每个对象的生成足够廉价以进行规模评估,而关于3D表示[3 (https://arxiv.org/html/2606.18451#bib.bib3)]和逼真生成[4 (https://arxiv.org/html/2606.18451#bib.bib4)]的研究突显了生成器行为的不同。我们将这些生成器视为黑盒,并专注于*如何评判*其输出。 #### 评估3D生成。 用于多视角生成的基准[5 (https://arxiv.org/html/2606.18451#bib.bib5)]和对点云生成指标的重新思考[6 (https://arxiv.org/html/2606.18451#bib.bib6)]都指出,标准自动指标与感知质量相关性弱;策划的质量数据集[7 (https://arxiv.org/html/2606.18451#bib.bib7)]和大型对象语料库[8 (https://arxiv.org/html/2606.18451#bib.bib8)]提供了输入,但并未提供质量评判器。关于3D形状生成中记忆的经验研究[9 (https://arxiv.org/html/2606.18451#bib.bib9)]和鲁棒形状生成[10 (https://arxiv.org/html/2606.18451#bib.bib10)]进一步推动了对渲染资产而非单个标量的评估。我们的协议贡献了一个可重用的、无需人工的参考,并直接衡量了廉价代理指标与它的差距。 #### VLM作为评判者。 使用视觉语言模型作为评判者在图像生成中现在很常见[11 (https://arxiv.org/html/2606.18451#bib.bib11)],但其可靠性存在争议:Kumar等人[12 (https://arxiv.org/html/2606.18451#bib.bib12)]报告称,即使是最前沿的VLM在多模态接地任务中也不是完美的评判者,呈现顺序(位置)偏差是LLM/VLM评判者的已知失败模式[13 (https://arxiv.org/html/2606.18451#bib.bib13),14 (https://arxiv.org/html/2606.18451#bib.bib14)]。我们的贡献并非这些技术本身,而是针对3D渲染设置的*经过验证的*实例化:两个*不同*评判家族之间的跨模型一致性,结合交换一致性位置偏差校正,通过Cohen's κ与随机一致基线进行量化,并衡量了廉价代理指标与它的差距。 #### 将3D生成器与奖励对齐。 一条日益增长的路线使用奖励或偏好信号来对齐3D生成器:用于物理合理性的仿真反馈[15 (https://arxiv.org/html/2606.18451#bib.bib15)]、2D奖励扩散对齐[16 (https://arxiv.org/html/2606.18451#bib.bib16)],以及来自人类偏好的直接偏好优化[17 (https://arxiv.org/html/2606.18451#bib.bib17)],还有相关的偏好优化[18 (https://arxiv.org/html/2606.18451#bib.bib18)]和参数高效适应[19 (https://arxiv.org/html/2606.18451#bib.bib19)]机制。我们的结果直接关系到这条路线:我们发现可能用作此类奖励的廉价自动代理指标是薄弱的质量信号(几何指标显著高于随机但远低于目标;渲染CLIP与随机无异),因此基于奖励的特化应由(去偏的)VLM评判偏好本身驱动,而非代理指标。我们将生成器特化视为范围外及未来工作。 ## 3 方法 #### 评估协议。 给定一个生成的网格,我们将其归一化到单位边界框,并使用一个固定的24视角转盘台进行渲染,采用无头离屏光栅化器。质量是*成对*判断:比较从同一输入图像生成的两个网格。我们使用*两个不同的*开放VLM家族:一个主评判者X(Qwen2.5-VL-7B-Instruct [20 (https://arxiv.org/html/2606.18451#bib.bib20)])和一个独立的验证评判者Y(InternVL3-8B [21 (https://arxiv.org/html/2606.18451#bib.bib21)])。保持 X ≠ Y 使我们能够报告跨模型一致性作为可靠性检查,而不是信任单一模型。 #### 位置偏差校正。 VLM评判者表现出呈现顺序偏差。对于每对,我们以*两种顺序*(A, B 和 B, A)查询评判者,并仅当判定在交换后一致时才保留;顺序相关的判定作为位置偏差被丢弃。这不是可选的:大约26%的原始判定不一致(该比例本身依赖于样本,在较小N时一致性为0.58–0.63);作为一个说明性的基线,未校正的一致性读数为0.333,而校正后为0.714。 #### 测试中的代理奖励。 我们使用从业者可能使用的廉价代理指标对相同的渲染/网格进行评分。对于一个网格,我们提取五个特征:水密性、流形性、非自交集性、法向一致性和渲染CLIP相似度(CLIP [22 (https://arxiv.org/html/2606.18451#bib.bib22)],open_clip ViT-B-32 [23 (https://arxiv.org/html/2606.18451#bib.bib23)])。由此我们形成:(i) 纯几何分数,(ii) 纯渲染CLIP分数,(iii) 固定权重组合,以及 (iv) 一个*学习的*成对Bradley–Terry头 [24 (https://arxiv.org/html/2606.18451#bib.bib24)],在主评判者X的标签上拟合: P(a ≻ b) = σ(wᵀ(φ(a) − φ(b)))。 (1) 其中 φ(·) 是五维特征向量,w 通过逻辑回归 [25 (https://arxiv.org/html/2606.18451#bib.bib25)] 学习。所有代理指标均相对于独立评判者Y进行评估。 ## 4 实验设置 #### 数据和生成器。 输入是来自Google Scanned Objects [26 (https://arxiv.org/html/2606.18451#bib.bib26)] 的单视角照片(公开,CC-BY 4.0;有3,069个对象目录可用)。每个对象我们形成四个覆盖质量谱的候选:来自两个作为黑盒运行的单图像到3D生成器(Stable Fast 3D [27 (https://arxiv.org/html/2606.18451#bib.bib27)] 和 TripoSR [28 (https://arxiv.org/html/2606.18451#bib.bib28)])的网格,加上每个的降面退化变体。我们为主评估采样了 N=60 个对象。 #### 分割与确定性。 分割严格按对象进行,因此没有对象跨越训练集和测试集,并且主评判者X绝不是验证评判者Y。渲染台和候选构建在给定固定种子时是确定性的,两个评判者使用贪婪(argmax)解码。在 N=60 时,完整语料库有262个位置一致的配对。基于规则的信号(几何、渲染CLIP、固定组合)*不*拟合任何数据,因此我们在完整语料库上描述性地评估它们;严格按对象的训练/测试分割仅对*学习的*头有意义,后者在训练对象对上训练,并在保留的测试对象对上(98对)与评判者Y进行比较。 #### 统计分析。 我们报告带有Wilson 95%置信区间 [29 (https://arxiv.org/html/2606.18451#bib.bib29)] 的比例,并使用双边二项检验针对随机率0.5进行一致性测试。由于观察单位(一对)嵌套在对象内(每个对象四个候选,因此六个对),有效样本是60个对象而不是98–262个对;我们的主要区间因此使用一个重采样*对象*的聚类自助法 [30 (https://arxiv.org/html/2606.18451#bib.bib30)]。评判者间一致性额外通过Cohen's κ [31 (https://arxiv.org/html/2606.18451#bib.bib31)] 相对于边际一致基线进行总结。聚类自助法用于主要几何和一致性区间;表1 (https://arxiv.org/html/2606.18451#S5.T1)–2 (https://arxiv.org/html/2606.18451#S5.T2) 中的每个子组和CLIP置信区间是成对水平的Wilson区间,这在聚类下是反保守的,因此应与下面的探索性警告一起阅读。四个子组单元(n=43/50/119/50)是*探索性的*;我们进行了大量准确率与随机水平的比较,并未应用正式的多重比较校正,因此单个单元的方向性解读应视为生成假设。 #### 计算。 该研究使用了约3.4个H100计算小时,分布在14个完成的作业(另有一次运行被丢弃)上,使用单个H100级GPU(主要是H100-SXM5)。 ## 5 结果 #### 评判协议是可靠的。 两个独立的评判模型家族在0.83的120个双重标注对上达成一致(Wilson 95% CI [0.76, 0.89])。由于强制选择判断有0.5的随机率(且此处边际一致基线为0.51),我们通过Cohen's κ = 0.66 总结一致性,按通常标准 [32 (https://arxiv.org/html/2606.18451#bib.bib32)] 为“相当高”,确认一致性不是边际分布偏斜的琐碎伪影。在每个子组中一致性都高于随机,并且在质量差异明显的对比中高于模糊对比(跨生成器混合为0.72 vs. 最清晰单元为0.95–0.97;0.72单元高于随机,但单独看其n不足以区别于其他单元)(表2 (https://arxiv.org/html/2606.18451#S5.T2), 图1 (https://arxiv.org/html/2606.18451#S5.F1))。我们没有进行可选的人工抽查,因此这里的可靠性意味着跨模型一致性,而非与人工评分者的验证一致性。 #### 代理指标不能替代评判者。 几何有效性是一个*弱但真实的*信号:在整个语料库中,它在0.62的对上与评判者一致(Wilson [0.56, 0.68];对象上的聚类自助法 [0.55, 0.69];双边二项检验 p < 0.001 vs. 0.5),因此显著高于随机,但远低于我们预先注册的目标约 ≥ 0.75。相反,渲染CLIP*与随机无异*(0.48,[0.42, 0.54],p = 0.50);因此我们无法声称它是负相关的,只能说它不携带可用的质量信号。学习的Bradley–Terry头没有帮助:它将几乎所有权重放在流形性(2.16)上,并赋予渲染CLIP*负权重*(−0.11),并且产生的排名与纯几何指标完全一致(在 N=30 和 N=60 时提升为零):给定自由加权特征,它坍缩到单个几何统计量。我们将其解读为限制在于这个特征集本身,而非学习算法。代理指标也是*双峰的*:在可见缺陷的对比中它表现更好,但在模糊对比中则差。具体来说,在四种类型的对比中,代理指标在两种涉及明显视觉差异的对比中显著高于随机水平:将不同生成器(Stable Fast 3D 与 TripoSR)的网格进行对比(p=0.91 [0.79, 0.97],n=43),以及比较TripoSR与其降面退化版本(p=0.80 [0.67, 0.89],n=50)。但在其他两种对比中——将不同生成器与其退化版本混合(p=0.53 [0.44, 0.62],n=119)和比较Stable Fast 3D与其退化版本(p=0.64 [0.50, 0.76],n=50)——代理指标与随机无异或仅边缘显著。可见缺陷与模糊对比之间的差距(0.86 vs. 0.56)的 z 统计量为5.06(p < 0.001)。我们将此解释为几何有效性仅在缺陷视觉上易于辨认时方追踪评判者;当两个候选看起来都合理但细微几何差异区分它们时,几何统计量不能作为替代。
相似文章
PoQ-Judge:一种面向去中心化LLM推理中成本感知质量证明的多架构评估框架
介绍了PoQ-Judge,一种采用无参考评判模型(TextCNN、MiniLM、DeBERTa)的多架构评估框架,用于去中心化LLM推理中的成本感知质量证明,实现了与地面真值代理的高相关性,同时消除了对参考答案的需求。
面向几何一致性的视频世界模型量化评估
引入PDI-Bench量化框架,通过单目重建与投影几何残差评估生成视频的几何一致性,揭示视频生成器中特有的几何失败模式。
Stream3D-VLM:基于增量几何先验的在线3D空间理解
Stream3D-VLM 是一款在线3D视觉-语言模型,通过增量整合几何先验并使用几何自适应体素压缩,能够从流式视频中实现实时空间理解,在3D空间理解任务上优于现有模型。
JanusMesh: 快速零样本3D视觉幻觉生成——基于跨空间去噪
JanusMesh 是一个快速、免训练的框架,通过将生成过程解耦为跨空间双分支去噪和视图条件纹理合成,生成文本驱动的3D视觉错觉——单个网格从不同视角展示不同语义——在仅3-5分钟内实现高真实感。
墙上的镜子:VLM 智能体究竟能否认识自己?
本研究引入了一个 3D 基准,用于评估视觉语言模型(VLM)智能体是否能够实现镜子自我识别,这是高阶认知能力的一种替代指标。研究发现,虽然更强的 VLM 可以利用反射证据指导行动,但较弱的模型往往无法提取与自身相关的信息或错误归因反射影像,这突显了语言顺从与基于现实的自我识别之间的区别。