文本到图像模型是归纳主义火鸡吗?一个用于因果推理的反事实基准

Hugging Face Daily Papers 论文

摘要

本文介绍了CF-World,一个用于评估文本到图像模型是否依赖因果推理或仅仅是模式匹配的反事实基准。实验表明,所有模型在反事实设置下表现急剧下降,表明它们的理解仅限于视觉-文本紧密耦合的模式,而非真正的因果推理。

文本到图像(T2I)生成模型在根据自然语言提示生成视觉上逼真的图像方面取得了显著进展。然而,它们的成功究竟反映了真正的因果理解,还是对视觉-文本相关性的复杂模式匹配,仍不明确。受罗素的归纳主义火鸡启发,我们引入了反事实世界(Counterfactual-World, CF-World),这是一个反事实基准,旨在探究文本到图像模型是否能够在系统性地违背现实世界先验的规则下生成图像。CF-World将每个场景组织为三个渐进级别:基于普通世界知识的事实生成、带有直接视觉指令的显式反事实生成,以及需要从改变的规则中进行因果推理的隐式反事实生成。我们使用基于视觉语言模型(VLM)的评估器(CF-Eval)对开源和闭源T2I模型进行评估。此外,我们引入了两个指标:先验抵抗率(PRR),衡量模型克服根深蒂固的现实世界先验的能力;以及推理保持率(RRR),评估模型在缺乏明确视觉线索的情况下维持依赖推理的反事实生成的能力。实验表明,所有模型在从事实设置到反事实设置时都表现出急剧的性能下降。进一步分析表明,这些失败是由于当前的T2I模型将世界知识与视觉外观编码为紧密耦合的模式。因此,它们严重依赖于训练数据中频繁出现的视觉共现,这迫使它们在处理反事实世界时默认使用熟悉的常识先验。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - 文本到图像模型是归纳主义火鸡吗?一个用于因果推理的反事实基准

来源:https://huggingface.co/papers/2606.24548
作者:

,

,

,

,

,

,

,

,

,

摘要

文本到图像模型无法生成反事实场景,因为它们依赖紧密耦合的视觉-文本模式而非因果推理,显示出对模式匹配以外的理解十分有限。

文本到图像(T2I)生成模型在从自然语言提示生成视觉逼真图像方面取得了显著进展。然而,它们的成功究竟是反映了真正的因果理解(https://huggingface.co/papers?q=causal%20understanding),还是仅仅利用视觉-文本相关性(https://huggingface.co/papers?q=visual-textual%20correlations)进行复杂的模式匹配(https://huggingface.co/papers?q=pattern%20matching),这一点仍不清楚。受罗素归纳主义火鸡的启发,我们提出了Counterfactual-World (CF-World),这是一个反事实基准(https://huggingface.co/papers?q=counterfactual%20benchmark),旨在探究文本到图像模型是否能根据系统性违背现实世界先验知识的规则生成图像。CF-World将每个场景组织为三个递进层级:基于普通世界知识的事实生成、带有直接视觉指令的显式反事实生成,以及需要从改变后的规则中进行因果推导的隐式反事实生成。我们使用基于视觉语言模型(VLM)的评估器CF-Eval(https://huggingface.co/papers?q=CF-Eval)对开源和闭源T2I模型进行评估。此外,我们引入了两个指标:先验抵抗率(Prior Resistance Rate, PRR),用于衡量模型克服根深蒂固的现实世界先验的能力;以及推理保持率(Reasoning Retention Rate, RRR),用于评估模型在没有明确视觉线索的情况下维持依赖推理的反事实生成的能力。实验表明,所有模型在从事实到反事实的设置中都表现出急剧的性能下降。进一步分析表明,这些失败源于当前T2I模型将世界知识与视觉外观编码为紧密耦合的模式。因此,它们严重依赖训练数据中频繁出现的视觉共现模式,在需要渲染反事实世界时,会强制退回到熟悉的常识性先验。

查看arXiv页面(https://arxiv.org/abs/2606.24548)查看PDF(https://arxiv.org/pdf/2606.24548)项目页面(https://jylei16.github.io/CF-World.github.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24548)

在您的代理中获取这篇论文:

hf papers read 2606.24548

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2606.24548以将其链接到此页面。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2606.24548以将其链接到此页面。

引用此论文的Space 0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2606.24548以将其链接到此页面。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以将其链接到此页面。

相似文章

YoCausal: 视频生成距离世界模型有多远?因果视角

Hugging Face Daily Papers

本文介绍了YoCausal,一个基于认知科学中的违反预期(Violation of Expectation)范式的基准,用于评估视频扩散模型是否真正理解因果关系,还是仅仅过拟合于时间模式。对13个最先进模型的评估显示,与人类级别的因果认知相比,存在显著差距。

Vernier: 探究因果推理中词汇缺口背后的表征错位

arXiv cs.CL

本文探究了为何指令调优的语言模型在将变量名替换为占位符后,对因果推理问题给出不同答案,发现问题源于表征错位而非信息丢失。作者引入了Vernier方法,通过配对视图权重更新和机制检查,揭示出答案相关内容在占位符视图中仍然存在但错位。

基于文本的因果推断方法:解析影响在线评价评分的多维因素

arXiv cs.CL

本文提出了一种基于文本的因果推断方法,通过改进的 CausalBERT 模型,解析各独立维度(如学校管理、学业表现)对在线评价总体评分的影响,并在超过 60 万条美国 K-12 学校评价数据上进行了验证。主要改进包括:温度缩放、超参数优化以及可解释性方法,以减少混淆偏差。

代理时代的因果发现

Hugging Face Daily Papers

本文认为,语言模型代理应通过提供上下文支持和解释来辅助因果发现工作流程,而非生成因果结论,并介绍了causal-learn+平台以演示这一原则。