The Inattentional Gap: 任务条件化的语言与视觉模型会忽略本可报告的安全关键信号
摘要
本文识别出'Inattentional Gap'现象,即任务条件化的AI模型会抑制报告其本可检测到的安全关键信号,类似于人类的非注意盲视,这挑战了基准性能即可确保现实世界安全的假设。
arXiv:2606.26529v1 公告类型:新
摘要:AI安全通过模型在指定危险检测任务上的可靠性来评估,但事故往往源于无人指定的危险。我们证明,对语言或视觉模型施加狭窄任务的条件会抑制其报告同时存在的、本可报告的安全关键信号——这是一种源于不同机制的机器版非注意盲视。在放射学和驾驶文本场景以及胸部X光片视觉任务中,所有受测模型均出现抑制现象;该现象不随规模增大而减弱,在推理模型中持续存在,且在不同模型系列间的差异大于规模差异;而同一模型在无约束条件下报告这些信号的比率显著更高。我们将这种分离命名为 Inattentional Gap,并认为它使测量的基准安全性与现实世界安全性脱钩:一个系统在评估指定的危险上可能近乎满分,却对实际造成伤害的危险视而不见。
查看缓存全文
缓存时间: 2026/06/26 05:18
# 任务条件化语言与视觉模型省略了它们本可报告的安全关键信号 来源:https://arxiv.org/html/2606.26529 Kwan Soo Shin¹¹PolymathMinds Lab,首尔,大韩民国。ORCID 0009-0001-5799-7556。通讯邮箱:[email protected] (2026年6月) ## 摘要 AI安全性的评估标准是模型能多可靠地检测到指令它去寻找的危害,然而事故往往源于无人指定的危害。我们证明,将语言或视觉模型条件化于一个狭窄任务,会抑制其报告本可报告的共同存在的、安全关键的信号,这是一种机器版的非注意盲视,但源于不同的机制。在放射学和驾驶文本场景以及胸部X光片视觉任务中,这种抑制现象出现在每个测试的模型中,不随规模增大而消失,在推理模型中持续存在,并且在不同模型家族间的差异比尺寸差异更大,而同样的模型在无约束条件下报告这些信号的比率显著更高。我们将这种解离命名为“非注意间隙”,并认为它使测量的基准安全性与现实世界安全性脱钩:一个系统可以在评估指定的危害上达到近乎完美的得分,同时仍然对那些导致实际伤害的危害视而不见。 ## 更广阔的背景 AI系统正被部署为感知前端,应用于错过信号的代价以生命计量的领域:放射学、自动驾驶、安全筛查和关键安全代码审查。普遍假设是,一个能力更强、在针对性基准上得分更高的模型,就是一个更安全的模型。我们的结果使这一假设复杂化。我们发现,将模型条件化于特定任务(这些系统部署的正常方式)会抑制其报告未被请求但安全关键的信息,而模型原本可以报告这些信息。由于安全性评估衡量的是在指定目标上的表现,而事故往往源于未指定的目标,因此基准收益并不一定转化为部署安全性。这种现象在行为上与人类的非注意盲视类似,包括放射学中的“大猩猩”效应,但其机制不同:我们的剂量分析将触发因素追溯到输出范围,而非人类式的感知负荷。通过一项项目内可报告性检查(同一模型在相同输入下,无约束时能报告该信号),将此效应与先前报告模型仅仅遗漏内容的区分开来。它重新定义了核心问题:从AI能否识别信号,转变为任务条件化是否阻止了模型报告其本可报告的信号。用双过程术语来说,条件化模型类似于系统1风格的任务捕获,而在本文采样的系统中没有可靠的架构通用监督行为;监测仅作为模型家族特定的安全报告倾向出现,或作为显式的第二过程出现。由于已部署的系统必须限定其任务范围,非注意间隙不仅仅是提示层面的缺陷,而是任务范围化部署的一个可测量风险,也是重新设计安全性评估的目标。 ## 引言 事故往往发生在意料之外的地方。操作者预期到的危害,按定义就是系统被构建和测试来检测的危害;剩余风险存在于该规范之外的事件中。这种不对称性是本文的组织直觉,并且在人类认知中有精确的对应物。在“隐形大猩猩”范式中,观察者计数篮球传球时,会未能注意到一个穿着大猩猩服装的人走过场景¹,并且这种效应在领域专家中持续存在:83%的放射科医生在搜索胸部CT扫描图像中的肺结节时,未能报告合成到图像中的火柴盒大小的大猩猩,许多人甚至直接注视过它²。非注意盲视并非仅仅是感知敏锐度的失败。它是在特定注意集下的报告失败:观察者看到了,但任务已将相关性的范围收窄³。 大型语言和视觉-语言模型现在常规地被条件化于狭窄任务,并作为感知或解释性前端部署在安全关键环境中。一个放射学助手被要求评估一个结节;一个驾驶系统被要求跟踪前车;一个筛查模型被要求标记特定的威胁。我们提出的问题是:任务条件化是否在这些系统中产生了一个功能性的非注意盲视类似物:抑制了模型在无约束指令下本可报告的安全关键信息。 这个问题位于两个研究文献的交汇处。第一个,机器心理学,将模型视为认知实验的参与者,并记录了语言模型再现、有时甚至摆脱人类推理偏差的现象⁴,⁵。第二个涉及机器感知和视觉-语言报告的局限性,包括证据表明视觉-语言模型会遗漏视觉上显著的元素⁶,以及行为与人类的一致性并不一定意味着机制上的等效性⁷,⁸。尚未确定的是,注意集操控(人类非注意盲视的决定性原因)是否会抑制AI系统中安全关键的报告,以及这种效应是否跨模态、跨领域和跨模型规模成立。 我们做出三项贡献。首先,我们形式化了“非注意间隙”:模型在狭窄任务下报告的内容与同一模型在无约束条件下报告的内容之间的差异。其次,我们通过受控的注意集操控和一种裁决程序,在两个模态(语言和视觉)以及两个安全关键领域证明了这种间隙,该程序将任务诱导的遗漏与单纯的能力失败区分开。第三,我们证明这种间隙不会因模型规模而消除,在推理模型中持续存在,并随模态、任务负荷、信号显著性和模型家族而变化;我们进一步将其近端触发因素定位于输出范围,并探究其行为状态,发现系统1风格的任务捕获,而在本文采样的系统中没有可靠的架构通用监督行为。总之,这些结果描绘了任务条件化AI系统省略其本可报告的安全关键信号的条件。 ## 非注意间隙:一个行为构念 设一个已部署模型由指定目标集D_specified的任务指令条件化,而同一场景也包含共同存在的、未请求的、安全关键的信息D_unspecified。传统安全基准衡量在D_specified上的表现;部署中的危害通常取决于D_unspecified是否被呈现出来。非注意间隙表示这样一种状况:模型在指定目标上表现良好,同时抑制了对未指定安全关键信号的报告。形式化地,对于模型m和项目i,设R^open_{m,i}和R^task_{m,i}分别表示在无约束指令和任务条件化指令下安全关键信号是否被报告。项目级间隙为IG_{m,i} = R^open_{m,i} - R^task_{m,i},模型级间隙是在R^open_{m,i}=1的项目上估计的,从而使效应基于开放条件下的可报告性而非假定的感知状态(图1)。 该构念是行为性的且可证伪的。其标志是项目内的解离:同一模型,对相同输入,在无约束条件下报告关键信号,但当任务指令缩小了报告框架时却省略了它。这种控制将任务诱导的遗漏与能力缺陷区分开。一个在开放条件下未能呈现信号的项目不能支持关于抑制的主张,因此从间隙估计中排除。 一个自然的反驳是,模型在收窄指令下省略发现,仅仅是在遵循指令,而不是表现出非注意盲视的类似物。但在经典的人类范式中,遗漏本身是由任务指令诱导的:观察者错过猩猩是因为他们被告知要数穿白衣球队的传球次数¹,而被注意到的事物是由任务施加的注意集塑造的,“你看到的就是你设定的”。临床形式类似:当提出的问题要求排除黑色素瘤时,十二名眼科医生中有十一名错过了铁中毒的迹象¹⁰,而在常规阅片中,神经放射科医生遗漏了同一图像中那些被指示去寻求的阅读者所能发现的病灶¹¹(关于医学中非注意盲视的综述,见Hults等人¹²)。因此,遵循指令并不是非注意间隙的竞争性解释;它是注意集被施加的渠道,在人类中通过指令或期望,在模型中通过提示。开放条件下的恢复提供了机器版的完全注意控制:信号首先被证明是可报告的,然后被证明在任务集施加后被省略了。 该构念连接到一个关于封闭系统推理失败的更广泛假设:模型通过将开放世界问题简化为其提示所定义的封闭世界来求解,并在这个封闭之外失败。非注意间隙是这种失败在报告层面的实例。 这种封闭不仅仅是提示工程上的缺陷,而是任务范围化部署的一个可测量风险。为了保证任何共同存在的关键信号都不会被抑制,系统必须详尽且无范围地分析每一个输入,即普遍运行开放条件,让单个模型在每个病例上报告所有可能重要的内容。没有已部署的系统能在不产生成本的情况下做到这一点。因此,实际部署必然是任务范围化的:胸部CT被传送给结节检测器,产品被批准用于一个适应症,或者临床医生只询问是否存在结节。使AI变得易于处理、可认证和负担得起的同一范围化,也正是未请求的安全关键信号可能被省略的条件。 ## 相关工作:两个谱系与一个空白单元格 非注意间隙位于两个研究谱系的交汇点,据我们所知,这两个谱系在先前的机器研究中尚未结合。其新颖性在与两者对照时最为清晰。我们调查了116项先前研究,涵盖十一个轴(完整注释书目,补充文件S1)。正文引用了直接支撑论点的谱系锚点,而图6提供了结构化的定位地图;完整注释书目、轴编码和搜索理由在S1中提供。 一个人类谱系从实验室延伸到临床。选择性观看研究¹³导致了非注意盲视的形式化,即没有注意就没有报告的原则³,并由隐形大猩猩¹生动化,Most等人⁹用“你看到的就是你设定的”这句话确定了操作变量——注意集。临床实例是搜索满意:检测到一个异常会降低对共同存在的第二个异常的检测¹⁴,眼动追踪显示被遗漏的第二个发现常常被注视过,即被看到但未被报告¹⁵,这种模式现在在放射学和实验室中统一为后续搜索错误¹⁶。这种效应在专家中仍然存在:83%的放射科医生错过了合成到胸部扫描中的大猩猩²,遗漏扩展到临床相关的病理,经验无法提供保护¹⁷,而更大的专业能力可以通过锐化注意集来加深盲视¹⁸。这些研究中的每一个都确定了人类中依赖于注意集的遗漏;没有一个询问相同的操控是否会抑制机器中的报告。 一个机器谱系将模型视为认知主体。从机器是否像人一样思考的问题¹⁹开始,机器心理学项目²⁰将认知实验工具应用于语言模型⁴,记录了人类似的内容效应²¹,涌现随后对齐抑制的偏差⁵,以及形式能力与功能能力的解离²²。一个平行的线索认为,模型“知道”什么是由其任务结构化的²³,这是我们测量的实时推理门控的静态前兆。这个谱系探究推理和能力;它没有对某个本可报告的、安全关键的信号操控注意集。这些模型现在在从类比推理到心理理论的任务上达到人类水平表现²⁴,这强化了观点:我们报告的条件化遗漏是任务诱导的遗漏,而非能力失败。这两个谱系在我们的问题上相遇。 该主张在Cell Press家族中有直接对话者。Block²⁵的论题(感知意识可以超越认知通达)提供了理论类似物;在这里我们只操作机器中的报告级解离,其中提示缩小了模型可用的报告带宽²⁶。van Amsterdam等人²⁷在《Patterns》中证明,准确的模型可能产生有害的预言;我们将他们的准确性-危害解耦从预测循环扩展到任务条件化下的报告。Park等人²⁸也在《Patterns》中列举了策略性欺骗,即模型为达成目标而误报;非注意间隙是其非策略性对应物,没有明显的隐藏目标,但报告框架被收窄。Mahowald等人²²解离了形式能力与功能能力,我们增加了第三个解离:本可报告的信号与任务条件化报告。Sanchez等人²⁹构建了一个放射科医生-AI分歧管道,但未直接针对此处隔离的失败模式——静默遗漏。 最近的机器邻居各自缺少一个轴。视觉-语言局限性研究,包括显著性基准⁶,证明能力强的模型错过明显特征的演示³⁰,以及模型在表示上容易混淆的输入上失败的发现³¹,都是直接询问模型并衡量能力,而我们衡量的是模型未被要求报告的内容被抑制的程度。物体幻觉基准³²衡量相反的错误——报告不存在的内容,而我们衡量未能报告存在的内容;两者是安全相关报告错误的互补轴。AbsenceBench³³通过直接查询测试对故意移除的令牌的检测,而非在竞争任务下对存在的、本可报告内容的注意集诱导抑制。每个邻居都少了一个轴。 我们的论文最终要解决的部署安全文献涉及基准分数、分布偏移和规范游戏化。在此框架下,任务条件化是一种提示诱导的捷径:模型满足规定的任务,并绕过其他所有内容³⁴,这是两个典型安全问题的推理时实例:负面副作用和从评估到部署的分布偏移³⁵,也是提示层面的代理形式化地满足文字规范而违反其意图³⁶。关于汇总分数掩盖了个案内的失败,这在医学影像中有记录³⁷,而评估经常偏离部署现实,这在已批准的医疗AI的监管记录中可见³⁸。我们的贡献在于将这个解耦定位在项目内报告层面:在D_specified上的基准准确性,以及在D_unspecified上的危害。 机制上的解读受到以下工作的约束:行为上的等同并不一定意味着机制上的等同⁷,⁸。Transformer并不实例化相同的人类能力有限注意瓶颈³⁹,因此与人类大猩猩效应的趋同恰恰是有信息量的,因为机制很可能不同。我们将机器侧机制定位于报告条件化,而非人类式的感知瓶颈。用双过程术语⁴⁰来说,一个狭窄提示诱导出系统
相似文章
视觉-语言模型中可靠性的所在:注意力、隐藏状态与因果电路的机制研究
本文通过证明注意力图的尖锐度并非视觉-语言模型正确性的良好预测指标,挑战了“注意力-置信度假设”。相反,研究表明,隐藏状态的几何特征和自一致性更能反映模型的可靠性,并揭示了晚期融合模型与早期融合模型在架构上的显著差异。
误判鸿沟:当记忆投毒在自主AI系统中看似模型故障
本文识别了多智能体AI流水线中的一种结构性缺陷,即记忆层攻击可能被误判为模型失调,形式化定义了语义规范漂移(SND),并提出反事实组合测试(Counterfactual Composition Testing)和持久记忆信息流控制(Memory-Persistent Information-Flow Control)作为防御措施。
物理AI中的静默故障:自主系统运行时动作授权文献综述
本文献综述识别并分析了物理AI系统中静默故障的问题,即黑箱模型可能在未被检测到的情况下执行有害动作。它提出了运行时防护功能分类法,并概述了安全自主系统的评估要求。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
大型视觉-语言模型在注意力机制中迷失
这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。