解决“打地鼠困境”:一种更智能的 AI 视觉模型去偏方法

MIT News — Artificial Intelligence 论文

摘要

来自麻省理工学院(MIT)、伍斯特理工学院(WPI)和 Google 的研究人员提出了 WRING,这是一种用于视觉语言模型(VLM)的新型后处理去偏方法,旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。

<p dir="ltr">在当今的医院和诊所中,皮肤科医生可能会使用人工智能模型对皮肤病灶进行分类,以评估该病灶是否有癌变风险或是良性的。但如果模型对某些肤色存在偏见,它可能无法识别出高风险患者。</p><p dir="ltr">AI 研究持续面临且尚未完全解决的一个最著名且最持久的挑战就是偏见(bias)。偏见通常与训练数据有关,但模型架构也可能包含并放大偏见,从而对模型在实际环境中的性能产生负面影响。在高风险的医疗场景中,性能不佳带来的真实后果使得偏见成为了一个至关重要的安全问题。</p><p dir="ltr"><a href="https://openreview.net/pdf?id=tkE29O0jzF">一篇新论文</a>由来自麻省理工学院、伍斯特理工学院和 Google 的研究人员撰写,并已被 2026 年国际学习表征会议(ICLR)接收。该论文提出了一种名为“加权旋转去偏”(Weighted Rotational DebiasING,简称 WRING)的新型去偏方法,可应用于如 OpenAI 的 OpenCLIP 等视觉语言模型(VLMs)。</p><p dir="ltr">VLM 是能够同时理解和解释视频、图像和文本等不同数据模态的多模态模型。虽然针对 VLM 的去偏方法确实存在,但最常用的方法被称为“投影去偏”(projection debiasing),这导致了所谓的<a href="https://arxiv.org/abs/2212.04825">“打地鼠困境”</a>——这一经验观察于 2023 年正式引入 AI 研究领域。</p><p dir="ltr">投影去偏是一种后处理方法,通过从关系表示空间中“投影”出子空间来剔除模型嵌入中不需要的、有偏见的信息,从而切断偏见。但这种方法有其缺点。</p><p dir="ltr">“当你这样做时,你会无意中挤压周围的所有内容,”论文第一作者、去年在麻省理工学院担任博士后期间进行此项研究的 Walter Gerych 说道。“当你这样做时,模型学到的所有其他关系都会发生变化。”</p><p dir="ltr">Gerych 目前是伍斯特理工学院计算机科学系的助理教授。与他共同署名这篇论文的还有麻省理工学院的研究生 Cassandra Parent 和 Quinn Perian;Google 的 Rafiya Javed;以及麻省理工学院电气工程副教授 Justin Solomon 和 <a href="https://jclinic.mit.edu/team-member/marzyeh-ghassemi/">Marzyeh Ghassemi</a>,后者隶属于<a href="https://jclinic.mit.edu/">Abdul Latif Jameel 机器学习与健康诊所</a>以及信息和决策系统实验室。</p><p dir="ltr">虽然投影去偏阻止了模型根据从子空间中投影出的偏见采取行动,但它最终可能会放大甚至产生其他偏见,这就是“打地鼠困境”的由来。据 Ghassemi 称,模型偏见的意外放大“既是技术挑战,也是实际挑战。例如,当对检索临床工作人员图像的 VLM 进行去偏时——如果消除了种族偏见——可能会导致性别偏见被意外放大。”</p><p dir="ltr">WRING 的工作原理是移动模型高维空间中的某些坐标——那些看似导致偏见的坐标——使其角度发生变化,从而使模型无法再区分某个概念内不同群体之间的差异。这改变了特定空间内的表示,同时保持模型的其他关系不变。与投影去偏一样,WRING 也是一种后处理方法,这意味着它可以“即时”应用于预训练的 VLM。</p><p dir="ltr">“人们已经花费了大量资源和金钱来训练这些大型模型,我们并不希望介入并在训练过程中修改某些内容,因为那样就得从头开始,”Gerych 解释道。“[WRING] 非常高效。它不需要对模型进行更多训练,且侵入性最小。”</p><p dir="ltr">在研究结果中,研究人员发现 WRING 显著降低了目标概念的偏见,而未增加其他领域的偏见。但目前,这种方法在一定程度上局限于对比语言-图像预训练(CLIP)模型,这是一种将图像与语言联系起来以进行搜索或分类的 VLM 类型。</p><p dir="ltr">“将这一方法扩展到 ChatGPT 式的生成式语言模型,是我们合理的下一步,”Gerych 说。</p><p dir="ltr">这项研究部分得到了美国国家科学基金会 CAREER 奖、AI2050 早期职业研究员奖、斯隆研究奖、戈登和贝蒂摩尔基金会奖以及麻省理工学院-Google 计算创新奖的资助。</p>
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:49

# 解决“打地鼠困境”:更智能的去偏 AI 视觉模型方法 来源:https://news.mit.edu/2026/smarter-way-to-debias-ai-vision-models-0429 在当今的医院和诊所中,皮肤科医生可能会使用人工智能模型对皮肤病变进行分类,以评估该病变发展为癌症的风险或是否为良性。但如果模型对某些肤色存在偏见,它可能无法识别出高风险患者。 人工智能研究持续面对且尚未完全解决的最佳已知且最持久的挑战之一便是偏见。偏见通常在训练数据的背景下进行讨论,但模型架构也可能包含并放大偏见,从而对模型在现实世界中的表现产生负面影响。在高利害的医疗场景中,性能不佳所带来的真实后果使偏见成为一个典型的安全问题。 来自麻省理工学院(MIT)、伍斯特理工学院(Worcester Polytechnic Institute)和 Google 的研究人员的一篇新论文(https://openreview.net/pdf?id=tkE29O0jzF)已被 2026 年国际学习表征会议(International Conference for Learning Representations)接收,提出了一种名为“加权旋转去偏”(Weighted Rotational DebiasING,简称 WRING)的新型去偏方法,该方法可应用于如 OpenAI 的 OpenCLIP 等视觉语言模型(VLMs)。 视觉语言模型是多模态模型,能够同时理解和解释视频、图像和文本等不同数据模态。虽然针对视觉语言模型的去偏方法确实存在,但最常用的方法被称为“投影去偏”(projection debiasing),这导致了被称为“打地鼠困境”(Whac-A-Mole dilemma)(https://arxiv.org/abs/2212.04825)的现象,这是一种于 2023 年正式引入人工智能研究的实证观察。 投影去偏是一种后处理方法,通过从关系表征空间中“投影”出子空间来去除模型嵌入中不需要的、有偏见的信息,从而消除偏见。但这种方法有其缺点。 “当你这样做时,你无意中挤压了周围的一切,”该论文的第一作者沃尔特·格里奇(Walter Gerych)说道,他去年在麻省理工学院担任博士后期间进行了这项研究。“当你这样做时,模型学到的所有其他关系都会发生变化。” 格里奇现在是伍斯特理工学院的计算机科学助理教授,与他共同撰写该论文的有麻省理工学院研究生卡珊德拉·帕伦特(Cassandra Parent)和奎因·佩里安(Quinn Perian);Google 的 Rafiya Javed;以及麻省理工学院电气工程专业助理教授贾斯汀·所罗门(Justin Solomon)和玛兹耶·加塞米(Marzyeh Ghassemi)(https://jclinic.mit.edu/team-member/marzyeh-ghassemi/),她是阿卜杜勒·拉蒂夫·贾米尔机器学习与健康诊所(https://jclinic.mit.edu/)和信息与决策系统实验室的成员。 虽然投影去偏阻止了模型对在子空间中被投影出去的偏见采取行动,但它最终可能会放大并产生其他偏见,因此出现了“打地鼠困境”。根据加塞米的说法,模型偏见的无意放大“既是技术挑战,也是实际挑战。例如,在对检索临床工作人员图像的视觉语言模型进行去偏时——如果种族偏见被移除——它可能会无意中导致性别偏见的放大。” WRING 的工作原理是移动模型高维空间中的某些坐标——那些看似负责偏见的坐标——到不同的角度,使模型不再能够区分特定概念内的不同群体。这改变了特定空间内的表征,同时保持模型的其他关系完整。与投影去偏一样,WRING 也是一种后处理方法,这意味着它可以“即时”应用于预训练的视觉语言模型。 “人们已经花费了大量资源、大量金钱来训练这些巨大模型,我们并不真的想在训练过程中修改某些东西,因为那样你就得从头开始,”格里奇解释道。“[WRING] 非常高效。它不需要对模型进行更多训练,而且侵入性最小。” 在他们的研究结果中,研究人员发现,WRING 显著减少了目标概念的偏见,而没有增加其他领域的偏见。但就目前而言,这种方法在一定程度上仅限于对比语言-图像预训练(CLIP)模型,这是一种将图像与语言联系起来以进行搜索或分类的视觉语言模型。 “将这种方法扩展到类似 ChatGPT 的生成式语言模型,是我们合理的下一步,”格里奇说道。 这项工作部分得到了美国国家科学基金会(NSF)CAREER 奖、AI2050 奖早期职业研究员奖学金、斯隆研究学者奖(Sloan Research Fellow Award)、戈登和贝蒂·摩尔基金会奖(Gordon and Betty Moore Foundation Award)以及麻省理工学院-Google 计算创新奖的支持。

相似文章

让AI更像人类一样观察世界

Google DeepMind Blog

Google DeepMind在《自然》杂志发表了一篇论文,详细介绍了一种将AI视觉表征与人类认知结构对齐的方法,从而提升模型的鲁鲁棒性和可靠性。

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

检测并减少AI模型中的欺骗行为

OpenAI Blog

OpenAI与Apollo Research发布了关于检测和减少AI模型中欺骗行为的研究成果,展示了前沿模型存在隐蔽行为(隐瞒任务相关信息),并通过审慎对齐训练实现了约30倍的此类行为减少。

教人工智能模型说“我不确定”

MIT News — Artificial Intelligence

MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。