@MSFTResearch：研究人员引入生成式因果测试，将黑盒模型转化为清晰的假设并验证……

X AI KOLs Following 2026/06/25 16:32 论文

generative-causal-testing neuroscience llm explainability brain-prediction language research

摘要

微软研究院及其合作者提出了生成式因果测试（GCT），该方法将黑盒脑预测模型提炼为可测试的解释，并通过fMRI实验进行验证，揭示了特定脑区对语言概念的反应。

研究人员引入了生成式因果测试，将黑盒模型转化为清晰的假设，并在扫描仪中进行验证，揭示了特定脑区在语言处理中的反应。https://t.co/YJky2vuxuq https://t.co/JFOVd7tE5h

查看原文

查看缓存全文

缓存时间: 2026/06/26 06:07

研究人员推出生成因果测试（GCT），这种方法能将黑盒模型转化为清晰的假设，并在扫描仪中加以验证，从而揭示不同脑区具体对语言的哪些内容做出反应。https://t.co/YJky2vuxuq https://t.co/JFOVd7tE5h

将大脑预测模型转化为可检验的解释

来源：https://www.microsoft.com/en-us/research/blog/understanding-the-brain-with-ai-driven-explanations-and-experiments/ 理解大脑 | 四个白色线条图标在抽象紫色背景上：大脑图标、聊天气泡图标、带对勾的圆圈图标、搜索图标## 概览

基于 LLM 的模型能够高精度地预测人类大脑对语言的反应。但驱动这种性能的东西本质上无法解读：那是一大堆学习到的参数，而不是任何人都能读懂的科学理论。
生成因果测试（GCT）由微软研究院、加州大学伯克利分校、加州大学旧金山分校和哥伦比亚大学合作开发，它能将大脑预测模型提炼成简短的文字解释，说明每个皮层区域对什么内容做出反应，例如“食物准备”或“地名”。
GCT 随后闭环：一个 LLM 编写旨在激活特定脑区的新故事，受试者在扫描仪中听这些故事，只有当解释正确时，该区域才会被激活。
在实验中，GCT 确认了已知的选择性，区分了长期以来被认为可互换的相邻地点处理区域，并揭示了专门针对特定概念（如对话、时钟时间和度量单位）的前额叶“微区域”。

语言神经科学中的可解释性问题

在过去十年中，LLM 已成为预测人类大脑如何对语言做出反应最精确的工具。将一个人躺在 fMRI 扫描仪中听到的故事输入 LLM，该模型的内部表征就能以惊人的保真度预测单个皮层斑块的活动。但这种成功有一个附带条件：没人能读懂这些模型。它们包含数百万个难以理解的参数，无法直接转化为解释。一个能预测大脑活动的模型告诉我们某个区域对语言有反应，但无法告诉我们它实际上在捕捉什么——是食物、地点、数字，还是完全不同的东西？随着黑盒模型的普及，预测与理解之间的差距已成为计算神经科学的核心问题之一。

将黑盒转化为可检验的理论

在《自然·神经科学》发表的一篇新论文中（https://www.microsoft.com/en-us/research/publication/generative-causal-testing-to-bridge-data-driven-models-and-scientific-theories-in-language-neuroscience/），微软研究院的科学家与加州大学伯克利分校、加州大学旧金山分校和哥伦比亚大学的科学家合作，引入了一个克服这一可解释性危机的框架：生成因果测试（GCT）。GCT 将大脑预测模型提炼成简短、可读的说明，指明每个皮层区域对什么做出反应，然后检验这些说法。一个 LLM 编写专门用于激活特定脑区的新故事，受试者在扫描仪中听到这些故事；如果解释正确，目标区域就会被激活。其结果是一种方法，将不可解释的预测模型重新转化为科学的通货：可以在后续实验中得到确认或反驳的简洁假设。

图1：展示两步过程的示意图。上方第一步中，箭头管道显示从故事 n-gram 到读取“食物准备”的体素解释的过程。下方第二步显示 AI 聊天以及脑区图像和它们响应的线图。
图1. 生成因果测试（GCT）的两个步骤。步骤1中，一个 LLM 将最强驱动某一脑区预测模型的短语总结为简短候选解释，例如“食物准备”。步骤2中，一个 LLM 编写与这一解释相匹配的新故事，然后在扫描仪中测量该区域对这些“驱动”故事的响应，并与基线进行比较。

GCT 的工作原理

GCT 有两个步骤：解释，然后验证。为了生成解释，该方法从一个体素或区域的预测模型开始，找出最强烈驱动其预测响应的短短语。然后，一个 LLM 将这些词总结成一个简洁的文字解释，通常是一个短语，如“食物准备”或“地名”。

关键的第二步则是闭环。为了建立对解释的信任，GCT 使用一个 LLM 编写新故事，每个段落都经过精心构建，以根据解释来驱动某个脑区。三位受试者返回扫描仪阅读这些合成故事。如果一个区域对“驱动”段落的反应显著高于基线文本，则该解释通过了真正的因果检验，而不仅仅是相关检验。

在所有三名受试者中，核心方法都成立：合成故事可靠地将其目标区域驱动到基线以上，证实了 GCT 的简短解释确实捕捉到了皮层真正反应的内容。这些解释在底层大脑预测模型最强时也最可信（模型越稳定，其解释在扫描仪中得到确认的可靠性就越高）。在那些已知选择性区域上验证了该方法之后，研究人员将 GCT 用于更困难的问题。

图2：六张大脑表面可视化图显示不同类别（包括地点和食物准备）的归一化 BOLD 反应。
图2. 对 GCT 故事的大脑响应图，按主题分类。一些图恢复了已确立的发现：解释“地点”在地点区域 RSC、OPA 和 PPA 中产生强烈反应。其他图独立证实了较新的假设：“食物准备”激活了腹侧枕叶皮层靠近梭状回面孔区（FFA）的一个区域。还有一些图（如“生日”）无法清晰映射到任何已知结果，为未来研究指明了方向。

GCT 还足够敏锐，能够解决长期存在的模糊之处。三个参与地点处理的相邻区域通常被视为功能相似：压后皮层（RSC）、海马旁地点区（PPA）和枕叶地点区（OPA）。最初，为某一区域编写的故事也会激活其他区域。但通过生成差异性刺激（旨在开启一个区域同时保持其邻近区域安静的故事），GCT 将这三个区域区分开来。例如，RSC 对专有地名（如东京或康涅狄格州）的反应比一般地点更强。这种细微的、区域特异性的理论，是原始预测模型无法独立提供的。

除了已知的区域外，作者们还发现了新的前额叶“微区域”。通过扫描候选位置的网格并仅保留最稳定的区域，GCT 发现了这些以前未被映射的区域，它们对非常具体的概念表现出选择性：一个区域对人与人之间的对话有选择性（如“said”或“told”这样的词），一个对时间提及有选择性（如“one o’clock”），还有一个对数值度量有选择性（如“50 feet”）。这些是没有人曾寻找过的区分；它们之所以出现，是因为该方法能够提出一个假设并立即检验它。

聚焦：系列活动

研究论坛 | 抽象背景带彩色六边形 (https://www.microsoft.com/en-us/research/event/microsoft-research-forum/past-episodes/?OCID=msr_researchforum_MCR_Blog_Promo)

微软研究论坛

加入我们，围绕通用 AI 时代的研究进行持续交流。点播观看最新剧集。

意义与展望

GCT 的意义远远超出了神经科学。研究人员越来越面临同样的困境：一个模型预测得很好，但却无法解释任何东西。GCT 表明，数据驱动的模型不必是探究的终点；它可以被提炼成可读的、可实验检验的理论，并且可以通过按需生成新实验来与现实核对。

具体到神经科学，GCT 为绘制皮层图谱指明了一条更快、更富含假设的途径——在这种途径中，AI 系统提出某脑区可能编码什么，闭环实验在同一研究中确认或拒绝它。同样的生成-验证理念可以扩展到其他领域，在这些领域中，强大的预测模型已经超出了我们理解它们的能力。更广泛的教训是充满希望的：科学中黑盒模型的兴起不一定意味着人类可读理论的退却。有了正确的框架，两者可以共同进步。

致谢

这项工作是由微软研究院、加州大学伯克利分校（Alex Huth, Bin Yu, Sihang Guo, Aliyah Hsu）、哥伦比亚大学（RJ Antonello，共同第一作者）和加州大学旧金山分校（Shailee Jain）合作完成的。我们还感谢研究参与者以及更广泛的语言神经科学社区，他们的工具和数据集使这项研究成为可能。

阅读论文（在新窗口中打开）(https://arxiv.org/abs/2410.00812)：“生成因果测试：弥合语言神经科学中数据驱动模型与科学理论之间的鸿沟”，发表于《自然·神经科学》，以及 GitHub 上的代码（在新窗口中打开）(https://github.com/microsoft/automated-brain-explanations)。

相似文章

从激活到因果：发现人脑中因果视觉表征

Hugging Face Daily Papers

BrainCause框架利用生成模型和大脑模型来识别人类大脑中的因果神经表征，证明仅凭激活不足以确认概念表征。

PROMETHEUS：自动化深度因果研究，整合文本、数据与模型

arXiv cs.AI

本文介绍了PROMETHEUS框架，该框架利用大型语言模型从文本中提取局部因果主张，并将其组织成可导航的因果图谱，从而在多个领域实现深度因果研究。

@MSFTResearch：微软研究院推出了新的工具、模型、仓库和论文。使用AI和智能体？值得关注：• Mage…

X AI KOLs Following

微软研究在微软研究论坛虚拟系列中宣布了新的工具、模型、仓库和论文，包括MagenticLite、智能体驱动的GitHub工作流、验证优先的智能体以及语义匹配微调。

@DivyanshT91162: 微软研究刚刚发布了一篇论文，彻底颠覆了对可解释性的理解。（收藏此篇）多年来，……

X AI KOLs Timeline

微软研究院推出了Agentic-iModels，这是一个框架，其中编码代理进化出针对LLM可解释性而非人类可读性优化的scikit-learn回归器，在65个数据集上超越了传统的可解释机器学习方法。

语言模型可以解释语言模型中的神经元

OpenAI Blog

# 语言模型可以解释语言模型中的神经元来源：[https://openai.com/index/language-models-can-explain-neurons-in-language-models/](https://openai.com/index/language-models-can-explain-neurons-in-language-models/) 虽然我们的大多数解释得分较低，但我们相信现在可以使用机器学习技术进一步改进我们生成解释的能力。例如，我们发现我们能够通过以下方式提高得分：- *迭代解释*。我们可以通过增加得分来