Brain-IT-VQA：从大脑信号到答案

Hugging Face Daily Papers 2026/05/28 00:00 论文

brain-decoding fmri visual-question-answering transformer dataset benchmark

摘要

Brain-IT-VQA 框架利用 Transformer 架构从 fMRI 信号中解码视觉内容，性能优于此前的方法。作者还引入了 NSD-VQA，这是一个新数据集，具有更丰富的标注，用于评估基于 fMRI 的视觉问答。

从人观看图像时记录的 fMRI 信号中解码视觉内容，并回答关于所看到图像的具体问题，是一项长期挑战。尽管近年来基于 fMRI 的视觉问答（VQA）取得了显著进展，但性能仍然有限。此外，尽管最近的模型能够做出越来越准确的预测，但它们很少被用作理解大脑中视觉表征结构的工具。我们提出了 Brain-IT-VQA，这是一个基于 fMRI 进行视觉问答的框架。我们的方法以 Brain Interaction Transformer (Brain-IT) 为基础，从大脑活动中解码语言标记，并将其与语言模型集成以回答视觉问题。我们的模型显著优于之前基于 fMRI 的标注和 VQA 方法。我们进一步引入了 NSD-VQA，这是一个用于基于 fMRI 的视觉问答的新数据集和基准。与现有的图像-fMRI VQA 数据集（通常每张图像仅提供少数几个宽泛且控制薄弱的问答）不同，NSD-VQA 在 20 个受控问题类别下，每张图像平均提供 20 个问答对，这些类别区分了多个层次的视觉理解。这使得在有限的 fMRI 测试数据下也能进行更可靠和可解释的评估。Brain-IT-VQA 和 NSD-VQA 共同提供了一个强大的预测框架以及研究大脑表征的工具。利用这一基准，我们量化了从自然图像 fMRI 响应中可可靠解码的视觉和语义信息形式。我们还分析了不同问题类型下不同脑区的贡献。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - Brain-IT-VQA：从脑信号到答案

来源: https://huggingface.co/papers/2605.29588

摘要

Brain-IT-VQA 框架利用基于 Transformer 的架构从 fMRI 信号解码视觉内容，并引入 NSD-VQA 数据集，以改进视觉问答评估。

从人观看图像时记录的 fMRI 信号解码视觉内容，特别是回答关于所看图像的问题，是一项长期挑战。尽管近年来在基于 fMRI 的视觉问答方面取得了显著进展，但性能仍然有限。此外，虽然最近的模型能够做出越来越准确的预测，但它们很少被用作理解大脑中视觉表征结构的工具。我们提出 Brain-IT-VQA，一个基于 fMRI 进行视觉问答的框架。该方法基于 Brain Interaction Transformer，从大脑活动中解码语言标记，并将其与语言模型集成以回答视觉问题。我们的模型大幅优于此前基于 fMRI 的字幕生成和 VQA 方法。我们还引入了 NSD-VQA，这是一个用于基于 fMRI 视觉问答的新数据集和基准。与现有的图像-fMRI VQA 数据集通常每张图像仅提供少量宽泛且控制不足的问题不同，NSD-VQA 平均每张图像提供 20 个问答对，覆盖 20 个受控问题类别，这些类别解耦了多个层次的视觉理解。这使得在 fMRI 测试数据有限的情况下，仍能进行更可靠且可解释的评估。总体而言，Brain-IT-VQA 和 NSD-VQA 既提供了强大的预测框架，也提供了研究大脑表征的工具。利用这一基准，我们量化了哪些形式的视觉和语义信息能够可靠地从自然图像的 fMRI 响应中解码。我们进一步分析了不同脑区在不同问题类型中的贡献。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29588) 查看 PDF (https://arxiv.org/pdf/2605.29588) 项目页面 (https://mcosarinsky.github.io/brain-it-vqa/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29588)

在你的代理中获取这篇论文：

hf papers read 2605\.29588

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接到这篇论文

在模型 README.md 中引用 arxiv.org/abs/2605.29588 以从本页链接。

引用该论文的数据集0

没有数据集链接到这篇论文

在数据集 README.md 中引用 arxiv.org/abs/2605.29588 以从本页链接。

引用该论文的 Space0

没有 Space 链接到这篇论文

在 Space README.md 中引用 arxiv.org/abs/2605.29588 以从本页链接。

包含该论文的收藏0

没有收藏包含这篇论文

将这篇论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。

Brain-IT-VQA：从大脑信号到答案

论文页面 - Brain-IT-VQA：从脑信号到答案

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Space0

包含该论文的收藏0

相似文章

基于视觉基础模型引导的注意力一致性纵向医学视觉问答

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

基于证据的视频问答

自我演进的视觉提问器

DrawingVQA：一个用于建筑图纸多深度视觉-文本推理的真实世界基准

提交意见反馈