Brain-IT-VQA:从大脑信号到答案

Hugging Face Daily Papers 论文

摘要

Brain-IT-VQA 框架利用 Transformer 架构从 fMRI 信号中解码视觉内容,性能优于此前的方法。作者还引入了 NSD-VQA,这是一个新数据集,具有更丰富的标注,用于评估基于 fMRI 的视觉问答。

从人观看图像时记录的 fMRI 信号中解码视觉内容,并回答关于所看到图像的具体问题,是一项长期挑战。尽管近年来基于 fMRI 的视觉问答(VQA)取得了显著进展,但性能仍然有限。此外,尽管最近的模型能够做出越来越准确的预测,但它们很少被用作理解大脑中视觉表征结构的工具。我们提出了 Brain-IT-VQA,这是一个基于 fMRI 进行视觉问答的框架。我们的方法以 Brain Interaction Transformer (Brain-IT) 为基础,从大脑活动中解码语言标记,并将其与语言模型集成以回答视觉问题。我们的模型显著优于之前基于 fMRI 的标注和 VQA 方法。我们进一步引入了 NSD-VQA,这是一个用于基于 fMRI 的视觉问答的新数据集和基准。与现有的图像-fMRI VQA 数据集(通常每张图像仅提供少数几个宽泛且控制薄弱的问答)不同,NSD-VQA 在 20 个受控问题类别下,每张图像平均提供 20 个问答对,这些类别区分了多个层次的视觉理解。这使得在有限的 fMRI 测试数据下也能进行更可靠和可解释的评估。Brain-IT-VQA 和 NSD-VQA 共同提供了一个强大的预测框架以及研究大脑表征的工具。利用这一基准,我们量化了从自然图像 fMRI 响应中可可靠解码的视觉和语义信息形式。我们还分析了不同问题类型下不同脑区的贡献。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - Brain-IT-VQA:从脑信号到答案

来源: https://huggingface.co/papers/2605.29588

摘要

Brain-IT-VQA 框架利用基于 Transformer 的架构从 fMRI 信号解码视觉内容,并引入 NSD-VQA 数据集,以改进视觉问答评估。

从人观看图像时记录的 fMRI 信号解码视觉内容,特别是回答关于所看图像的问题,是一项长期挑战。尽管近年来在基于 fMRI 的视觉问答方面取得了显著进展,但性能仍然有限。此外,虽然最近的模型能够做出越来越准确的预测,但它们很少被用作理解大脑中视觉表征结构的工具。我们提出 Brain-IT-VQA,一个基于 fMRI 进行视觉问答的框架。该方法基于 Brain Interaction Transformer,从大脑活动中解码语言标记,并将其与语言模型集成以回答视觉问题。我们的模型大幅优于此前基于 fMRI 的字幕生成和 VQA 方法。我们还引入了 NSD-VQA,这是一个用于基于 fMRI 视觉问答的新数据集和基准。与现有的图像-fMRI VQA 数据集通常每张图像仅提供少量宽泛且控制不足的问题不同,NSD-VQA 平均每张图像提供 20 个问答对,覆盖 20 个受控问题类别,这些类别解耦了多个层次的视觉理解。这使得在 fMRI 测试数据有限的情况下,仍能进行更可靠且可解释的评估。总体而言,Brain-IT-VQA 和 NSD-VQA 既提供了强大的预测框架,也提供了研究大脑表征的工具。利用这一基准,我们量化了哪些形式的视觉和语义信息能够可靠地从自然图像的 fMRI 响应中解码。我们进一步分析了不同脑区在不同问题类型中的贡献。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29588) 查看 PDF (https://arxiv.org/pdf/2605.29588) 项目页面 (https://mcosarinsky.github.io/brain-it-vqa/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29588)

在你的代理中获取这篇论文:

hf papers read 2605\.29588

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接到这篇论文

在模型 README.md 中引用 arxiv.org/abs/2605.29588 以从本页链接。

引用该论文的数据集0

没有数据集链接到这篇论文

在数据集 README.md 中引用 arxiv.org/abs/2605.29588 以从本页链接。

引用该论文的 Space0

没有 Space 链接到这篇论文

在 Space README.md 中引用 arxiv.org/abs/2605.29588 以从本页链接。

包含该论文的收藏0

没有收藏包含这篇论文

将这篇论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

用于视觉问答的神经模块网络

ML at Berkeley

本文解析了论文《Deep Compositional Question Answering with Neural Module Networks》中提出的神经模块网络(NMN)架构,详细阐述了其如何通过将问题分解为模块化的步骤来处理视觉问答任务中的组合结构。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

SGOCR:一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning

大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策

元学习上下文学习实现无需训练的跨被试脑解码

Hugging Face Daily Papers

# 论文页面 - 元学习上下文学习实现无需训练的跨被试脑解码 来源:[https://huggingface.co/papers/2604.08537](https://huggingface.co/papers/2604.08537) 作者:,,,,,,,,,,,,, ## 摘要 一种元优化方法通过少量图像-脑示例快速推断个体独特神经编码模式,无需跨被试及扫描仪微调,即可实现可泛化的语义视觉解码。[视觉解码](https://huggingface.co/papers?q