构建面向关键词抽取的学术论文多模态数据集

arXiv cs.CL 2026/07/01 04:00 论文

keyword-extraction multimodal dataset academic-papers nlp text-mining

摘要

本文构建了一个包含1000篇学术论文的多模态数据集，包含文本、图像和音频，用于研究关键词抽取，结果显示融合多种模态能提升性能。

arXiv:2606.31069v1 公告类型：新摘要：截至目前，关键词抽取任务通常仅依赖文本数据。忽略来自图像和音频模态的视觉细节和音频特征，会导致信息丰富度不足，并忽视潜在的相关性，从而限制模型学习数据表示的能力以及模型预测的准确性。此外，目前可用于关键词抽取任务的多模态数据集尤为稀缺，进一步阻碍了多模态关键词抽取研究进展。因此，本研究构建了一个包含1000个样本的学术论文多模态数据集，每个样本包含论文文本、图像、音频和关键词。基于无监督和有监督的关键词抽取方法，使用论文的文本数据以及从图像和音频中提取的文本进行实验。旨在探究不同模态信息及多模态信息融合在关键词抽取任务中的性能差异。实验结果表明，不同模态的文本在模型中表现出不同的特征。论文文本、图像文本和音频文本的拼接能有效提升学术论文的关键词抽取性能。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:32

# 构建用于关键词提取的学术论文多模态数据集
来源：https://arxiv.org/abs/2606.31069
查看PDF (https://arxiv.org/pdf/2606.31069)

> 摘要：到目前为止，关键词提取任务通常仅依赖文本数据。忽略来自图像和音频模态的视觉细节与音频特征，会导致信息丰富度不足，并忽视潜在的相关性，从而制约模型对数据表示的学习能力以及模型预测的准确性。此外，当前可用于关键词提取任务的多模态数据集尤其稀缺，进一步阻碍了多模态关键词提取研究的进展。因此，本研究构建了一个包含1000个样本的学术论文多模态数据集，每个样本包含论文文本、图像、音频和关键词。基于无监督和有监督的关键词提取方法，使用论文的文本数据以及从图像和音频中提取的文本进行实验，旨在探究不同模态信息以及多模态信息融合对关键词提取任务性能的影响。实验结果表明，不同模态的文本在模型中表现出不同特征。将论文文本、图像文本和音频文本进行拼接，能够有效提升学术论文的关键词提取性能。

## 提交历史

来自：Chengzhi Zhang \[查看邮箱 (https://arxiv.org/show-email/8ebf732a/2606.31069)\] **\[v1\]**2026年6月30日星期二 02:57:23 UTC (749 KB)

构建面向关键词抽取的学术论文多模态数据集

相似文章

MulTaBench：基于文本与图像的多模态表格学习基准测试

用于事实核查的多模态声明提取

课堂环境下的多模态说话人识别

EDU-CIRCUIT-HW：评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现

MULTISEISMO：多模态地震数据集与模型，用于跨模态地震理解

提交意见反馈