构建面向关键词抽取的学术论文多模态数据集

arXiv cs.CL 论文

摘要

本文构建了一个包含1000篇学术论文的多模态数据集,包含文本、图像和音频,用于研究关键词抽取,结果显示融合多种模态能提升性能。

arXiv:2606.31069v1 公告类型:新 摘要:截至目前,关键词抽取任务通常仅依赖文本数据。忽略来自图像和音频模态的视觉细节和音频特征,会导致信息丰富度不足,并忽视潜在的相关性,从而限制模型学习数据表示的能力以及模型预测的准确性。此外,目前可用于关键词抽取任务的多模态数据集尤为稀缺,进一步阻碍了多模态关键词抽取研究进展。因此,本研究构建了一个包含1000个样本的学术论文多模态数据集,每个样本包含论文文本、图像、音频和关键词。基于无监督和有监督的关键词抽取方法,使用论文的文本数据以及从图像和音频中提取的文本进行实验。旨在探究不同模态信息及多模态信息融合在关键词抽取任务中的性能差异。实验结果表明,不同模态的文本在模型中表现出不同的特征。论文文本、图像文本和音频文本的拼接能有效提升学术论文的关键词抽取性能。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:32

# 构建用于关键词提取的学术论文多模态数据集
来源:https://arxiv.org/abs/2606.31069
查看PDF (https://arxiv.org/pdf/2606.31069)

> 摘要:到目前为止,关键词提取任务通常仅依赖文本数据。忽略来自图像和音频模态的视觉细节与音频特征,会导致信息丰富度不足,并忽视潜在的相关性,从而制约模型对数据表示的学习能力以及模型预测的准确性。此外,当前可用于关键词提取任务的多模态数据集尤其稀缺,进一步阻碍了多模态关键词提取研究的进展。因此,本研究构建了一个包含1000个样本的学术论文多模态数据集,每个样本包含论文文本、图像、音频和关键词。基于无监督和有监督的关键词提取方法,使用论文的文本数据以及从图像和音频中提取的文本进行实验,旨在探究不同模态信息以及多模态信息融合对关键词提取任务性能的影响。实验结果表明,不同模态的文本在模型中表现出不同特征。将论文文本、图像文本和音频文本进行拼接,能够有效提升学术论文的关键词提取性能。

## 提交历史

来自:Chengzhi Zhang \[查看邮箱 (https://arxiv.org/show-email/8ebf732a/2606.31069)\] **\[v1\]**2026年6月30日星期二 02:57:23 UTC (749 KB)

相似文章

用于事实核查的多模态声明提取

arXiv cs.CL

研究人员提出了首个用于从社交媒体中进行多模态声明提取的基准,评估了最先进的多模态大语言模型,并引入了MICE——一个意图感知框架,在处理图文结合帖子中的修辞意图和上下文线索方面有所改进。

课堂环境下的多模态说话人识别

arXiv cs.CL

本文评估了一种用于K-12课堂说话人识别的多模态框架,通过将声学嵌入(ECAPA-TDNN)与基于LLM的转录本语义上下文相结合,将整体准确率从39%提升至50.3%,对于较长话语,准确率从64.9%提升至76.9%。