构建面向关键词抽取的学术论文多模态数据集
摘要
本文构建了一个包含1000篇学术论文的多模态数据集,包含文本、图像和音频,用于研究关键词抽取,结果显示融合多种模态能提升性能。
arXiv:2606.31069v1 公告类型:新
摘要:截至目前,关键词抽取任务通常仅依赖文本数据。忽略来自图像和音频模态的视觉细节和音频特征,会导致信息丰富度不足,并忽视潜在的相关性,从而限制模型学习数据表示的能力以及模型预测的准确性。此外,目前可用于关键词抽取任务的多模态数据集尤为稀缺,进一步阻碍了多模态关键词抽取研究进展。因此,本研究构建了一个包含1000个样本的学术论文多模态数据集,每个样本包含论文文本、图像、音频和关键词。基于无监督和有监督的关键词抽取方法,使用论文的文本数据以及从图像和音频中提取的文本进行实验。旨在探究不同模态信息及多模态信息融合在关键词抽取任务中的性能差异。实验结果表明,不同模态的文本在模型中表现出不同的特征。论文文本、图像文本和音频文本的拼接能有效提升学术论文的关键词抽取性能。
查看缓存全文
缓存时间: 2026/07/01 05:32
# 构建用于关键词提取的学术论文多模态数据集 来源:https://arxiv.org/abs/2606.31069 查看PDF (https://arxiv.org/pdf/2606.31069) > 摘要:到目前为止,关键词提取任务通常仅依赖文本数据。忽略来自图像和音频模态的视觉细节与音频特征,会导致信息丰富度不足,并忽视潜在的相关性,从而制约模型对数据表示的学习能力以及模型预测的准确性。此外,当前可用于关键词提取任务的多模态数据集尤其稀缺,进一步阻碍了多模态关键词提取研究的进展。因此,本研究构建了一个包含1000个样本的学术论文多模态数据集,每个样本包含论文文本、图像、音频和关键词。基于无监督和有监督的关键词提取方法,使用论文的文本数据以及从图像和音频中提取的文本进行实验,旨在探究不同模态信息以及多模态信息融合对关键词提取任务性能的影响。实验结果表明,不同模态的文本在模型中表现出不同特征。将论文文本、图像文本和音频文本进行拼接,能够有效提升学术论文的关键词提取性能。 ## 提交历史 来自:Chengzhi Zhang \[查看邮箱 (https://arxiv.org/show-email/8ebf732a/2606.31069)\] **\[v1\]**2026年6月30日星期二 02:57:23 UTC (749 KB)
相似文章
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。
用于事实核查的多模态声明提取
研究人员提出了首个用于从社交媒体中进行多模态声明提取的基准,评估了最先进的多模态大语言模型,并引入了MICE——一个意图感知框架,在处理图文结合帖子中的修辞意图和上下文线索方面有所改进。
课堂环境下的多模态说话人识别
本文评估了一种用于K-12课堂说话人识别的多模态框架,通过将声学嵌入(ECAPA-TDNN)与基于LLM的转录本语义上下文相结合,将整体准确率从39%提升至50.3%,对于较长话语,准确率从64.9%提升至76.9%。
EDU-CIRCUIT-HW:评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现
本文介绍了 EDU-CIRCUIT-HW 数据集,用于评估多模态大语言模型在真实大学级 STEM 手写解答上的表现,揭示了显著的识别局限性,并提出了一种结合自动化识别与极少人工监督的混合方法,以增强评分的鲁棒性。
MULTISEISMO:多模态地震数据集与模型,用于跨模态地震理解
本文介绍了MultiSeismo,一个大规模多模态地震数据集,包含超过16,000个事件,整合了波形、烈度图和元数据,以及MISCE指令集和SeisModal——一个经过微调的多模态模型,用于跨模态地震理解。