研究论文的哪些部分最能揭示其研究方法?来自图书馆与信息科学的证据
摘要
本文提出了一种基于全文内容分段的组合策略,用于自动分类学术论文中的研究方法。在来自图书馆与信息科学期刊的标注语料库上的实验表明,方法信息分布不均匀,中后段具有更高的区分能力。
arXiv:2606.19051v1 公告类型:新
摘要:研究方法是学术论文中知识贡献的重要载体。研究方法的自动多标签分类可以支持方法检索、综述生成和研究情报分析等知识服务。现有研究主要依赖标题和摘要,但摘要往往只提供有限的方法信息,而利用全文内容则面临篇幅过长和信息冗余的挑战。因此,本文提出了一种根据物理位置划分全文内容的段落组合策略。使用来自图书馆与信息科学领域三个代表性期刊(JASIST、LISR 和 JDoc)的 1,954 篇全文文章的标注语料库,我们评估了不同段落及其组合在多个模型上的分类性能。实验结果表明,方法信息在全文内容中分布不均匀,中后段和末段具有更强的区分能力。此外,将书目元数据与跨段组合策略相结合,可有效提升分类性能。
查看缓存全文
缓存时间: 2026/06/18 05:47
# 研究论文的哪些部分最能揭示其研究方法?——来自图书馆与信息科学的证据 来源:https://arxiv.org/abs/2606.19051 查看PDF (https://arxiv.org/pdf/2606.19051) > 摘要:研究方法是学术论文中知识贡献的重要载体。研究方法的自动多标签分类可支持方法检索、综述生成和研究情报分析等知识服务。现有研究主要依赖标题和摘要,但摘要通常仅提供有限的方法信息,而利用全文内容则面临篇幅过长和信息冗余的挑战。为此,本文提出一种按物理位置划分全文内容的段落组合策略。利用标注语料(包含来自图书馆与信息科学领域三本代表性期刊JASIST、LISR和JDoc的1954篇全文文章),我们评估了多种模型在不同段落及其组合下的分类性能。实验结果表明,方法信息在全文内容中分布不均,中后部和末尾段落具有更强的区分能力。此外,将书目元数据与跨段落组合策略相结合可有效提升分类性能。 ## 提交历史 来自:张志程 [查看邮箱](https://arxiv.org/show-email/8619b055/2606.19051) **[v1]** 2026年6月17日星期三 13:17:41 UTC(1,620 KB)
相似文章
基于信息融合的文档分类模式识别:多模态与多视图表示方法的系统综述
本系统综述对139项研究进行了分析,提出了一个统一的框架和元分析,用于通过多模态和多视图信息融合进行文档分类,发现融合提高了准确性(平均提升+5.28个百分点),但也揭示了可重复性挑战。
LLM 需要多少结构?评估 LLM 用于文献计量聚类描述
本文通过比较六种生成聚类描述的流程,评估文献计量结构是否能改善 LLM 辅助的科学文献综述。结果表明,在文献计量算法定义聚类、LLM 生成可读描述的混合工作流中,LLM 表现最佳。
从片段到语义:重新思考多语言事实核查的证据粒度
本文介绍了SEEK,一个用于多语言事实核查中语义证据提取的框架,该框架从完整文章中构建连贯的证据块,并使用LoRA微调多语言大语言模型,在宏观F1分数上相比基线提升了高达20%。
用于监测和分类研究文献中数据使用的AI
本文提出了一种基于多任务GLiNER的框架,用于可扩展地监测研究文献中的数据集使用情况。该框架利用合成数据生成和基于LLM的重新验证,以解决提取、关系识别和使用分类中的挑战。
迷失于单一向量:通过分块证据聚合改进长文档检索
本文识别出长文档稠密检索中的文档侧早期压缩这一失败模式,并引入证据稀释指数(EDI)来衡量该问题。作者提出DICE,一种无需训练的方法,将文档分割成块,独立编码,然后聚合为单一向量,显著改进了长文档的检索效果。