研究论文的哪些部分最能揭示其研究方法?来自图书馆与信息科学的证据

arXiv cs.CL 论文

摘要

本文提出了一种基于全文内容分段的组合策略,用于自动分类学术论文中的研究方法。在来自图书馆与信息科学期刊的标注语料库上的实验表明,方法信息分布不均匀,中后段具有更高的区分能力。

arXiv:2606.19051v1 公告类型:新 摘要:研究方法是学术论文中知识贡献的重要载体。研究方法的自动多标签分类可以支持方法检索、综述生成和研究情报分析等知识服务。现有研究主要依赖标题和摘要,但摘要往往只提供有限的方法信息,而利用全文内容则面临篇幅过长和信息冗余的挑战。因此,本文提出了一种根据物理位置划分全文内容的段落组合策略。使用来自图书馆与信息科学领域三个代表性期刊(JASIST、LISR 和 JDoc)的 1,954 篇全文文章的标注语料库,我们评估了不同段落及其组合在多个模型上的分类性能。实验结果表明,方法信息在全文内容中分布不均匀,中后段和末段具有更强的区分能力。此外,将书目元数据与跨段组合策略相结合,可有效提升分类性能。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:47

# 研究论文的哪些部分最能揭示其研究方法?——来自图书馆与信息科学的证据
来源:https://arxiv.org/abs/2606.19051
查看PDF (https://arxiv.org/pdf/2606.19051)

> 摘要:研究方法是学术论文中知识贡献的重要载体。研究方法的自动多标签分类可支持方法检索、综述生成和研究情报分析等知识服务。现有研究主要依赖标题和摘要,但摘要通常仅提供有限的方法信息,而利用全文内容则面临篇幅过长和信息冗余的挑战。为此,本文提出一种按物理位置划分全文内容的段落组合策略。利用标注语料(包含来自图书馆与信息科学领域三本代表性期刊JASIST、LISR和JDoc的1954篇全文文章),我们评估了多种模型在不同段落及其组合下的分类性能。实验结果表明,方法信息在全文内容中分布不均,中后部和末尾段落具有更强的区分能力。此外,将书目元数据与跨段落组合策略相结合可有效提升分类性能。

## 提交历史

来自:张志程 [查看邮箱](https://arxiv.org/show-email/8619b055/2606.19051)  
**[v1]** 2026年6月17日星期三 13:17:41 UTC(1,620 KB)

相似文章

用于监测和分类研究文献中数据使用的AI

arXiv cs.CL

本文提出了一种基于多任务GLiNER的框架,用于可扩展地监测研究文献中的数据集使用情况。该框架利用合成数据生成和基于LLM的重新验证,以解决提取、关系识别和使用分类中的挑战。

迷失于单一向量:通过分块证据聚合改进长文档检索

arXiv cs.CL

本文识别出长文档稠密检索中的文档侧早期压缩这一失败模式,并引入证据稀释指数(EDI)来衡量该问题。作者提出DICE,一种无需训练的方法,将文档分割成块,独立编码,然后聚合为单一向量,显著改进了长文档的检索效果。