标签
本文通过翻译SemEval-2010 Task 8基准数据集,并在零样本、少样本和QLoRA微调条件下评估Gemma 4,与更小的编码器基线进行比较,研究针对罗马尼亚语的跨语言关系抽取。
本文提出LC-ICL,一种新颖的少样本技术,它同时使用正确和错误的示例以及错误原因标签,以提升大型语言模型在信息抽取任务(如命名实体识别和关系抽取)上的性能。
本文介绍了DistilledGemma,一个用于从多语言历史报纸文章中抽取人物-地点关系的系统,该系统采用从26B参数的Gemma教师模型到2.3B参数的学生模型的三阶段知识蒸馏流程,在HIPE-2026共享任务中实现了具有竞争力的准确性和效率。
提出了ReaORE,一个基于推理引导的开放关系抽取框架,通过从粗到细的推理逐步过滤和预测关系,在两个数据集上优于现有基线。
本文介绍了HIPE-2026的结果,这是HIPE评测系列的第三版,专注于从法语、德语和英语的多语言历史文档中提取基于时间的人物-地点关系。对17个参赛团队在预测准确性、计算效率和跨领域泛化能力方面进行了评估。
BCL是首个采用带有贝叶斯更新的粒子滤波来系统优化信息抽取任务中标签表示的框架,相较于现有方法展现出持续一致的改进。
本文研究了使用基于提示学习的大语言模型进行少样本生物医学关系抽取,比较了配对分类和联合生成两种方法。最佳模型实现了0.44的微F1值,显著优于此前的少样本结果,但仍低于监督基线。在宏F1值上,基于提示的方法在稀有关系类型上超越了监督基线,达到了0.45比0.38。
本文介绍了从生物医学文献中提取治疗药物-疾病关系适用条件的任务,创建了一个手动标注的三元组数据集,并提出了一种增强LoRA的方法,该方法优于现有基线方法。
本文介绍了面向心理学摘要的变量中心实证图提取方法,构建了包含210篇已标注摘要的EmpiriGraph-Psy基准数据集,并提出了分阶段LLM流水线,其宏F1值达到0.74,优于直接提取方法。
SMADE-IE 是一个面向零样本信息抽取的稀疏多智能体框架,通过自适应模式选择器与基于 Toulmin 论证风格和贝叶斯更新的证据驱动辩论机制,在 NER、RE 和 JERE 任务的 9 个基准测试上超越现有基线,同时提升了 token 使用效率。
GLiNER-Relex 是一个用于联合命名实体识别(NER)与关系提取(RE)的统一框架,利用共享的 Transformer 编码器实现零样本能力。该论文展示了模型在标准基准测试中具有竞争力的性能,并将其作为开源 Python 包发布。