MedConclusion:基于结构化摘要的生物医学结论生成基准

Hugging Face Daily Papers 论文

摘要

# 论文页面 - MedConclusion:基于结构化摘要的生物医学结论生成基准 来源:[https://huggingface.co/papers/2604.06505](https://huggingface.co/papers/2604.06505) ## 摘要 一个用于生物医学结论生成的大规模数据集,包含570万条PubMed结构化摘要,旨在评估大型语言模型基于结构化科学证据进行推理的能力。[大型语言模型](https://huggingface.co/papers?q=Large%20langu

大型语言模型(LLMs)已被广泛应用于推理密集型研究任务,但用于测试其能否从结构化生物医学证据中推断科学结论的资源仍然有限。本文介绍了MedConclusion,一个包含570万条PubMed结构化摘要的大规模数据集,用于生物医学结论生成。每个实例将摘要中的非结论部分与原作者撰写的结论配对,为从证据到结论的推理提供了天然监督。MedConclusion还包含期刊级别的元数据,如生物医学类别和SJR,支持跨生物医学领域的亚组分析。作为一项初步研究,我们在结论生成和摘要生成两种提示设置下评估了多种LLM,并使用基于参考的指标以及LLM-as-a-judge对输出进行评分。我们发现,结论撰写与摘要撰写在行为上存在本质差异,当前自动评估指标下各强模型得分仍紧密聚集,且评判者身份会显著影响绝对分数。MedConclusion为研究科学证据到结论的推理提供了一个可复用的数据资源。我们的代码和数据可在以下地址获取:https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - MedConclusion:基于结构化摘要的生物医学结论生成基准测试

来源:https://huggingface.co/papers/2604.06505

摘要

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)(LLMs) 已被广泛探索用于推理密集型研究任务,但用于测试它们能否从结构化生物医学证据中推断科学结论的资源仍然有限。我们推出了 MedConclusion,这是一个包含 570 万 PubMed 结构化摘要 (https://huggingface.co/papers?q=structured%20abstracts) 的大规模数据集,用于生物医学结论生成 (https://huggingface.co/papers?q=biomedical%20conclusion%20generation)。每个实例将摘要中的非结论部分与原作者撰写的结论配对,为证据到结论的推理 (https://huggingface.co/papers?q=evidence-to-conclusion%20reasoning) 提供了自然存在的监督信号。MedConclusion 还包含期刊级别的元数据,如生物医学类别和 SJR,支持跨生物医学领域的子群分析。作为初步研究,我们在结论生成和摘要生成两种提示设置下评估了多种 LLM,并使用基于参考的指标 (https://huggingface.co/papers?q=reference-based%20metrics) 和 LLM-as-a-judge (https://huggingface.co/papers?q=LLM-as-a-judge) 对输出进行打分。我们发现,结论写作在行为上与摘要写作存在显著差异,在当前自动指标下表现强劲的模型仍然紧密聚集,且评判者身份会显著影响绝对分数。MedConclusion 为研究科学证据到结论的推理 (https://huggingface.co/papers?q=evidence-to-conclusion%20reasoning) 提供了一个可复用的数据资源。我们的代码和数据可在以下地址获取:https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion

查看 arXiv 页面 (https://arxiv.org/abs/2604.06505)查看 PDF (https://arxiv.org/pdf/2604.06505)GitHub1 (https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.06505)

在您的智能体中获取这篇论文:

hf papers read 2604.06505

还没有安装最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型引用此论文

在模型的 README.md 中引用 arxiv.org/abs/2604.06505,即可从此页面建立链接。

引用此论文的数据集2

harvardairobotics/MedConclusion-Compact 查看器 • 更新于 1 天前 • 140k • 1 (https://huggingface.co/datasets/harvardairobotics/MedConclusion-Compact)

harvardairobotics/MedConclusion 查看器 • 更新于 1 天前 • 5.83M • 2 (https://huggingface.co/datasets/harvardairobotics/MedConclusion)

引用此论文的 Spaces0

没有 Space 引用此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.06505,即可从此页面建立链接。

包含此论文的合集0

没有合集包含此论文

将此论文添加到一个合集 (https://huggingface.co/new-collection) 中,即可从此页面建立链接。

相似文章

AI代理能否综合科学结论?

arXiv cs.AI

本文介绍了SciConBench,这是一个大规模基准测试,包含9.11K个问题及专家编写的结论,用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现,即使在洁净室环境下,最佳代理的事实F1得分仅为0.337,表明可靠的综合仍然是一个开放挑战。

MedicalBench:评估大型语言模型以改进医学概念提取

arXiv cs.CL

MedicalBench是一个新的基准测试,用于评估大型语言模型从电子健康记录中提取医学概念的能力,重点关注隐含推理和证据支撑。它包含823个专家标注的示例,并显示当前模型表现一般,突显了提取隐含表述的医学概念的难度。

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。

CalBrief:大型语言模型证据校准式科学简报的试点诊断基准

arXiv cs.CL

本文介绍了CalBrief——一个包含16个证据包和96个人工验证结论的试点诊断基准,用于评估大型语言模型是否能够生成证据校准的科学简报。研究发现,结构化组织能提升推理能力,但显式的强度校准策略过于保守,且这种保守性主要源于标签空间的扩展,而非信号注入。