MedConclusion：基于结构化摘要的生物医学结论生成基准

Hugging Face Daily Papers 2026/04/07 00:00 论文

biomedical-nlp benchmark large-language-models scientific-reasoning text-generation evaluation pubmed

摘要

# 论文页面 - MedConclusion：基于结构化摘要的生物医学结论生成基准来源：[https://huggingface.co/papers/2604.06505](https://huggingface.co/papers/2604.06505) ## 摘要一个用于生物医学结论生成的大规模数据集，包含570万条PubMed结构化摘要，旨在评估大型语言模型基于结构化科学证据进行推理的能力。[大型语言模型](https://huggingface.co/papers?q=Large%20langu

大型语言模型（LLMs）已被广泛应用于推理密集型研究任务，但用于测试其能否从结构化生物医学证据中推断科学结论的资源仍然有限。本文介绍了MedConclusion，一个包含570万条PubMed结构化摘要的大规模数据集，用于生物医学结论生成。每个实例将摘要中的非结论部分与原作者撰写的结论配对，为从证据到结论的推理提供了天然监督。MedConclusion还包含期刊级别的元数据，如生物医学类别和SJR，支持跨生物医学领域的亚组分析。作为一项初步研究，我们在结论生成和摘要生成两种提示设置下评估了多种LLM，并使用基于参考的指标以及LLM-as-a-judge对输出进行评分。我们发现，结论撰写与摘要撰写在行为上存在本质差异，当前自动评估指标下各强模型得分仍紧密聚集，且评判者身份会显著影响绝对分数。MedConclusion为研究科学证据到结论的推理提供了一个可复用的数据资源。我们的代码和数据可在以下地址获取：https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - MedConclusion：基于结构化摘要的生物医学结论生成基准测试

来源：https://huggingface.co/papers/2604.06505

摘要

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)(LLMs) 已被广泛探索用于推理密集型研究任务，但用于测试它们能否从结构化生物医学证据中推断科学结论的资源仍然有限。我们推出了 MedConclusion，这是一个包含 570 万 PubMed 结构化摘要 (https://huggingface.co/papers?q=structured%20abstracts) 的大规模数据集，用于生物医学结论生成 (https://huggingface.co/papers?q=biomedical%20conclusion%20generation)。每个实例将摘要中的非结论部分与原作者撰写的结论配对，为证据到结论的推理 (https://huggingface.co/papers?q=evidence-to-conclusion%20reasoning) 提供了自然存在的监督信号。MedConclusion 还包含期刊级别的元数据，如生物医学类别和 SJR，支持跨生物医学领域的子群分析。作为初步研究，我们在结论生成和摘要生成两种提示设置下评估了多种 LLM，并使用基于参考的指标 (https://huggingface.co/papers?q=reference-based%20metrics) 和 LLM-as-a-judge (https://huggingface.co/papers?q=LLM-as-a-judge) 对输出进行打分。我们发现，结论写作在行为上与摘要写作存在显著差异，在当前自动指标下表现强劲的模型仍然紧密聚集，且评判者身份会显著影响绝对分数。MedConclusion 为研究科学证据到结论的推理 (https://huggingface.co/papers?q=evidence-to-conclusion%20reasoning) 提供了一个可复用的数据资源。我们的代码和数据可在以下地址获取：https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion

查看 arXiv 页面 (https://arxiv.org/abs/2604.06505)查看 PDF (https://arxiv.org/pdf/2604.06505)GitHub1 (https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.06505)

在您的智能体中获取这篇论文：

hf papers read 2604.06505

还没有安装最新版 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型引用此论文

在模型的 README.md 中引用 arxiv.org/abs/2604.06505，即可从此页面建立链接。

引用此论文的数据集2

harvardairobotics/MedConclusion-Compact 查看器 • 更新于 1 天前 • 140k • 1 (https://huggingface.co/datasets/harvardairobotics/MedConclusion-Compact)

harvardairobotics/MedConclusion 查看器 • 更新于 1 天前 • 5.83M • 2 (https://huggingface.co/datasets/harvardairobotics/MedConclusion)

引用此论文的 Spaces0

没有 Space 引用此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.06505，即可从此页面建立链接。

包含此论文的合集0

没有合集包含此论文

将此论文添加到一个合集 (https://huggingface.co/new-collection) 中，即可从此页面建立链接。

MedConclusion：基于结构化摘要的生物医学结论生成基准

论文页面 - MedConclusion：基于结构化摘要的生物医学结论生成基准测试

摘要

引用此论文的模型0

引用此论文的数据集2

harvardairobotics/MedConclusion-Compact 查看器 • 更新于 1 天前 • 140k • 1 (https://huggingface.co/datasets/harvardairobotics/MedConclusion-Compact)

harvardairobotics/MedConclusion 查看器 • 更新于 1 天前 • 5.83M • 2 (https://huggingface.co/datasets/harvardairobotics/MedConclusion)

引用此论文的 Spaces0

包含此论文的合集0

相似文章

AI代理能否综合科学结论？

MedicalBench：评估大型语言模型以改进医学概念提取

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

MedAction：迈向主动式多轮临床诊断大语言模型

CalBrief：大型语言模型证据校准式科学简报的试点诊断基准

提交意见反馈