让LLMs相互评判:用于医学问答的多智能体同行评审推理

arXiv cs.CL 论文

摘要

本文介绍了一种多智能体同行评审推理方法,其中多个LLM独立生成思维链推理,然后相互评估输出以选择最佳答案。该方法在医学问答基准测试中优于单模型推理和多数投票。

arXiv:2606.15419v1 Announce Type: new 摘要:目的:提升大语言模型(LLMs)在医学问答(MedQA)中的准确性、可解释性和鲁棒性。 方法:我们设计了一种多智能体同行评审推理方法,其中多个LLM智能体独立生成包含候选答案的思维链推理,然后作为同行评审者相互评估对方的推理在事实正确性和逻辑合理性方面的表现。选择评分最高的推理链作为最终答案。我们在三个基准数据集(HeadQA、MedQA-USMLE和PubMedQA)上使用五个最新LLM(Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B)进行了实验。性能与单模型思维链推理和基于思维链的多数投票进行了比较。 结果:同行评审推理持续优于两种基线。最佳模型组合在数据集上的平均准确率达到0.820,超过了最强单模型(0.777)和多数投票集成(最高0.789)。该方法还随着参与模型数量的增加而有效扩展,同时同行评估能够可靠地区分高质量和低质量的推理链。 结论:所提出的多智能体同行评审推理方法使LLM既能充当求解者又能充当评估者,在MedQA中取得了优越的性能。通过强调推理质量而不仅仅是答案一致性,该方法提高了准确性、可解释性和鲁棒性,为可信赖的生物医学AI系统提供了有前景的方向。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:48

# 让LLMs互相评判:面向医学问答的多智能体同行评审推理方法
来源:https://arxiv.org/html/2606.15419
\\journaltitle

美国医学信息学协会期刊\\DOIDOI号\\access提前访问出版日期:年月日\\appnotes论文

\\authormark

Zaifu Zhan 等.

\\corresp

\[

∗\\ast\]通讯作者:Dr. Rui Zhang, PhD, 计算健康科学部,外科学系,明尼苏达大学,办公室:D528 Mayo building, 420 Delaware St SE, Minneapolis, MN 55455, [email protected] (https://arxiv.org/html/2606.15419v1/mailto:[email protected]),办公室电话:612-626-4209

全文字数:3306 摘要字数:193

MEng Shuang Zhou, PhD Rui Zhang, PhD\\orgdiv电气与计算机工程系,\\orgname明尼苏达大学,\\orgaddress\\street200 Union St SE,\\postcode55455,\\state明尼阿波利斯,明尼苏达州,\\country美国\\orgdiv计算健康科学部,外科学系,\\orgname明尼苏达大学,\\orgaddress\\street420 Delaware St SE,\\postcode55455,\\state明尼阿波利斯,明尼苏达州,\\country美国

\(2019\)

###### 摘要

目的:提升大规模语言模型(LLMs)在医学问答(MedQA)中的准确性、可解释性和鲁棒性。方法:我们设计了一种多智能体同行评审推理方法,其中多个LLM智能体独立生成带有候选答案的思维链推理,然后作为同行评审员评估彼此推理的事实正确性和逻辑合理性。选择评分最高的推理链来产生最终答案。实验使用五个最先进的LLM(Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B)在三个基准数据集(HeadQA、MedQA-USMLE、PubMedQA)上进行。性能与单模型思维链推理以及基于思维链的多数投票进行了比较。结果:同行评审推理始终优于两个基线。最佳模型组合在所有数据集上取得了0.820的平均准确率,超过了最强单模型(0.777)和多数投票集成(最高0.789)。该方法还随着参与模型数量的增加而有效扩展,同时同行评审可靠地区分了高质量与低质量的推理链。结论:所提出的多智能体同行评审推理方法使LLMs既能作为解答者也能作为评估者,在MedQA中取得了优越性能。通过强调推理质量而非仅仅是答案一致性,该方法提高了准确性、可解释性和鲁棒性,为可信赖的生物医学AI系统提供了一个有前景的方向。

###### 关键词:

问答,大规模语言模型,思维链,推理,多智能体

## 1 引言

大规模语言模型(LLMs)推动了生物医学自然语言处理的发展chen2025benchmarking;zhou2025large;zhan2025evaluation。它们在命名实体识别li2024benchmarking、关系抽取zhan2025ramie、摘要生成tang2023evaluating、疾病分类zhan2025retrieval、诊断zhou2025uncertainty和问答zhou2025automating等任务中表现出色。随着模型规模的增长,LLMs展现出了涌现式推理能力lucas2024reasoning;yang2024llm,使其能够理解复杂文本、理解人类问题,甚至处理训练过程中未明确学习过的任务zhang2024instruction。这些进步在医学问答(MedQA)领域带来了明显的性能提升。准确回答问题的能力在生物医学领域尤为重要,因为事实或逻辑错误可能会误导临床决策或研究结论singhal2025toward;jin2022biomedical。此外,大多数生物医学信息需求都可以表述为问答问题,因此提升MedQA性能具有广泛的价值。

参见图注图1:三种推理范式的示意图。(a) 思维链(COT):每个模型独立生成推理过程和答案。(b) 基于COT的群体投票:多个模型产生推理-答案对,最终答案由答案的多数投票决定。(c) 多智能体同行评审推理(本文方法):模型不仅生成推理-答案对,还评估彼此的推理;最终答案基于对推理质量的同行评审进行选择。近期工作探索了改进LLMs在MedQA上表现的各种方法,且越来越强调利用其推理能力jin2024rjua;zuo2025medxpertqa;lucas2024reasoning。研究人员对模型是否能模仿人类推理越来越感兴趣che2025towards。一个里程碑式的发展是思维链(CoT)提示wei2022chain,它鼓励模型逐步生成答案,通常能带来更好的性能che2025towards;liu2024era;jin2024prollm。许多研究表明,CoT能提高LLM在问答任务上的准确性jeon2025comparative;singhal2025toward。通过将CoT与指令微调le2025instruction、少样本提示nachane2024few和检索增强生成wang2025medcot等技术相结合,取得了进一步进展。这些发现表明,基于推理的范式,特别是CoT,正成为提升LLM在复杂问答问题上性能的基础。

在CoT应用于MedQA时,推理质量至关重要。正确的推理通常会产生正确的答案,而有缺陷的推理往往会导致错误答案wang2025medcot;lievin2024can;wu2025chain。现有的大多数工作wu2025medcasereasoning;moell2025medical;zhou2025automating是在答案生成之后评估推理,要么通过人工检查,要么通过与人类理由进行比较,而不是将推理评估纳入决策过程本身。

两个研究方向为这一局限性提供了可能的解决方案。第一个是LLM作为评判者zheng2023judging,它表明LLMs能够以与人类评估者高度一致的方式评估输出质量。该方法已成功应用于生物医学关系抽取laskar2025improving、临床试验推荐curran2024examining和患者记录摘要croxford2025automating。例如,Zhou等人zhou2025automating采用LLM作为评判者,提出了LLM-w-Ref,这是一个新颖的评估框架,利用细粒度的理由和LLM-as-a-Judge机制,在保持可扩展性的同时,以专家级别的保真度评估中间推理过程。然而,使用LLMs作为自动评判者存在重要局限性:它们的偏好并不总是与人类专家一致wang2023aligning;zheng2023judging,它们可能高估流畅但错误的答案kocmi2023large,并且它们的评分对提示设计和评估设置较为敏感arabzadeh2025human。

第二个方向是多智能体协作wang2025survey,它表明LLM群体可以通过互动实现更强的推理能力。例如,MDAgentskim2024mdagents支持多个LLM协作,在真实世界医学知识和临床诊断基准上取得了改进。类似地,Chen等人chen2025mdteamgpt设计了一个多智能体多学科团队框架来增强医疗咨询,从而提高了诊断的合理性和准确性。

受LLM-as-a-judge和多智能体协作优势的启发,我们提出了一种多智能体同行评审推理方法来改进MedQA,如图1 (https://arxiv.org/html/2606.15419#S1.F1)所示。在该方法中,多个独立的LLM智能体针对同一个医学问题生成思维链解决方案。然后,每个智能体评审其同伴生成的推理,并对逻辑合理性进行评分。系统聚合这些同行评审,以识别最可信和最连贯的推理链,随后用于生成最终答案。与依赖最终答案多数投票的方法不同,我们的方法评估并选择推理过程本身。这使得在生物医学背景下能够产生更准确、更可解释且更鲁棒的答案。

我们的主要贡献总结如下:

1. 我们提出了一种新颖的多智能体同行评审推理方法,利用LLMs的评估和协作能力来增强MedQA。
2. 我们进行了广泛的实验,证明我们的方法在不同的数据集、模型和智能体配置下均有效。

## 2 方法

### 2.1 方法概述

我们提出了一种多智能体同行评审推理方法来改进医学问答。该方法包括两个阶段:(1) 多个LLM智能体独立生成带有候选答案的思维链推理;(2) 智能体作为同行评审员,对彼此的推理进行事实正确性和逻辑合理性的评分。选择评分最高的推理链,并将其答案作为最终输出。

我们在三个基准数据集(HeadQA、MedQA-USMLE和PubMedQA)上,使用五个最先进的LLM(Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B和GPT-oss-20B)对该方法进行了评估,并将其与两个基线方法进行了比较:单模型思维链推理和基于COT的多数投票。这种设计使我们能够评估我们方法的有效性和鲁棒性。

### 2.2 MedQA任务与数据集

为了评估我们提出的多智能体同行评审推理方法,我们采用了MedQA任务,该任务是评估大规模语言模型在生物医学领域推理能力的广泛认可的基准。在该任务中,模型需要回答特定领域的问题(通常为多选题格式),同时展示连贯的推理链,这些推理链应反映事实知识和逻辑一致性。我们考虑了三个代表性数据集:HeadQA、MedQA(USMLE)和PubMedQA。

HeadQAheadqa源自西班牙官方医疗专业人员考试,涵盖医学、护理、心理学和药学等多个领域。问题简洁但知识密集,需要专业知识才能准确回答。

另一方面,MedQA(USMLE)jin2021disease来源于美国医师执业资格考试,被广泛认为是生物医学NLP中最具挑战性的基准之一。它由高质量、专家级的多项选择题组成,旨在评估不仅包括事实回忆,还包括复杂的临床推理和诊断决策能力。

作为这些考试风格数据集的补充,PubMedQAjin2019pubmedqa基于PubMed中的生物医学研究文章构建,其任务是根据科学摘要回答是/否/可能是的研究性问题。与测试专业考试知识的HeadQA和MedQA不同,PubMedQA强调基于证据的推理和解释生物医学文献的能力。

总之,这些数据集提供了一个全面且互补的评估环境:HeadQA突出了领域知识的广度,MedQA-USMLE代表了专家级推理的深度,而PubMedQA则强调了基于文献的推断。这种多样性使我们能够严格评估我们的方法在不同形式生物医学推理中的鲁棒性和泛化能力。所有数据集的统计数据总结于表1 (https://arxiv.org/html/2606.15419#S2.T1)。

表1:医学问答数据集的统计与特征。
### 2.3 多智能体同行评审推理方法

受学术论文同行评审过程的启发——经过同行评审的工作被认为值得发表——我们在方法中采用了类似的思想。经过同行评审的推理和答案被视为高质量响应。因此,我们提出了多智能体同行评审推理方法。相比之下,图1 (https://arxiv.org/html/2606.15419#S1.F1)展示了三种范式:(a) *思维链*,单个模型在回答前逐步推理;(b) *多数投票*,多个模型输出答案,选择最频繁的答案;(c) *多智能体同行评审方法(本文工作)*。虽然多数投票可以提高鲁棒性,但一致性并不能保证正确性——模型可能共享相同的偏差或训练伪影——而且它丢弃了宝贵的推理痕迹。我们的方法保留并评估推理:多个模型首先生成CoT痕迹,然后作为评判者对彼此的推理进行评分。选择评分最高(经同行评审)的推理及其相关答案作为最终输出。通过将显式推理生成与跨模型同行评审相结合,我们的方法同时评估了性能以及底层推理的可靠性,为医学问答提供了一种比单独的CoT或多数投票更具信息量和可信度的方法。

#### 2.3.1 阶段1:思维链生成

我们在揭示最终答案之前,先从多个LLM中引出显式、结构化的推理。对于多项选择医学问答(例如,MedQA, HeadQA),提示要求逐选项分析并进行逐步论证nachane2024shot;guo2025structured。对于基于文献的问答(例如,PubMedQA),提示指示模型检查摘要,提取支持证据,并形成逻辑一致的结论wang2025medcot。此阶段 (i) 使决策路径透明化,(ii) 通过系统分析通常能提高答案质量,(iii) 产生丰富的中间痕迹,便于评估。CoT提示可在补充材料1中找到。

#### 2.3.2 阶段2:推理的同行评审

然后,LLMs使用一个6分制评分标准(0-5)评估由*其他*模型产生的响应,该标准同时评估答案正确性和推理质量。4-5分表示答案正确且医学推理合理;3分表示答案正确但存在微小缺陷;1-2分表示存在重大推理问题或答案错误;0分表示根本性误解。重要的是,评判者*不*访问真实标签;他们依赖领域知识和内部推理,从而得出基于对*理解*的评估,而非模式匹配。对于每个候选响应,评判者收到原始问题、完整推理痕迹和最终答案,并返回一个数字评分和一个简洁的理由。跨模型评估形成一个评分矩阵;我们聚合分数(例如,通过均值或中位数)来选择顶级同行评审推理,并采用其答案作为最终结果。评判提示可在补充材料1中找到。

评分标准:0-5评分标准并非旨在复刻正式的同行评审评分标准,而是作为推理质量评估的一个可解释且轻量级的代理。备选的提示灵感——例如基于检查表的评估、成对偏好判断或二元接受/拒绝方案——可能会影响模型判断和下游性能。我们将此类评估策略的系统性比较留待未来工作。

平局处理:在分数聚合过程中,我们观察到同行评审分数出现平局的情况约占15%。在这种情况下,我们采用了一种简单且确定性的平局处理策略:当多个推理链获得相同的聚合分数时,系统选择在初始生成顺序中首先出现的响应。这种行为旨在

相似文章

DLawBench:通过多轮法律咨询评估大语言模型

arXiv cs.CL

DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。

长期历史感知的医疗对话合成与评估

arXiv cs.CL

本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。