后训练能否使LLM成为优秀的医疗编码员?生成式ICD编码的实证研究

arXiv cs.CL 论文

摘要

这项实证研究探讨了后训练(监督微调和强化学习)能否提升LLM在自动化ICD编码上的表现,引入了一种名为PHI的诊断课程,扩展了GRPO以改进遗漏编码案例。结果表明,仅使用提示评估低估了LLM的潜力,SFT提供了主要的能力跃升,而RL进一步提升了性能。

arXiv:2606.13940v1 公告类型:新 摘要:自动国际疾病分类(ICD)编码是用于计费、流行病学和临床决策支持的核心医疗编码任务。生成式大语言模型(LLM)通常被报道为弱医疗编码器,但这一发现主要来自推理时的设置,如提示、检索、重排序或工具使用,使得任务特定的后训练作用未被充分探索。我们提出了一项受控实证研究,对生成式ICD编码进行后训练,在共同协议和度量集下比较了判别式基线与LLM编码器的提示、监督微调和强化学习。据我们所知,这是首个在ICD编码中评估基于RL的后训练生成式LLM编码器的研究。我们进一步引入了PHI,一种诊断课程,扩展了GRPO以改进遗漏编码案例。我们的结果表明,仅使用提示评估大大低估了LLM在ICD编码上的潜力。SFT提供了主要的能力跃升,GRPO进一步改进了超过SFT的代码集预测,PHI在宏观性能上提供了有针对性的提升。这些发现表明,主要瓶颈不仅仅在于生成式公式本身,而在于模型如何适应和优化以实现全分类召回。我们在https://github.com/AlexandreWANG915/LLM4ICD发布了代码、数据分割和检查点。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:56

# 后训练能否将大语言模型转化为优秀的医学编码员?生成式ICD编码的实证研究

来源:https://arxiv.org/html/2606.13940

###### 摘要

自动国际疾病分类(ICD)编码是一项核心的医学编码任务,用于医疗计费、流行病学和临床决策支持。生成式大语言模型(LLMs)常被报道为弱医学编码员,但这一发现主要来自推理时设置(如提示、检索、重排序或工具使用),而针对特定任务的后训练的作用尚待探索。我们提出了一个受控的生成式ICD编码后训练实证研究,在通用协议和指标集下,比较了判别式基线与通过提示、监督微调和强化学习训练的LLM编码员。据我们所知,这是首个在ICD编码中评估基于RL后训练的生成式LLM编码员的研究。我们进一步引入了PHI,一种诊断性课程,扩展了GRPO以细化遗漏代码案例。我们的结果表明,仅用提示评估会严重低估LLM在ICD编码中的潜力。SFT提供了主要的能力跃升,GRPO在SFT基础上进一步改进了代码集预测,而PHI在宏观层面性能上提供了有针对性的提升。这些发现表明,主要瓶颈不在于生成式公式本身,而在于如何针对全分类召回调整和优化模型。我们在https://github.com/AlexandreWANG915/LLM4ICD发布代码、数据划分和检查点。

# 后训练能否将大语言模型转化为优秀的医学编码员?生成式ICD编码的实证研究

Ziqing Wang, Weihao Li, Shijie Chen, Yuan Luo, Kaize Ding  
西北大学

## 1 引言

自动国际疾病分类(ICD)编码,作为医学编码的一种核心形式,旨在将每篇临床笔记映射到一组标准化的诊断和手术代码(Mullenbach et al., 2018 (https://arxiv.org/html/2606.13940#bib.bib3); Teng et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib8); Ji et al., 2024 (https://arxiv.org/html/2606.13940#bib.bib9))。这些代码广泛用于医疗计费、流行病学和临床决策支持(Teng et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib8); Ji et al., 2024 (https://arxiv.org/html/2606.13940#bib.bib9))。该任务难度很大,因为单篇出院小结可能包含数千个词元,并且必须映射到一个巨大分类体系(ICD-10-CM中超过70,000个代码)的子集(Mullenbach et al., 2018 (https://arxiv.org/html/2606.13940#bib.bib3); Vu et al., 2020 (https://arxiv.org/html/2606.13940#bib.bib4))。因此,ICD编码是一个极多标签问题,标签分布极度不平衡,使得准确代码预测成为重大挑战(Edin et al., 2023 (https://arxiv.org/html/2606.13940#bib.bib20))。

参见标题图1:从提示到后训练的ICD编码过程。提示依赖于LLM现有的推理时能力。SFT通过标注的笔记-代码示范来调整模型,教会模型可解析的输出模式和经验代码先验。RL则通过从解析的代码集合计算出的样本级F1奖励,进一步优化生成的候选代码集。

先前的工作主要通过判别式ICD编码器来解决这一挑战。基于预训练语言模型(PLM)编码器和标签级预测头,这些系统在固定的ICD标签空间中为代码打分,并且仍然是长文档编码的强基线(Mullenbach et al., 2018 (https://arxiv.org/html/2606.13940#bib.bib3); Vu et al., 2020 (https://arxiv.org/html/2606.13940#bib.bib4); Huang et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib5); Edin et al., 2023 (https://arxiv.org/html/2606.13940#bib.bib20))。相比之下,生成式LLM常被报道为弱医学编码员(Soroush et al., 2024 (https://arxiv.org/html/2606.13940#bib.bib17))。大多数现有的生成式研究通过推理时使用来评估LLM,包括零样本或少样本提示、思维链推理、检索、重排序或工具使用,而不是为ICD编码调整模型本身(Soroush et al., 2024 (https://arxiv.org/html/2606.13940#bib.bib17); Boyle et al., 2023 (https://arxiv.org/html/2606.13940#bib.bib6); Kwan, 2024 (https://arxiv.org/html/2606.13940#bib.bib7); Baksi et al., 2025 (https://arxiv.org/html/2606.13940#bib.bib19))。这些设置经常导致幻觉或无效代码以及较差的精确代码性能,但它们并未回答同一生成式模型在任务特定后训练后是否能成为准确编码员的问题。这一区别很重要,因为生成式公式仍然有吸引力:LLM提供自然语言界面,可以遵循任务指令,并可以直接以文本形式输出ICD代码集。任务特定的后训练提供了一条自然的路径,因为它调整模型本身,而不是仅依赖推理时提示或工具。在最近的LLM开发中,监督微调(SFT)已成为这种调整的标准第一阶段:模型在指令-响应对上训练,从而学习任务格式、领域风格和输出规范(Ouyang et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib23); Wei et al., 2021 (https://arxiv.org/html/2606.13940#bib.bib24))。对于ICD编码,SFT可以教会模型以所需格式生成有效代码列表,同时学习医学代码的实证分布。然而,SFT仍然通过最大似然训练。它优化的是下一个词元预测,而不是决定编码性能的不可微分集合级指标,如精确率、召回率和F1(Ranzato et al., 2015 (https://arxiv.org/html/2606.13940#bib.bib25))。强化学习(RL)提供了一个互补的后训练阶段:一个完整的模型输出由奖励函数评分,策略更新以增加获得更高奖励的输出。这种基于奖励的观点在现代LLM后训练中已被证明是有用的,从人类偏好对齐到数学推理和其他可验证任务(Schulman et al., 2017 (https://arxiv.org/html/2606.13940#bib.bib26); Ouyang et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib23))。ICD编码自然适合这个框架,因为每个生成的代码集可以直接通过基于F1的奖励来评分。然而,在ICD编码中,基于RL的后训练用于生成式LLM编码员尚未被探索。我们通过两个MIMIC数据集、两种ICD代码系统、Top-50和完整标签设置以及多个LLM骨干上的受控实证进展来填补这一空白。如图1 (https://arxiv.org/html/2606.13940#S1.F1)所示,我们将研究组织为一个分阶段的后训练阶梯:❶ SFT建立输出模式和经验代码先验;❷ GRPO使用样本级F1奖励来优化生成的代码集;❸ PHI(渐进提示注入)通过一个诊断性遗漏代码课程扩展GRPO,使用早期检查点遗漏的代码作为随机训练时提示,同时保持推理时无提示。据我们所知,这是首个将基于RL的后训练应用于生成式LLM编码器进行ICD编码的研究。在这个进展过程中,我们发现仅用提示评估会严重低估LLM在ICD编码中的潜力。SFT提供了主要的能力跃升,GRPO在SFT基础上进一步改进了代码集预测,特别是在完整标签设置中,而PHI在剩余的遗漏代码案例和宏观层面性能上提供了有针对性的提升。我们的贡献是:

- • **生成式ICD编码的实证重构**。我们表明仅用提示评估会严重低估生成式LLM在ICD编码中的潜力。在任务特定后训练下,结论从几乎不可用的提示性能转变为受控评估下具有竞争力的代码集预测。我们发布代码、数据划分和检查点以支持可重复比较。
- • **首个用于生成式ICD编码的基于RL后训练研究**。据我们所知,这是首个将GRPO风格强化学习应用于后训练生成式LLM进行ICD代码集预测的研究。所有生成式方法都使用相同的数据集、划分、解析器和指标集。
- • **针对遗漏代码召回的诊断性课程**。我们引入了PHI,这是一种训练时遗漏代码课程,通过早期检查点遗漏的代码扩展GRPO,同时保持推理时无提示,为剩余的遗漏代码案例提供有针对性的细化。

## 2 相关工作

#### 判别式ICD编码。

自动ICD编码传统上被表述为长临床文档上的极多标签分类。CAML引入了代码特定注意力,将每个ICD预测与笔记中的支持片段连接起来(Mullenbach et al., 2018 (https://arxiv.org/html/2606.13940#bib.bib3))。后来的判别式模型改进了文档编码器或标签表示:MultiResCNN使用多滤波器残差卷积处理长笔记(Li and Yu, 2020 (https://arxiv.org/html/2606.13940#bib.bib12)),LAAT应用带有分层学习的标签注意力来处理罕见代码(Vu et al., 2020 (https://arxiv.org/html/2606.13940#bib.bib4)),卷积注意力模型针对长尾临床文档分类(Liu et al., 2021 (https://arxiv.org/html/2606.13940#bib.bib13)),标签相关性重排序器对ICD代码间的依赖关系进行建模(Tsai et al., 2021 (https://arxiv.org/html/2606.13940#bib.bib14))。基于编码器的预训练语言模型进一步增强了这一范式,BERT-XML和PLM-ICD将上下文编码器适应到大的ICD标签空间和长输入(Zhang et al., 2020 (https://arxiv.org/html/2606.13940#bib.bib11); Huang et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib5))。Edin et al. (2023 (https://arxiv.org/html/2606.13940#bib.bib20)) 表明,当预处理和阈值控制受控时,这些系统在干净的MIMIC-III和MIMIC-IV划分上仍然是强基线。我们的工作使用这些判别式编码器作为强参考点,以评估在相同协议下任务特定后训练能否使生成式LLM编码器具有竞争力。

#### 生成式ICD编码。

生成式ICD编码将代码分配视为一个文本生成问题:LLM读取临床笔记,并将适用的ICD代码以文本形式输出。现有工作主要通过推理时使用模型来探索这一公式,包括零样本或少样本提示、思维链推理、检索、重排序和工具使用(Boyle et al., 2023 (https://arxiv.org/html/2606.13940#bib.bib6); Soroush et al., 2024 (https://arxiv.org/html/2606.13940#bib.bib17); Kwan, 2024 (https://arxiv.org/html/2606.13940#bib.bib7); Baksi et al., 2025 (https://arxiv.org/html/2606.13940#bib.bib19))。这些研究表明生成式编码器可以很灵活,但它们常常在精确的医学代码选择上遇到困难,并可能产生无效或幻觉的代码(Soroush et al., 2024 (https://arxiv.org/html/2606.13940#bib.bib17))。其他工作探索了领域特定微调或基于推理的监督以改进生成式医学编码(Hou et al., 2025 (https://arxiv.org/html/2606.13940#bib.bib10); Li et al., 2026 (https://arxiv.org/html/2606.13940#bib.bib18))。RL也被应用于ICD编码,但先前的工作将其用于ICD层次结构上的多智能体路径搜索,使用判别式策略网络,而不是后训练生成式LLM(Lu et al., 2025 (https://arxiv.org/html/2606.13940#bib.bib22))。我们的工作聚焦于这一缺失的后训练轴,通过评估提示、SFT、GRPO和PHI在受控协议下如何改变生成式ICD编码。

#### 后训练方法。

后训练已成为适应预训练语言模型到下游任务的标准阶段。监督微调(SFT)在指令-响应对上训练模型,常用于教授任务格式、领域风格和输出规范(Ouyang et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib23); Wei et al., 2021 (https://arxiv.org/html/2606.13940#bib.bib24))。然而,最大似然训练优化的是下一个词元预测,而不是不可微分的任务指标,导致词元级学习与序列或集合级评估之间的不匹配(Ranzato et al., 2015 (https://arxiv.org/html/2606.13940#bib.bib25))。基于强化学习的后训练通过用显式奖励对完整模型输出进行评分,并将策略更新为更高奖励的生成来解决这一不匹配。PPO广泛应用于RLHF,因为其裁剪后的策略目标稳定更新,同时KL惩罚使策略接近参考模型(Schulman et al., 2017 (https://arxiv.org/html/2606.13940#bib.bib26); Ouyang et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib23))。更近的方法如GRPO去除了学习的值模型,并从采样的响应组中估计优势,使其对指标驱动的后训练具有吸引力(Shao et al., 2024 (https://arxiv.org/html/2606.13940#bib.bib16))。医学NLP也研究了生物医学语言模型的领域和任务适应(Alsentzer et al., 2019 (https://arxiv.org/html/2606.13940#bib.bib27); Gu et al., 2021 (https://arxiv.org/html/2606.13940#bib.bib28))。然而,对于生成式ICD编码,后训练仍未被充分探索:现有工作主要评估了推理时提示、工具增强编码流水线或领域特定微调,而不是在相同设置下对SFT和基于RL的后训练进行分阶段比较。我们的工作将这种后训练视角带到ICD编码,通过比较相同骨干、数据和评估协议下的SFT和GRPO,然后用PHI扩展GRPO。

参见标题图2:我们后训练流水线的概述。一个生成式LLM首先经过监督微调以输出可解析的代码片段,然后使用基于解析代码集合计算的样本级F1奖励通过GRPO进行优化。渐进提示注入(PHI)在轮次中迭代:它运行当前检查点而不带提示,将遗漏代码Yi\Y^iY\_i\setminus\hat{Y}\_i收集到一个逐样本提示池中,并从该池中采样训练时提示用于下一轮GRPO。提示仅在训练时使用。推理时,模型只接收临床笔记。

## 3 预备知识

#### 任务公式。

给定一个临床笔记x=(x1,x2,...,xn)\mathbf{x}=(x_1,x_2,\ldots,x_n)和一个预定义的ICD代码分类体系C={c1,c2,...,cL}\mathcal{C}=\{c_1,c_2,\ldots,c_L\},自动ICD编码旨在预测适用的代码子集Y⊆CY\subseteq\mathcal{C}。等价地,YY可以用一个二进制向量y∈{0,1}L\mathbf{y}\in\{0,1\}^L表示,其中yj=1y_j=1表示代码cjc_j适用于该笔记。我们抽象地将编码函数写为 f:x↦Y^,Y^⊆C,f:\mathbf{x}\mapsto\hat{Y},\qquad\hat{Y}\subseteq\mathcal{C},其中Y^\hat{Y}是预测的代码集。由于C\mathcal{C}可能包含数千个诊断和手术代码,ICD编码通常被视为一个极多标签预测问题。判别式编码器通过为固定分类体系中的每个代码分配一个分数,并使用验证调整的阈值选择正标签来实现ff(Mullenbach et al., 2018 (https://arxiv.org/html/2606.13940#bib.bib3); Huang et al., 2022 (https://arxiv.org/html/2606.13940#bib.bib5))。生成式编码器则通过条件文本生成来实现ff:给定x\mathbf{x},一个LLM自回归地生成一个包含ICD代码的结构化响应,例如一个...片段,然后被解析。

相似文章

预训练期间的RL探索:重新审视LLM训练的策略优化

arXiv cs.LG

哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。

目标条件监督学习用于LLM微调

arXiv cs.LG

本文提出了目标条件监督学习(GCSL)作为LLM的离线微调框架,该方法将反馈作为显式目标,通过一种新颖的目标公式和自然语言目标表示,使用监督学习训练模型。在无毒生成、代码生成和LLM推荐三个任务上的评估显示,该方法优于标准的离线基线方法。