使用合成理由数据的监督微调损害了现实世界疾病预测

arXiv cs.AI 2026/06/10 04:00 论文

supervised-fine-tuning synthetic-rationale disease-prediction clinical-nlp language-models adrd alzheimers

摘要

本文证明，与仅使用标签的微调相比，在阿尔茨海默病检测中，使用合成理由数据进行监督微调在多种配置和模型家族中始终损害预测性能。尽管理由质量很高，这种退化仍然存在，并归因于叙事合理性与判别优化之间的结构性冲突。

arXiv:2606.10279v1 公告类型：新摘要：监督微调使用合成理由数据被广泛认为能通过教会模型不仅预测什么而且解释原因，从而改善语言模型在临床预测任务上的表现。我们基于纵向健康史对五年期阿尔茨海默病及相关痴呆症（ADRD）预测测试了这一假设。在504种配置的大规模对照实验中，我们发现基于理由的SFT相对于仅使用标签的微调始终且显著地损害了预测性能。这种退化在多种模型家族和数据规模中持续存在，并且使用面向推理的基础模型也无法解决。关键的是，失败并非由理由质量差解释：人类专家注释证实生成的推理具有医学准确性，且忠实基于患者特定证据；而少量实验表明，当这些理由作为推理时的示例而非训练目标使用时，相同的推理能提升性能。我们识别出根本原因为叙事合理性与判别优化之间的结构性冲突。希望我们的工作能为更精确地理解基于理由的监督在何时以及如何有效或无效铺平道路，从而指导在高风险临床预测中负责任地开发语言模型。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:13

# 使用合成推理数据进行监督微调会损害真实世界疾病预测

来源：https://arxiv.org/html/2606.10279

Buxin Su¹，Bingxuan Li²，Cheng Qian²，Yiwei Wang³，Jin Jin¹，Bingxin Zhao¹  
¹宾夕法尼亚大学，²伊利诺伊大学厄巴纳-香槟分校，³加州大学默塞德分校  
[email protected]，[email protected]，[email protected]，[email protected]，[email protected]，[email protected]

###### 摘要

使用合成推理数据进行监督微调通常被认为能够提升语言模型在临床预测任务上的性能，因为它不仅教会模型预测什么，还教会其为什么这样预测。我们在五年期阿尔茨海默病及相关痴呆症（ADRD）预测任务上检验了这一假设，所用数据为纵向健康史。通过一项包含504种配置的大规模对照实验，我们发现，与仅使用标签进行微调相比，基于推理的监督微调持续且显著地损害了预测性能。这种性能下降在模型系列和数据规模上一致存在，并且使用以推理为导向的基础模型也无法解决。关键在于，这一失败并非由推理质量低劣所致：人类专家标注证实，生成的推理在医学上是准确的，并且忠实地基于患者特定的证据；此外，少样本实验表明，当同样的推理被用作推理时的演示而非训练目标时，能够提升性能。我们确定根本原因在于叙事合理性与判别性优化之间的结构性冲突。我们希望我们的工作能为更精确地理解何时以及为何基于推理的监督有效或无效铺平道路，从而指导语言模型在高风险临床预测中的负责任开发。

---

## 1 引言

**无推理**：  
性别：男  
病史：  
F10 酒精相关障碍：58.4  
G40 癫痫：62.3  
F32 抑郁发作：69.3  
BMI_高：70.0  
流体智力低：70.0  
J06 急性上呼吸道感染：73.6  
I67 脑血管疾病：73.1  
E78 脂血症：74.7  
ADRD：预测（0或1）：1  

**自由推理**：  
相同疾病史。  
ADRD：该男性拥有多个中晚年因素，可能先于阿尔茨海默病或相关痴呆出现，包括酒精相关障碍、癫痫、低流体智力、缓慢匹配时间、脑血管疾病以及后来的血脂异常。认知测试异常与70岁早期脑血管疾病的结合，使得未来五年内出现ADRD编码的可能性存在。  
预测（0或1）：1  

**逐步推理**：  
相同疾病史。  
ADRD：  
步骤1：与ADRD相关的事件包括73.1时的I67，更早的G40和F32，以及70.0时的认知测试异常。  
步骤2：70岁早期脑血管疾病，加上先前的认知缺陷，使近期ADRD风险高。  
步骤3：因此，五年内进展为ADRD编码诊断得到支持。  
预测（0或1）：1  

图1：由一名参与者记录构建的训练记录示例。三列共享相同的疾病史；仅ADRD响应字段在无推理、自由推理和逐步推理条件下发生变化。

使用合成推理数据进行监督微调已成为提升医学领域语言模型推理能力的广泛技术（Chen等人，2024；Yu等人，2025；Kim等人，2025）。其直觉令人信服：如果模型不仅学习答案是什么，还学习为什么，那么它应该能更好地泛化，产生更可解释的输出，并且更易于审计。这一直觉推动了越来越多的工作使用LLM生成的推理来改进临床诊断（Kwon等人，2024）、从结构化健康数据进行推理增强预测（Jiang等人，2025；Cao等人，2026）、多模态临床推理生成（Niu等人，2025）以及大规模医学推理数据集（Sun等人，2025）。一个反复出现的发现是推理质量至关重要：过滤或选择更高质量的推理可以改善向小模型的蒸馏（Song等人，2025），多任务推理目标可以在解释的同时加强预测（Hasan等人，2025）。在这项工作中，我们询问这一直觉是否在专门设计用于挑战它的真实世界医学预测环境中成立。我们的测试平台是从纵向健康史进行五年ADRD预测，这在临床上很重要，且在流行病学上很合理。痴呆症目前是全球第七大死因，也是老年人残疾和依赖的主要原因（世界卫生组织，2025）。这是一个困难的预测目标：风险可以通过遗传、血管、代谢、精神、认知和生活方式途径累积，而不是通过一个定义性的前兆（Reitz等人，2023；Rasmussen和Frikke-Schmidt，2023）。这种稀疏性和异质性使得该任务成为基于推理的监督微调的一个精确压力测试。

我们数据中的队列包含42,566名参与者，包括8,802个ADRD病例和33,764个匹配对照，表示为1,167个输入特征。记录稀疏，平均仅观察到17.7个特征。有用的信号不是单一诊断或固定清单：一个未来的ADRD病例可能具有血管和代谢史，另一个可能具有认知和精神信号，另一个可能具有不同组合的弱风险因素。通过系统实验，我们发现基于推理的监督微调失败：在504种配置的受控扫描中，训练为仅输出最终标签的模型显著优于训练为在标签之前生成自由形式或逐步推理的模型（平均ROC-AUC为0.734对比0.604和0.592）。这种差距在训练集大小和基础模型上持续存在。一个自然的解释是推理根本不够好。我们通过两个独立的检查来测试推理质量。首先，少样本实验表明，当相同风格的推理被用作演示而非训练目标时，它比零样本基线提升了性能，表明推理携带了真正的判别信号。其次，人类标注证实生成的推理在医学上是准确的，并且忠实地从记录中选择了患者特定的证据。问题不在于推理包含什么，而在于当模型被训练去重现它们时发生了什么。

我们进行进一步深入分析以找到根本原因。相同的推理内容作为训练目标会降低性能，而作为演示则提升性能，这指向了基于推理的监督微调与预测环境之间的结构性不兼容。一个医学上合理的推理必须讲述一个连贯的故事，说明为什么患者的病史与其标签一致，强调那些在临床上相关的广泛发病率标志。相比之下，判别性微调需要学习哪些特征在这个特定队列中区分未来病例与匹配对照。当判别信号集中在那些也锚定合理叙述的特征中时，这两个目标是一致的。当信号分布在许多患者特定的特征组合中时，它们就会出现分歧。在这样的环境中，训练模型去重现合理的推理会将其优化预算从学习实际区分病例与对照的判别边界上转移开。

---

## 2 实验设计

### 2.1 数据与任务公式化

我们研究从纵向健康史进行五年期阿尔茨海默病及相关痴呆症（ADRD）预测。对于每个参与者，输入包含在年龄特定截止点之前可用的先前事件和风险因素；标签是未来五年内是否记录了ADRD。完整的数据处理和匹配细节见附录A.1。

##### 预测目标。ADRD发病是五个ICD-10代码组中首次记录出现：F00、F01、F03、G30或G31。二元标签对于在此定义下具有ADRD发病的参与者为Y=1，对于在处理数据中未记录ADRD发病的对照为Y=0。输入是按年龄对齐的先前事件和风险因素的历史，而不是静态的特征向量。

##### 输入表示。每个参与者被序列化为性别加上带有时间戳的病史字典，如图1所示。最终队列包含42,566名参与者，包括8,802个ADRD病例和33,764个匹配对照。结构化输入有1,167个可能的特征：1,102个ICD-10首次发病疾病特征和65个认知或生活方式特征。记录稀疏，平均观察到17.7个特征，中位数为15（四分位距10-23）。这种稀疏性使得生成的推理成为要求很高的接口：一个简短的解释必须从许多微弱且不完整的信号中选择患者特定的证据。

### 2.2 使用标记目标进行训练

我们比较带有和不带有生成推理的监督微调目标。每个模型在相同的ADRD预测任务和相同的结构化健康史输入上进行训练。主要数据条件之间的唯一区别是作为训练目标的响应格式。我们比较无推理、自由推理和逐步推理目标，如图1所示。自由推理和逐步推理条件下使用的生成推理是在监督微调之前从原始训练标签生成的（Han等人，2023）。生成器接收结构化患者记录和真实ADRD五年内标签，并被指示仅使用记录中存在的证据。完整的生成提示和监督微调提示见附录C。受控的监督微调网格跨越推理格式、训练样本大小、学习率、基础模型和解码设置（附录表2）。它包含504种配置：三种目标格式、三种样本大小、四种学习率、两个基础模型和七种解码设置。基础模型是Qwen3-8B和Qwen2.5-7B-Instruct。解码设置包括贪心解码以及温度为0.1、0.5和1.0时的top-k或top-p采样。每种配置在相同的853个个体的保留测试集上进行评估。为了进行匹配比较，我们一次变化一个因素，并保持其余因素固定。我们使用网格平均比较的配对t检验，以及固定配置之间选定的ROC-AUC比较的配对DeLong检验，详见附录B。

---

## 3 实验结果

本节评估监督微调目标是否应在最终ADRD风险概率之前包含生成的推理。在受控扫描中，训练为仅输出最终标签或概率的模型比训练为输出自由形式推理或逐步推理的模型获得更高的ROC-AUC。当增加训练集大小以及使用以推理为导向的基础模型Qwen3-8B时，这种模式仍然存在。然后我们报告监督微调扫描中的三个额外检查：性能如何随训练集大小变化，两个基础模型在每种目标格式下的行为，以及解码选择如何影响训练后的模型。

### 3.1 仅标签优于基于推理

(a) 推理，ROC-AUC  
(b) 基础模型，ROC-AUC  
图2：按推理格式和基础模型划分的监督微调ROC-AUC性能。

图3：参数级监督微调诊断，提供额外的总结见解。所有面板使用ROC-AUC作为主要指标，并总结完整的监督微调扫描。条形或点显示平均ROC-AUC，误差线显示各配置的标准误差。面板A显示按推理格式的数据缩放，面板B显示基础模型与目标格式的交互，面板C比较解码设置。

##### 直接标签目标（无推理）最强。在匹配的监督微调配置中，无推理明显最强（图2A）。无推理的平均ROC-AUC为0.734，而自由推理为0.604，逐步推理为0.592。两个推理条件都显著差于无推理（配对t检验，自由推理P=7.26×10^(-52)，逐步推理P=6.51×10^(-57)）。同样的模式出现在ROC-AUC之外（附录图8C、E、G）。无推理的平均PR-AUC高于自由推理（0.504对比0.313；P=1.79×10^(-49)）和逐步推理（0.504对比0.306；P=1.92×10^(-52)）。它还具有比两种推理格式更高的平均F1分数（0.332对比0.284和0.291；P=1.03×10^(-4)和P=4.18×10^(-4)）。平均召回率遵循相同顺序：无推理为0.256，自由推理为0.237，逐步推理为0.228。

##### 选择最佳配置后差距仍然存在。最佳的单个监督微调配置得出相同的结论。最佳无推理配置达到ROC-AUC 0.849，而最佳自由推理和逐步推理配置分别达到ROC-AUC 0.698和0.693。由于无推理的中位数为0.755，即使是观察到的推理配置的最佳值也低于典型的无推理配置。

##### 以推理为导向的基础模型并未消除性能下降。使用以推理为导向的基础模型并未消除推理带来的性能下降。在252个匹配的监督微调对中，Qwen3-8B的平均ROC-AUC略低于Qwen2.5-7B-Instruct（0.640对比0.647；平均差-0.0077；配对t检验，P=0.0348；图2B）。绝对差异很小，但它与“以推理为导向的基础模型应该更好地处理推理”这一想法相反。最佳配置比较也不显著。最佳Qwen3-8B监督微调配置达到ROC-AUC 0.849，而最佳Qwen2.5-7B-Instruct配置为0.839（配对DeLong检验，P=0.235）。附录图9显示了PR-AUC、F1和召回率上同样缺乏实际优势。因此，监督微调性能下降无法通过从标准指令模型切换到具有更强推理重点的模型来解决。

### 3.2 分析与见解

（注：原文在此处有“F”字样，可能为图表引用标记，但未提供具体内容，故保留原样翻译：）

参照图例（说明）F

使用合成理由数据的监督微调损害了现实世界疾病预测

相似文章

为什么推理模型会失去覆盖率？数据与路径分岔的作用

推理监督的哪些特性与下游模型质量的提升相关？

基于语义损失的微调方法以防止因果推理中的模型崩溃

解释是否必要且充分？调优LLM用于可解释的虚假信息检测

当推理监督适得其反：基于TTCW的长篇文学评论生成

提交意见反馈