Traj-Evolve: 用于肺癌早期检测患者轨迹建模的自我进化多智能体系统

arXiv cs.AI 2026/06/03 04:00 论文

lung-cancer multi-agent-system patient-trajectory ehr reinforcement-learning self-evolving

摘要

本文提出Traj-Evolve，一个自我进化的多智能体系统，它利用经验池和多智能体强化学习，从纵向电子健康记录中对患者轨迹进行建模，用于肺癌早期检测，性能优于强基线模型。

arXiv:2606.02812v1 公告类型: 新摘要: 从纵向电子健康记录（EHRs）中对患者轨迹进行建模需要处理稀疏、噪声大且上下文长的多模态序列。现有基于LLM的多智能体系统虽然解决了上下文长度问题，但孤立地处理每个患者，未能模拟临床医生如何利用从类似既往病例中积累的经验。我们提出Traj-Evolve，一个具有两种互补进化机制的自我进化多智能体系统。首先，经验池（ExPool）作为非参数记忆，对经拒绝采样的推理轨迹进行索引，以检索相似患者作为少样本上下文。其次，通过奖励排序微调的多智能体强化学习（MARL）以参数化方式优化智能体间及智能体与记忆的协作。留一法交叉检索策略将两者统一，在检索增强下对齐训练和推理阶段的行为。在利用长达五年的多模态EHRs进行肺癌预测任务中，Traj-Evolve在整体人群和具有挑战性的从不吸烟者人群上均优于9个强基线模型。对进化动态的分析揭示了三个关键发现：（1）扩大ExPool会使最优检索从多样化样本转向特定样本；（2）在MARL下，管理智能体的预测损失快速收敛，而工作智能体的时间推理则继续从更多经验证的患者中获益；（3）两种机制在预测风险上互补，ExPool提升特异性，而MARL提升敏感性。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:41

# Traj-Evolve: 一种用于肺癌早期检测的患者轨迹建模的自进化多智能体系统
来源: https://arxiv.org/html/2606.02812
Sihang Zeng¹,², Matthew Thompson³, Ruth Etzioni², Meliha Yetisgen¹ ¹华盛顿大学, ²弗雷德·哈钦森癌症中心, ³谷歌 zengsh@uw\.edu (https://arxiv.org/html/2606.02812v1/mailto:[email protected]), melihay@uw\.edu (https://arxiv.org/html/2606.02812v1/mailto:[email protected])

###### 摘要

从纵向电子健康记录\(EHR\)中建模患者轨迹，需要对稀疏、嘈杂且上下文长的多模态序列进行推理。现有的基于LLM的多智能体系统解决了上下文长度问题，但孤立地处理每位患者，无法模拟临床医生如何从过往类似病例中积累经验。我们提出Traj-Evolve，一个具有两种互补进化机制的自进化多智能体系统。首先，经验池\(ExPool\)作为一种非参数化记忆，索引拒绝采样得到的推理轨迹，以检索相似患者作为少样本上下文。其次，通过奖励排序微调的多智能体强化学习\(MARL\)，参数化地优化智能体间及智能体-记忆的协作。一种留一法交叉检索策略将两者统一，使训练和推理时的行为在检索增强下保持一致。在利用长达五年的多模态EHR进行肺癌预测任务中，Traj-Evolve在整体人群和具有挑战性的从不吸烟者人群中均优于9个强基线。对进化动态的分析突出了三个关键发现：(1) 扩大ExPool会使最优检索从多样化样本转向特异性样本；(2) 在MARL下，管理智能体的预测损失迅速收敛，而工作智能体的时序推理则持续受益于更多已验证患者；(3) 两种机制在预测风险上互补，ExPool提升特异性，而MARL提升敏感性。

Traj-Evolve: 一种用于肺癌早期检测的患者轨迹建模的自进化多智能体系统

Sihang Zeng¹,², Matthew Thompson³, Ruth Etzioni², Meliha Yetisgen¹¹华盛顿大学, ²弗雷德·哈钦森癌症中心, ³谷歌zengsh@uw\.edu (https://arxiv.org/html/2606.02812v1/mailto:[email protected]), melihay@uw\.edu (https://arxiv.org/html/2606.02812v1/mailto:[email protected])

## 1 引言

肺癌是全球癌症相关死亡率的主要原因Sunget al\.\(2021 (https://arxiv.org/html/2606.02812#bib.bib1)\); Lancasteret al\.\(2022 (https://arxiv.org/html/2606.02812#bib.bib2)\)，而早期检测能显著改善患者预后Lancasteret al\.\(2022 (https://arxiv.org/html/2606.02812#bib.bib2)\)。纵向电子健康记录\(EHR\)为早期检测提供了独特而强大的机遇，因为它积累了丰富的多模态临床历史，包括诊断、操作、实验室值、生命体征、药物以及非结构化的临床记录，这些共同编码了癌症诊断前微妙的疾病轨迹Jensenet al\.\(2012 (https://arxiv.org/html/2606.02812#bib.bib19)\); Kimet al\.\(2019 (https://arxiv.org/html/2606.02812#bib.bib20)\)。在这些轨迹中，隐藏着风险的早期信号及其趋势，例如反复出现的呼吸系统症状、慢性肺部疾病，或诊断前数年记录的偶然影像学发现D’Arcyet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib12)\); Gantiet al\.\(2021 (https://arxiv.org/html/2606.02812#bib.bib3)\)。

然而，从冗长且嘈杂的患者轨迹中提取这些信号并进行时序推理是困难的。近期研究评估了基于LLM的方法，用于从异质性EHR数据中进行泛化建模Cuiet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib53)\); Kruseet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib54)\); Zenget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib35),2026 (https://arxiv.org/html/2606.02812#bib.bib55)\)。其中，Traj-CoA是一个多智能体框架，利用智能体链和长期记忆来促进患者轨迹的时序推理，用于癌症早期检测，消除了复杂的特征工程，同时在零样本性能上可与有监督的机器学习和深度学习模型相媲美Zenget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib35),2026 (https://arxiv.org/html/2606.02812#bib.bib55)\)。

尽管取得了这些进展，现有的基于LLM的纵向EHR建模系统存在一个根本性局限：它们是静态的。每位患者都被孤立地处理，仅依赖LLM冻结的参数化知识和固定提示。这与专家的临床实践形成鲜明对比，在临床实践中，诊断判断通过持续积累类似患者的经验而不断优化。这一过程对于临床医生识别非典型表现至关重要，例如在一位既往史不显著的从不吸烟者中识别早期肺癌Eva \(2005 (https://arxiv.org/html/2606.02812#bib.bib37)\); Patelet al\.\(2005 (https://arxiv.org/html/2606.02812#bib.bib38)\)。对于肺癌早期检测，病例在临床上是异质性的，且通常与对照组通过分布在数年记录中的模式微妙地区分开来，系统无法从过去经验证的病例中学习，会限制其性能和鲁棒性，特别是在少数亚组（如从不吸烟者）中。

关于自进化LLM智能体的新兴研究有潜力解决这一差距。与其将模型视为不可变，自进化智能体通过交互和反馈持续更新其行为，随着新经验的积累而进化其记忆、提示、工具或参数Gaoet al\.\(2025a (https://arxiv.org/html/2606.02812#bib.bib39)\); Zhanget al\.\(2025c (https://arxiv.org/html/2606.02812#bib.bib40)\)。例如，基于记忆的方法将问题解决轨迹作为经验保存到外部数据库中，通过检索增强生成\(RAG\)指导未来决策Shinnet al\.\(2023 (https://arxiv.org/html/2606.02812#bib.bib41)\); Zhaoet al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib42)\); Wuet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib43)\); Zhouet al\.\(2025a (https://arxiv.org/html/2606.02812#bib.bib44)\); Tanget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib56)\)。同时，基于强化学习\(RL\)的方法，如奖励排序微调\(RAFT\)Donget al\.\(2023 (https://arxiv.org/html/2606.02812#bib.bib45)\); Xionget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib46)\); Zhanget al\.\(2025b (https://arxiv.org/html/2606.02812#bib.bib62)\)和多智能体RL变体Maet al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib47)\); Liaoet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib48)\); Zhanget al\.\(2025a (https://arxiv.org/html/2606.02812#bib.bib49)\)，使得协作智能体系统能够直接将成功的推理模式内化成参数。

在医疗领域，自进化智能体已在合成或模拟的患者互动中得到探索Liet al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib50)\); Almansooriet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib51)\)以及医学问答中Chenet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib52)\)。为癌症早期检测的患者轨迹建模设计自进化系统提出了一个独特的挑战：它需要对多年嘈杂、多模态数据进行复杂的时序推理，并能够从异质性临床病例中提取可重复利用的见解。现有技术可能不容易适用于这一场景，其性能仍不明确。据我们所知，目前尚无先前工作设计自进化智能体来增强纵向EHR建模用于真实的癌症早期检测。

为弥补这一差距，我们提出Traj-Evolve，一个用于患者轨迹建模的自进化多智能体框架，它扩展了Traj-CoA架构Zenget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib35)\)，并引入了两种互补的进化机制：进化的经验池\(ExPool\)和多智能体强化学习\(MARL\)。总的来说，这些机制使得Traj-Evolve在处理更多患者时能够从自身经验中学习，持续优化其时序推理并从“像我一样的患者”中学习，最终随时间提高性能。这两种机制将患者轨迹建模从静态、孤立的预测任务转变为持续改进的临床学习系统。

我们在一个大型医疗中心的纵向队列上评估了Traj-Evolve，使用五年的多模态EHR历史来预测整体人群以及特别具有挑战性的从不吸烟者亚组中在未来一年内发生的肺癌事件。我们与一组全面的基线进行了对比，包括临床风险模型、有监督机器学习、序列深度学习、基于临床BERT的模型以及基于LLM的系统。

本文的主要贡献如下：

- •我们提出了Traj-Evolve，据我们所知，这是首个应用于真实临床预测任务的纵向EHR建模的自进化多智能体框架。
- •我们设计了两种互补的进化机制：一个进化的经验池\(ExPool\)，提供非参数化的少样本“像我一样的患者”检索；以及一个MARL过程，利用拒绝采样的高奖励轨迹参数化地优化智能体间及智能体-记忆的协作。
- •我们展示了Traj-Evolve在整体人群和具有挑战性的从不吸烟者人群中，在一年肺癌预测方面达到了最先进的判别性能。
- •我们提供了对自进化动态的详细分析，支持持续改进的临床决策支持系统的愿景。

参考图注图1:Traj-Evolve架构和自进化工作流程概览。上半部分展示了自进化过程，其中系统从先前经验证的患者中积累经验，以迭代更新Traj-Evolve并促进对新患者的预测。下半部分详细说明了流水线。
## 2 相关工作

#### 基于LLM的患者轨迹建模

近期工作越来越多地利用强大的LLM对异质性临床历史进行零样本或少样本推理，包括用于临床变量预测的DT-GPTMakarovet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib33)\)，用于可扩展患者路径预测的EHR2PathPellegriniet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib29)\)，用于时序指令微调的TIMERCuiet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib53)\)，以及Kruseet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib54)\)用于长上下文摘要。然而，单一LLM流水线仍然受到在非常长的EHR上的“迷失在中间”现象的限制Liuet al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib79)\)，以及在特定临床预测任务中的复杂性，这促使了多智能体设计，将纵向EHR建模分解为更简单的子任务。MoMAGaoet al\.\(2025b (https://arxiv.org/html/2606.02812#bib.bib70)\)协调专门化模态的智能体进行临床预测，CARE-ADLiet al\.\(2025b (https://arxiv.org/html/2606.02812#bib.bib71)\)和ClinNoteAgentsZhouet al\.\(2025b (https://arxiv.org/html/2606.02812#bib.bib72)\)将推理分解到专家智能体之间，而Traj-CoAZenget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib35),2026 (https://arxiv.org/html/2606.02812#bib.bib55)\)扩展了智能体链Zhanget al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib69)\)并引入长期记忆用于癌症早期检测。补充性工作如CliCARELiet al\.\(2025a (https://arxiv.org/html/2606.02812#bib.bib73)\)和TRACEQu and Färber \(2026 (https://arxiv.org/html/2606.02812#bib.bib74)\)进一步探索了时序知识图谱和双记忆方法。然而，这些系统是静态的：每位患者被孤立地推理，没有机制或评估来随时间积累已验证的临床经验。

#### 自进化智能体

Gaoet al\.\(2025a (https://arxiv.org/html/2606.02812#bib.bib39)\)从三个轴组织自进化智能体：进化什么、何时进化以及如何进化。在进化什么方面，先前工作针对记忆、提示、工具或模型参数；在何时方面，适应可以是测试时间内或测试间；在如何方面，由文本反馈或标量奖励驱动，在单智能体或多智能体设置中进行。例如，记忆进化方法如ReflexionShinnet al\.\(2023 (https://arxiv.org/html/2606.02812#bib.bib41)\)、ExpeLZhaoet al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib42)\)、MementoZhouet al\.\(2025a (https://arxiv.org/html/2606.02812#bib.bib44)\)和Agent KBTanget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib56)\)将过去轨迹作为非参数化经验进行存储和检索。参数进化方法通过模型训练内化成功经验，包括监督微调和强化学习Zelikmanet al\.\(2022 (https://arxiv.org/html/2606.02812#bib.bib75)\); Zuoet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib76)\); Donget al\.\(2023 (https://arxiv.org/html/2606.02812#bib.bib45)\); Wanget al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib77)\)以及多智能体扩展Zhanget al\.\(2025a (https://arxiv.org/html/2606.02812#bib.bib49)\); Maet al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib47)\); Liaoet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib48)\)。这两个家族通常被孤立地研究。在医疗领域，自进化迄今仅限于模拟或交互式设置，包括Agent HospitalLiet al\.\(2024 (https://arxiv.org/html/2606.02812#bib.bib50)\)、MedAgentSimAlmansooriet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib51)\)、MDTeamGPTChenet al\.\(2025 (https://arxiv.org/html/2606.02812#bib.bib52)\)和EvoClinicianHeet al\.\(2026 (https://arxiv.org/html/2606.02812#bib.bib78)\)。

据我们所知，目前尚无先前工作将自进化智能体应用于纵向EHR建模用于真实临床预测。Traj-Evolve通过联合进化记忆\(ExPool\)和参数\(MARL\)（在测试间进行），并由留一法交叉检索过程统一训练和推理时的增强，填补了这一空白，用于肺癌早期检测。

## 3 方法

### 3\.1 问题形式化

#### 肺癌早期检测

设P=\{p\_i\}\_{i=1}^N为患者队列。对于每位患者p\_i，我们观察到一个纵向多模态EHR序列

X\_i=\{(t\_{i,j}, e\_{i,j})\}\_{j=1}^{T\_i}, \quad t\_{i,j} \leq t\_i^\star, \quad (1)

其中t\_i^\star是患者特定的索引日期（预测时间），T\_i是可用的EHR中带日期条目的数量，每个事件e\_{i,j}在时间t\_{i,j}由结构化记录（诊断、药物、实验室、生命体征或操作代码）或非结构化临床文本（笔记和放射学报告）组成。二元目标y\_i∈\{0,1\}指示p\_i是否在t\_i^\star后一年内首次诊断为原发性肺癌。

肺癌早期检测的任务是学习一个函数f\_θ: X\_i ↦ (s\_i, r\_i)，该函数将纵向记录映射为一个整数风险分数s\_i ∈ \{1, ...

Traj-Evolve: 用于肺癌早期检测患者轨迹建模的自我进化多智能体系统

相似文章

从静态风险到动态轨迹：迈向世界模型启发的临床预测

EvoTrainer：面向自主智能体强化学习的LLM策略与训练框架协同进化

EvoMaster：构建可进化大规模自主科学智能体的基础框架

CoEvolve：通过智能体-数据互进化训练LLM智能体

TRACE：面向长周期智能体安全的轨迹风险感知压缩方法

提交意见反馈