RealICU：大型语言模型代理是否能理解长上下文ICU数据？一个超越行为模仿的基准测试

arXiv cs.AI 2026/05/14 04:00 论文

icu benchmark llm-evaluation clinical-ai long-context patient-monitoring decision-support

摘要

RealICU是一个事后标注的基准测试，用于评估ICU场景中的大型语言模型（LLM），涵盖四个由医生驱动的任务。实验表明，现有LLM在回忆-安全权衡和锚定偏差方面存在困难，而一种新的结构化记忆代理改善了推理能力，但未能完全消除安全故障。

arXiv:2605.13542v1 Announce Type: new 摘要：重症监护室（ICU）会产生长、密集且不断变化的临床信息流，医生必须反复评估患者状态，时间压力巨大，这凸显了对可靠AI决策支持的需求。现有的ICU基准测试通常将历史临床医生的行为视为金标准。然而，这些行为是在信息不完整和患者状态时间背景有限的情况下做出的，因此可能不是最优的，这使得评估AI系统的真实推理能力变得困难。我们推出RealICU，这是一个事后标注的基准测试，用于在真实ICU条件下评估大型语言模型（LLM），其中标签由高级医生在审查完整个患者轨迹后创建。我们定义了四个由医生驱动的任务：评估患者状态、急性问题、推荐操作以及可能导致不安全结果的红旗操作。我们将每个轨迹以30分钟窗口划分，并发布两个数据集：RealICU-Gold（包含来自94名MIMIC-IV患者的930个窗口注释）和RealICU-Scale（通过Oracle（一个经医生验证的LLM事后标注器）扩展的11,862个窗口）。现有LLM（包括记忆增强型）在RealICU上表现不佳，暴露了两个失败模式：临床建议中的回忆-安全权衡，以及对患者早期解释的锚定偏差。我们进一步引入ICU-Evo来研究结构化记忆代理，它改善了长程推理，但未能完全消除安全故障。总之，RealICU为在高风险护理中测量和改进AI顺序决策支持提供了一个临床基础测试平台。项目页面：https://chengzhi-leo.github.io/RealICU-Bench/

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 06:16

# RealICU: LLM智能体是否理解长上下文ICU数据？一个超越行为模仿的基准
来源: https://arxiv.org/html/2605.13542
Chengzhi Shen¹,²,¹⁰ Weixiang Shen¹,²,³ Tobias Susetzky¹,² Chen (Cherise) Chen⁴ Jun Li¹ Yuyuan Liu⁵ Xuepeng Zhang⁶ Zhenyu Gong⁷,† Daniel Rueckert¹,²,⁸,⁹,¹⁰,† Jiazhen Pan¹,²,⁹,†

¹慕尼黑工业大学 (TUM) ²TUM大学医院 ³慕尼黑大学 (LMU) ⁴谢菲尔德大学 ⁵牛津大学 ⁶复旦大学附属中山医院 ⁷中山大学肿瘤防治中心 ⁸帝国理工学院 ⁹慕尼黑机器学习中心 (MCML) ¹⁰relAI – 可靠AI康拉德·楚泽卓越研究所 †通讯作者

###### 摘要

重症监护病房 (ICU) 产生长时段、密集且持续演变的临床信息流，医生必须在时间压力下反复评估患者状态，这突显了对可靠AI决策支持的明确需求。现有的ICU基准通常将历史临床医生的行为视为真实标签。然而，这些行为是在信息不完整且对患者状态底层时间上下文有限的情况下做出的，因此可能是次优的，这使得评估AI系统的真正推理能力变得困难。我们引入了RealICU，这是一个事后标注的基准，用于在现实ICU条件下评估大语言模型 (LLM)，其标签由资深医师在审查完整患者轨迹后创建。我们制定了四个由医生驱动的任务：评估*患者状态*、*急性问题*、*建议采取的行动*，以及可能导致不安全后果的*红色警戒*行动。我们以30分钟窗口划分每个患者轨迹，并发布两个数据集：RealICU-Gold，包含来自94名MIMIC-IV患者的930个窗口标注；以及RealICU-Scale，通过*Oracle*（一个经医生验证的LLM事后标注器）扩展至11,862个窗口。现有的LLM（包括记忆增强型LLM）在RealICU上表现不佳，暴露了两种失败模式：临床建议的召回-安全性权衡，以及对患者早期解释的锚定偏差。我们进一步引入了ICU-Evo来研究结构化记忆智能体，它改善了长程推理，但并未完全消除安全隐患。综上所述，RealICU为衡量和改进高风险护理中AI的时序决策支持提供了一个临床基础的测试平台。项目页面: chengzhi-leo.github.io/RealICU-Bench (https://chengzhi-leo.github.io/RealICU-Bench/)

## 1 引言

重症监护病房 (ICU) 是医院中信息最密集的环境之一。在数小时内，单个患者就能产生大量的化验结果、生命体征、用药记录、护理观察和影像报告[manor2008quantifying,pickering2010novel]。医生必须在时间压力下整合这些持续演变的信息流，每次测量只捕捉患者生理状态的一个片段，而某一时刻的决策可能会影响数小时甚至数天后的结果[paul2023effect,rosa2019effects]。这突显了对实时监测和决策的AI决策支持系统的明确需求，该系统通常充当临床副驾驶。在与超过30名执业医师（包括后来担任标注者的五位资深ICU医生）的咨询中，一个有用的ICU副驾驶所需的四个核心能力浮现出来：评估*患者状态*、识别*急性问题*、提出*建议采取的行动*，以及警告可能导致不安全后果的*红色警戒*行动。图1 (https://arxiv.org/html/2605.13542#S1.F1) 展示了AI副驾驶在ICU决策支持中的用例。

**基准的缺口。** 尽管大语言模型 (LLM) 和智能体系统取得了快速进展，但很少有基准在真实ICU环境中评估这四种能力。大多数临床基准将临床推理简化为静态问答、诊断或总结[ma2024clibench,van2023yet,jin2021disease,jin2019pubmedqa,chiu2025simulating]，或简化为单终点预测（例如死亡率[zhao2020prediction]、休克[ghosh2017septic,yee2019data]或急性肾损伤[malhotra2017risk,dong2021machine]）。这些基准将临床护理聚合为孤立的预测，几乎没有提供模型是否能在变化的患者轨迹中进行推理的信息。更重要的是，基于电子健康记录 (EHR) 数据库（如MIMIC-IV[johnson2023mimic]、HiRID[hyland2020early]和eICU-CRD[pollard2018eicu]）构建的基准将记录的临床医生行为视为真实标签。但这个假设是脆弱的。一个记录的行为反映的是医生在床边信息不完整的情况下认为最好的做法，而最优行动往往只有在事后回顾整个轨迹时才会变得清晰。因此，根据此类标签评估AI模型奖励的是行为模仿而非临床正确性。

**提出的基准。** 为弥补这一缺口，我们引入了*RealICU*，这是一个基于MIMIC-IV[johnson2023mimic]构建的、以事后判断为基准的基准，用于评估基于LLM的ICU临床决策支持。*RealICU*在ICU轨迹中密集的30分钟窗口上评估四个由医生驱动的任务：*患者状态*、*急性问题*、*建议采取的行动*和*红色警戒*。在每个窗口，智能体只能观察到截至该时间点可用的信息，而标签则由医生在对整个轨迹进行事后判断后生成。这种设计根据临床正确性而非记录行为来评分智能体。*RealICU*包含两个子集。*RealICU-Gold*提供了来自94次ICU住院的930个医生标注窗口，而*RealICU-Scale*通过*Oracle*（一个经医生验证的、基于LLM的、针对专家共识进行校准的事后评估器）将评估扩展到11,862个窗口。

![Refer to caption](图1: ICU决策是在海量数据和时间压力下做出的。一个ICU AI副驾驶整合数据流进入一个决策支持面板，评估*患者状态*，识别*急性问题*，提出*建议采取的行动*，并警告不安全的*红色警戒*行动。)

**失败模式识别与缓解。** 使用*RealICU*，我们基准测试了前沿的基于LLM的ICU智能体，涵盖了包括记忆在内的多种上下文配置。当前的智能体在长ICU上下文中显示出可靠性差，存在两种失败模式：(i) 召回-安全性权衡，即更高的建议召回率伴随高达47.3%的这些建议被标记为潜在有害；(ii) 锚定偏差，即智能体即使在后期出现矛盾证据时仍坚持对患者的早期解释。为缓解这些问题，我们引入了ICU-Evo，一个结构化记忆智能体框架，它维护最近的观察结果、时序趋势、关键事件、轨迹摘要以及患者特定见解。ICU-Evo是骨干网络无关的，并改善了临床推理，但其安全隐患表明，仅靠结构化记忆不足以构建可靠的ICU副驾驶。

我们的主要贡献如下：

- • 我们围绕四个由医生驱动的任务制定了ICU副驾驶评估：*患者状态*、*急性问题*、*建议采取的行动*和*红色警戒*。与静态临床问答或结果预测基准不同，这些任务评估AI系统能否在演变的ICU轨迹中支持持续的床边重新评估。
- • 我们发布了*RealICU*，一个基于临床正确性而非行为模仿的事后标注基准。智能体只能观察到决策时可用的数据，而标签则由医生基于整个轨迹的事后判断产生。*RealICU-Gold*提供来自94次ICU住院的930个医生共识窗口，*RealICU-Scale*通过*Oracle*（一个经医生验证的基于LLM的事后评估器）将其扩展到11,862个窗口。
- • 我们识别了当前LLM ICU智能体的不足，并研究了结构记忆作为一种缓解措施。在多种前沿LLM和上下文策略下，*RealICU*仍然在很大程度上未被解决。我们识别出召回-安全性权衡和锚定偏差作为主要失败模式，并引入了ICU-Evo，一个结构化记忆智能体，它改善了长程推理，但表明仅靠记忆不足以实现安全的ICU决策支持。

## 2 相关工作

##### 面向LLM和智能体的临床基准。

考试式基准如MedQA[jin2021disease]、PubMedQA[jin2019pubmedqa]和MedXpertQA[zuo2025medxpertqa]以完整信息下的多项选择召回来评估临床知识，这种格式已被最先进的模型很好地解决，但几乎不能揭示在不确定性下的决策。对话式基准如AI Hospital[fan2025ai]、AgentClinic[schmidgall2024agentclinic]和VivaBench[chiu2025simulating]要求智能体收集病史、安排检查并在多轮对话中收敛到一个诊断上，暴露了过早诊断闭合等失败模式。MedAgentBench[jiang2025medagentbench]更接近真实的EHR环境，但仍保留了任务完成的框架，而不是评估整体患者管理。这些基准均未评估长ICU轨迹上的时序决策，也未区分行为模仿与临床正确性。*RealICU*通过将评估建立在临床医生对整个ICU轨迹的事后判断上，并提及时序和轨迹级别的临床正确性信号，解决了这两个问题。

##### 记忆增强型LLM智能体。

最近的LLM智能体架构探索了一系列记忆设计。ReAct[yao2022react]顺序追加所有推理-行动结果，但随着上下文积累迅速饱和。AgentFold[ye2025agentfold]通过在多个时间尺度上总结已完成的子任务来解决这个问题。Evo-Memory[wei2025evo]在测试时循环中统一了推理、行动和记忆细化。基于检索的系统如RAG[arslan2024survey,cuconasu2024power]和A-MEM[xu2025mem]使得对长期历史的选择性访问成为可能。然而，这些系统同等对待临床上下文，不对静态患者背景[mattey2022hospitalised]、时间敏感的生理趋势[li2014physiological]和高层轨迹[sousa2020developmental,reed2015defining]进行区分，而这些在临床推理中起着根本不同的作用。ICU-Evo将临床上下文组织成与这些区分相一致的异构记忆类型，从而能够系统研究结构化记忆设计如何塑造ICU决策。

## 3 *RealICU*基准

![Refer to caption](图2: 左: *RealICU-Gold*和*RealICU-Scale*的数据处理流程。右: 一位患者ICU轨迹的数据样本。对于每个评估窗口，*RealICU*提供原始观察数据和临床标签，包括患者状态、急性问题、行动建议和红色警戒行动。*RealICU*评估LLM智能体在ICU轨迹上的时序临床决策，模拟标准医疗质量审查：模型输出根据拥有完整患者轨迹知识的医生事后标签进行评估，而非根据记录的临床医生行为。)

*RealICU*包含两个数据集。*RealICU-Gold*包含来自94次ICU住院的930个稀疏采样窗口，由医生共识标注。为超越手动标注的规模，我们引入了*Oracle*，一个经过*RealICU-Gold*验证的基于LLM的事后评估器，从而产生了*RealICU-Scale*，包含11,862个密集标注的窗口。两个数据集均作为仅测试集发布，以防止泄漏。详细统计信息见图8 (https://arxiv.org/html/2605.13542#A2.F8)、图9 (https://arxiv.org/html/2605.13542#A2.F9)和图10 (https://arxiv.org/html/2605.13542#A2.F10)。

每个窗口 \(W_t = (X_t; S_t, P_t, A_t, R_t)\) 包含截至时间 \(t\) 的临床观察数据，并对四个任务进行标注：*患者状态* \(S_t\)、*急性问题* \(P_t\)、*建议采取的行动* \(A_t\) 和*红色警戒行动* \(R_t\)。模型从 \(X_t\) 预测 \((\hat{S}_t, \hat{P}_t, \hat{A}_t)\)；\(R_t\) 用作对 \(\hat{A}_t\) 的安全检查。这种部分观察与事后标注之间的不对称性，反映了实时决策与事后审查之间的差距。图2 (https://arxiv.org/html/2605.13542#S3.F2) 展示了数据构建流程和样本。

### 3.1 数据集构建

##### 队列。

我们从MIMIC-IV[johnson2023mimic]队列中采样了94次ICU住院，每次来自不同的患者，并按ICU结局进行平衡。剔除少于4小时的住院。为同时捕捉早期稳定和长期轨迹，我们按住院时间是否超过96小时进行平衡。

##### 窗口划分。

我们将30分钟窗口定义为评估单元，并沿每个ICU轨迹以2小时间隔进行采样，在保留短期动态的同时限制相邻窗口间的冗余。在推理时，模型可见的轨迹在结果揭示事件（如ICU出院或出院小结）之前被截断。

### 3.2 任务

我们在咨询了超过30名临床医生（包括后来担任标注者的五位资深ICU医生）后，确定了以下四个关键的ICU推理任务。它们共同覆盖了一个有用的ICU副驾驶的关键能力。对于所有四个任务，每个预测都附有从记录历史中提取的原始事件中的支持证据 \(\mathcal{E} \subseteq X_t\)。

*患者状态*。相对于近期上下文，患者是改善、稳定还是恶化的分类：\(S_t = (s_t, \mathcal{E}_t)\)，其中 \(s_t \in \{\texttt{improving}, \texttt{stable}, \texttt{deteriorating}\}\)，且 \(\mathcal{E}_t \subseteq X_t\)。

*急性问题*。一组自由文本描述的急性问题或需要积极管理的新出现风险：\(P_t = \{(p_i, \mathcal{E}_i)\}_{i=1}^k\)，其中 \(\mathcal{E}_i \subseteq X_t\)。

*行动建议*。一组自由文本描述的在1小时内可能对患者有益的行动，例如稳定生理状况或防止恶化：\(A_t = \{(a_j, \mathcal{E}_j)\}_{j=1}^m\)，其中 \(\mathcal{E}_j \subseteq X_t\)。

*红色警戒*。一组自由文本描述的高风险行动，应避免，因为根据患者当前的生理状况或轨迹可能有害：\(R_t = \{(r_l, \mathcal{E}_l)\}_{l=1}^n\)，其中 \(\mathcal{E}_l \subseteq X_t\)。

### 3.3 标注协议

##### *RealICU-Gold* 及医生共识。

我们首先根据行动密度 \(\rho_t = |\mathcal{E}_t^{\text{action}}| / |\mathcal{E}_t|\)（即每个窗口内行动事件的比例）对每次ICU住院采样约10个窗口。80%的窗口来自 \(\rho_t \geq 0.5\) 的区域（干预频繁），20%来自 \(\rho_t < 0.5\) 作为对照组。每个窗口由至少两位资深ICU医生独立标注。医生之间的评分者间信度 (IRR) 在四个任务上介于0.826至0.985之间（表1 (https://arxiv.org/html/2605.13542#S3.T1.fig1)），证实了标签的强可重复性以及任务定义足够精确以产生一致的临床判断。未达成医生一致的窗口被剔除，最终在*RealICU-Gold*中获得930个验证窗口。

表1: *RealICU-Gold*标签质量与*Oracle*验证。
| 任务 | 医生 IRR | Oracle F1 |
| --- | --- | --- |
| *患者状态* | 0.985 | 0.987 |
| *急性问题* | 0.980 | 0.987 |
| *行动建议* | 0.826 | 0.895 |
| *红色警戒* | 0.916 | 0.964 |

RealICU：大型语言模型代理是否能理解长上下文ICU数据？一个超越行为模仿的基准测试

相似文章

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

@omarsar0: // LLM 智能体中的记忆诅咒 //（建议收藏）过长的历史记录显然会导致智能体性能下降，因为它们变得越来越…

@GoogleResearch：ReasoningBank，一种新型智能体记忆框架，使LLM智能体能从成功与失败中持续学习……

MemEvoBench：LLM 代理内存误演化基准测试

PRISM：探究大语言模型幻觉中的推理、指令与源记忆

提交意见反馈