从词元到词元对：临床预测中大语言模型的提示高效压缩

arXiv cs.CL 2026/05/13 04:00 论文

prompt-compression clinical-ai efficiency tokenization healthcare llm-optimization

摘要

本文介绍了 MedTPE，一种针对大语言模型电子健康记录的高效无损提示压缩方法，可显著降低临床预测任务中的词元长度和推理延迟。

arXiv:2605.11774v1 宣布类型：新摘要：通过将电子健康记录（EHR）作为自然语言序列进行处理，大语言模型（LLM）在临床预测任务（如死亡率预测和表型分析）中展现了潜力。然而，纵向或高频次的 EHR 往往会产生过长的词元序列，导致高昂的计算成本甚至性能下降。现有解决方案要么添加压缩模块，要么移除不太重要的词元，这都会引入额外的推理延迟或面临丢失临床信息的风险。为了在不增加成本或不损失性能的情况下实现词元序列的无损压缩，我们提出了医疗词元对编码（MedTPE），这是一种扩展 EHR 序列标准分词的分层方法。MedTPE 将频繁共现的医疗词元对合并为复合词元，通过依赖感知替换策略在提供无损压缩的同时保持计算复杂度。仅通过自监督学习微调新引入词元的嵌入，这些词元仅占 LLM 参数的 0.5% 至 1.0%。在两个临床场景的真实世界数据集上的实验表明，MedTPE 将输入词元长度减少了高达 31%，推理延迟降低了 34% 至 63%，同时在多个 LLM 和四项临床预测任务中保持甚至提升了预测性能和输出格式合规性。此外，MedTPE 在不同的输入上下文长度下表现出鲁棒性，并具备向科学和金融领域以及不同语言的泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:18

# 从 Token 到 Token 对：大型语言模型在临床预测中的高效提示压缩

来源: https://arxiv.org/html/2605.11774

###### 摘要

通过将电子健康记录（EHRs）作为自然语言序列处理，大型语言模型（LLMs）在死亡率预测和表型分类等临床预测任务中展现了潜力。然而，纵向或高频的 EHRs 往往会产生过长的 token 序列，导致高昂的计算成本，甚至降低性能。现有解决方案要么添加压缩模块，要么移除不重要的 token，这会引入额外的推理延迟或面临丢失临床信息的风险。为了实现 token 序列的无损压缩，且无需额外成本或性能损失，我们提出了 Medical Token-Pair Encoding (MedTPE)，这是一种扩展了标准 EHR 序列标记化方法的分层方法。MedTPE 将经常共现的医学 token 对合并为复合 token，通过依赖感知替换策略在保持计算复杂度的同时提供无损压缩。仅通过自监督学习微调新引入的 token 的嵌入，这些嵌入仅占 LLM 参数的 0.5%-1.0%。在两个临床场景的真实世界数据集上的实验表明，MedTPE 将输入 token 长度减少了高达 31%，推理延迟减少了 34%-63%，同时在多个 LLM 和四项临床预测任务中保持甚至提高了预测性能和输出格式合规性。此外，MedTPE 在不同的输入上下文长度下表现出鲁棒性，并泛化到科学和财务领域以及不同的语言。代码可在 GitHub 仓库中找到 (https://github.com/JasonZuu/MedTPE)。

机器学习, ICML

**图 1**: 基于 LLM 的临床预测示意图。

## 1 引言

电子健康记录（EHRs）记录了临床事件的纵向时间线，包括诊断、出院小结、实验室结果、生命体征、药物和治疗过程 (Theodorou et al., 2023 (https://arxiv.org/html/2605.11774#bib.bib32))。通过将这些临床事件转换为自然语言序列，大型语言模型（LLMs）能够捕捉整个临床轨迹中的时间和上下文模式，从而支持医疗系统中的患者护理和决策制定 (Lee et al., 2020 (https://arxiv.org/html/2605.11774#bib.bib18); Zhu et al., 2026 (https://arxiv.org/html/2605.11774#bib.bib68))。最近的研究报道，LLMs 可以在零样本设置下执行一系列临床预测任务，并产生人类可读的解释，例如死亡率预测和表型分类 (Renc et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib12); Cui et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib20); Williams et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib19))。具体而言，这种范式将文本形式的 EHR 序列与特定任务的提示相结合，允许 LLM 生成预测和自由文本解释。如图 1 (https://arxiv.org/html/2605.11774#S0.F1) 所示，这为预测性能和可解释性提供了有希望的解决方案。

尽管基于 LLM 的临床预测前景广阔，但纵向医疗记录的转换往往产生超出大多数预训练 LLM 上下文窗口限制的 token 序列 (Wornow et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib21))。例如，即使在重症监护室（ICU）的一次住院，由于临床事件的高频率，也可能导致长度超过 64,000 的 token 序列 (Fleming et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib2))。如此冗长的序列会导致计算需求增加、推理速度变慢，并限制上下文长度和测试时扩展策略的可行性，而这些策略本可以提高 LLM 的临床预测性能。这种低效率源于广泛使用的标记化算法，如 Byte-Pair Encoding (BPE)、WordPiece 和 SentencePiece (Sennrich et al., 2016 (https://arxiv.org/html/2605.11774#bib.bib6); Song et al., 2021 (https://arxiv.org/html/2605.11774#bib.bib7); Kudo and Richardson, 2018 (https://arxiv.org/html/2605.11774#bib.bib8))，最初是为通用语言建模优化的，并不适合临床文本的复杂和专业词汇。结果，医学术语被分割成多个子词 token，不必要地延长了序列长度和计算量 (Yu, 2025 (https://arxiv.org/html/2605.11774#bib.bib22))。例如，标准标记器将单个临床概念“Spirometry”（肺功能检查）分割成三个单独的 token [Spi, rom, etry]，而不是将其作为一个统一的术语处理。

为了解决 EHR 中长 token 序列的挑战，已经提出了几种方法，但每种方法在临床环境中都有明显的局限性。一种方法是从医学语料库开发医学专用词汇表，这有助于避免过度碎片化的 token (Bolton et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib10); Kim et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib11); Renc et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib12))。然而，这种方法需要资源密集型的整个 LLM 重新训练，并可能损害预训练 LLM 的核心能力。基于移除的压缩方法，即从输入中丢弃不太重要的 token，不需要模型重新训练，但面临遗漏临床重要信息的风险 (Liskavetz et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib34); Jiang et al., 2023 (https://arxiv.org/html/2605.11774#bib.bib35); Pan et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib36))。基于合并的压缩方法，即在推理期间动态合并医学 token，能够实现无损提示压缩，但通常引入额外的参数或模块，从而增加推理延迟和模型复杂度 (Nakash et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib23); Han et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib24); Harville et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib33))。因此，仍然需要一种医学标记化方法，以实现无损压缩，保持与预训练 LLM 的兼容性，且不增加额外的空间或计算开销。

为了解决现有压缩方法在临床环境中的局限性，我们提出了医学 token 对编码 (MedTPE)，如图 2 (https://arxiv.org/html/2605.11774#S2.F2) 所示。具体而言，MedTPE 分三步操作，以实现 EHR 中 token 序列的高效无损压缩。首先，它从 EHR 序列中发现并合并经常共现的 token 对，创建专为医学文本定制的 TPE token。接下来，MedTPE 采用依赖感知替换策略，用最常见的 TPE token 替换预训练 LLM 词汇表中约 3% 的最不常见的原始 token。该策略在保留原始标记化过程完整性的同时，保持原始词汇表大小和模型参数，保留了与标准标记化方法相同的计算复杂度。最后，仅通过自监督学习微调新 TPE token 的嵌入，而所有其他模型参数保持固定。通过设计，MedTPE 提高了每个 token 的信息密度，允许在模型的固定上下文约束内更紧凑地表示 EHR 序列。总体而言，MedTPE 提供了高效且无损的压缩，无缝集成到预训练 LLM 中，提高了 LLM 在临床预测任务中的推理效率。

我们的主要贡献如下：

*   **面向临床预测的标记化驱动压缩。** 我们首次通过优化标记化过程，解决了基于 LLM 的临床预测中 EHR 长 token 序列的挑战。所提出的方法实现了 EHR 序列的无损压缩，提高了不同标记器和 LLM 骨干网络在临床预测中的效率。
*   **高效且无标签的标记化。** MedTPE 通过依赖感知替换保持原始标记化规则，从而保留标准标记化的计算复杂度。此外，它通过自监督学习微调新 token 的嵌入，实现了嵌入对齐，无需任何标记数据。
*   **无损压缩。** MedTPE 在高度频繁和异构的 ICU 场景以及长且稀疏的纵向护理的临床任务中，实现了实质性压缩，同时保持甚至提高了预测性能。除了超越最先进的压缩策略外，MedTPE 在不同上下文长度下表现出鲁棒性，并在临床叙述、科学推理和财务摘要中表现出强大的泛化能力。

## 2 相关工作

#### 基于 LLM 的 EHR 预测

最近的研究利用 LLM 基于 EHR 进行临床预测 (Chen et al., 2024a (https://arxiv.org/html/2605.11774#bib.bib1); Fleming et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib2); Niu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib3); Wu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib4))。EHR-KnowGen (Niu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib3)) 从 EHR 序列中提取有针对性的医学事件和实验室结果子集，将其呈现为叙述性摘要输入 LLM。ClinicalBench (Chen et al., 2024a (https://arxiv.org/html/2605.11774#bib.bib1)) 将诊断、程序和药物代码转换为描述性句子，以丰富模型可用的临床上下文。同样，Llemr (Wu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib4)) 将整个 EHR 事件集转换为描述性句子，在传递给 LLM 之前使用 ClinicalBERT (Alsentzer et al., 2019 (https://arxiv.org/html/2605.11774#bib.bib5)) 对这些事件进行嵌入。此外，MedAlign (Fleming et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib2)) 将完整的患者事件历史转换为 XML 格式的文本作为 LLM 输入。尽管取得了成功，但这些方法面临 token 序列过长的挑战，它们通过省略部分临床事件（有丢失重要信息的风险）或采用增加模型复杂度的混合编码方案来解决。

#### 标记化和压缩策略

现代 LLM 通常使用子词标记化方法，使用固定大小的词汇表来表示罕见或词表外的单词，例如 BPE (Sennrich et al., 2016 (https://arxiv.org/html/2605.11774#bib.bib6))、WordPiece (Song et al., 2021 (https://arxiv.org/html/2605.11774#bib.bib7)) 和 SentencePiece (Kudo and Richardson, 2018 (https://arxiv.org/html/2605.11774#bib.bib8))。BPE 迭代地将频繁相邻的字符合并为子词 token。WordPiece 基于语言模型的可预测性优化合并，而 SentencePiece 通过迭代概率修剪选择 token。尽管对于通用文本有效，但这些标记器往往过度分割专业的医学术语，导致更长的 token 序列、更高的计算成本和降低的语义凝聚力 (Hasan et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib9))。

为了解决这个问题，提出了提示压缩方法来减少输入序列长度，通常分为两类：基于移除的和基于合并的。基于移除的方法评估单个 token 或句子的重要性，并选择性地移除输入序列中被认为相关性较低的 token。具体而言，LLMLingua (Jiang et al., 2023 (https://arxiv.org/html/2605.11774#bib.bib35)) 和 LLMLingua2 (Pan et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib36)) 通过估计 token 重要性并丢弃排名较低的 token 来实现 token 级压缩。相比之下，CPC (Liskavetz et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib34)) 在句子级别操作，测量每个上下文句子与查询之间的语义相关性，随后仅保留与给定问题最相关的句子。然而，这些方法存在丢弃对临床保真度至关重要的诊断细微差别的风险，可能会损害临床预测的性能。

相反，基于合并的方法通过聚合频繁共现的单位来创建特定领域的 token。例如，AdaptiVocab (Nakash et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib23)) 在推理期间动态地用特定领域的 token 替换不太有用的 token，从而增加计算复杂度。名为 LTSC 的 meta-token 方法 (Harville et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib33)) 用单个 meta-token 替换共现的 token，也需要动态的推理时替换。这两种方法都需要使用标记数据对新引入的嵌入进行有监督对齐，以确保模型在目标领域内保持有效。同样，ZeTT (Minixhofer et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib52)) 使用超网络通过从其原始组成子 token 中聚合信息来为新 token 生成嵌入，从而扩展了原始词汇表和嵌入空间。相比之下，我们的方法保持原始词汇表大小和模型参数数量，保留原始标记化的计算复杂度，并使用自监督学习消除了对标记数据的需求。更多信息见表 1 (https://arxiv.org/html/2605.11774#S2.T1)。

**表 1**: 提示压缩方法总结，描述了实现无损压缩和无标签训练、保持原始词汇表大小和参数数量以及其标记化复杂度（其中 $n$ 是序列长度）的方法。

**图 2**: MedTPE 标记化及其与 LLM 集成的概述。(a) Token 对编码：MedTPE 在医学语料库中识别频繁共现的对，形成统一的 TPE token。(b) 依赖感知替换：通过用高价值医学 token 替换低效用的通用 token（例如，用“Spirometry”替换“Cat”）来优化词汇表，同时严格保留所有依赖的子 token 以保持原始标记化逻辑。(c) 自监督微调 (SSFT)：原始 LLM 处理输入（“Incentive Spirometry”）以生成伪标签。这些标签监督**仅**新 TPE token 嵌入的微调，将它们与预训练潜在空间对齐，同时模型的其他部分保持冻结。

## 3 预备知识

形式上，我们将患者 $i \in \{1, \dots, N_{p}\}$ 的纵向 EHR 表示为时间戳事件的序列 $\mathbf{E}^{(i)} = \{e^{(i)}_{j}\}_{j=1}^{T^{(i)}}$。每个事件定义为元组 $e^{(i)}_{j} = (c^{(i)}_{j}, o^{(i)}_{j}, t^{(i)}_{j})$，包括临床概念 $c^{(i)}_{j} \in \mathcal{C}$（例如，诊断、药物代码）、观察值 $o^{(i)}_{j} \in \mathcal{O}$（例如，实验室结果）和时间戳 $t^{(i)}_{j} \in \mathbb{R}$。该序列按时间顺序排列，使得 $t^{(i)}_{j} \leq t^{(i)}_{j+1}$，允许在相同时间戳发生多个事件。

从词元到词元对：临床预测中大语言模型的提示高效压缩

相似文章

PromptNCE: 仅使用大语言模型和对比估计提示的点互信息预测

Compute Optimal Tokenization (2分钟阅读)

大型语言模型能否模仿人类语音进行临床评估？基于LLM的数据增强方法用于认知评分预测

基于门控关联检索的通用三重潜在压缩

Token 最大化

提交意见反馈