从词元到词元对:临床预测中大语言模型的提示高效压缩
摘要
本文介绍了 MedTPE,一种针对大语言模型电子健康记录的高效无损提示压缩方法,可显著降低临床预测任务中的词元长度和推理延迟。
arXiv:2605.11774v1 宣布类型:新
摘要:通过将电子健康记录(EHR)作为自然语言序列进行处理,大语言模型(LLM)在临床预测任务(如死亡率预测和表型分析)中展现了潜力。然而,纵向或高频次的 EHR 往往会产生过长的词元序列,导致高昂的计算成本甚至性能下降。现有解决方案要么添加压缩模块,要么移除不太重要的词元,这都会引入额外的推理延迟或面临丢失临床信息的风险。为了在不增加成本或不损失性能的情况下实现词元序列的无损压缩,我们提出了医疗词元对编码(MedTPE),这是一种扩展 EHR 序列标准分词的分层方法。MedTPE 将频繁共现的医疗词元对合并为复合词元,通过依赖感知替换策略在提供无损压缩的同时保持计算复杂度。仅通过自监督学习微调新引入词元的嵌入,这些词元仅占 LLM 参数的 0.5% 至 1.0%。在两个临床场景的真实世界数据集上的实验表明,MedTPE 将输入词元长度减少了高达 31%,推理延迟降低了 34% 至 63%,同时在多个 LLM 和四项临床预测任务中保持甚至提升了预测性能和输出格式合规性。此外,MedTPE 在不同的输入上下文长度下表现出鲁棒性,并具备向科学和金融领域以及不同语言的泛化能力。
查看缓存全文
缓存时间: 2026/05/13 06:18
# 从 Token 到 Token 对:大型语言模型在临床预测中的高效提示压缩
来源: https://arxiv.org/html/2605.11774
###### 摘要
通过将电子健康记录(EHRs)作为自然语言序列处理,大型语言模型(LLMs)在死亡率预测和表型分类等临床预测任务中展现了潜力。然而,纵向或高频的 EHRs 往往会产生过长的 token 序列,导致高昂的计算成本,甚至降低性能。现有解决方案要么添加压缩模块,要么移除不重要的 token,这会引入额外的推理延迟或面临丢失临床信息的风险。为了实现 token 序列的无损压缩,且无需额外成本或性能损失,我们提出了 Medical Token-Pair Encoding (MedTPE),这是一种扩展了标准 EHR 序列标记化方法的分层方法。MedTPE 将经常共现的医学 token 对合并为复合 token,通过依赖感知替换策略在保持计算复杂度的同时提供无损压缩。仅通过自监督学习微调新引入的 token 的嵌入,这些嵌入仅占 LLM 参数的 0.5%-1.0%。在两个临床场景的真实世界数据集上的实验表明,MedTPE 将输入 token 长度减少了高达 31%,推理延迟减少了 34%-63%,同时在多个 LLM 和四项临床预测任务中保持甚至提高了预测性能和输出格式合规性。此外,MedTPE 在不同的输入上下文长度下表现出鲁棒性,并泛化到科学和财务领域以及不同的语言。代码可在 GitHub 仓库中找到 (https://github.com/JasonZuu/MedTPE)。
机器学习, ICML
**图 1**: 基于 LLM 的临床预测示意图。
## 1 引言
电子健康记录(EHRs)记录了临床事件的纵向时间线,包括诊断、出院小结、实验室结果、生命体征、药物和治疗过程 (Theodorou et al., 2023 (https://arxiv.org/html/2605.11774#bib.bib32))。通过将这些临床事件转换为自然语言序列,大型语言模型(LLMs)能够捕捉整个临床轨迹中的时间和上下文模式,从而支持医疗系统中的患者护理和决策制定 (Lee et al., 2020 (https://arxiv.org/html/2605.11774#bib.bib18); Zhu et al., 2026 (https://arxiv.org/html/2605.11774#bib.bib68))。最近的研究报道,LLMs 可以在零样本设置下执行一系列临床预测任务,并产生人类可读的解释,例如死亡率预测和表型分类 (Renc et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib12); Cui et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib20); Williams et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib19))。具体而言,这种范式将文本形式的 EHR 序列与特定任务的提示相结合,允许 LLM 生成预测和自由文本解释。如图 1 (https://arxiv.org/html/2605.11774#S0.F1) 所示,这为预测性能和可解释性提供了有希望的解决方案。
尽管基于 LLM 的临床预测前景广阔,但纵向医疗记录的转换往往产生超出大多数预训练 LLM 上下文窗口限制的 token 序列 (Wornow et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib21))。例如,即使在重症监护室(ICU)的一次住院,由于临床事件的高频率,也可能导致长度超过 64,000 的 token 序列 (Fleming et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib2))。如此冗长的序列会导致计算需求增加、推理速度变慢,并限制上下文长度和测试时扩展策略的可行性,而这些策略本可以提高 LLM 的临床预测性能。这种低效率源于广泛使用的标记化算法,如 Byte-Pair Encoding (BPE)、WordPiece 和 SentencePiece (Sennrich et al., 2016 (https://arxiv.org/html/2605.11774#bib.bib6); Song et al., 2021 (https://arxiv.org/html/2605.11774#bib.bib7); Kudo and Richardson, 2018 (https://arxiv.org/html/2605.11774#bib.bib8)),最初是为通用语言建模优化的,并不适合临床文本的复杂和专业词汇。结果,医学术语被分割成多个子词 token,不必要地延长了序列长度和计算量 (Yu, 2025 (https://arxiv.org/html/2605.11774#bib.bib22))。例如,标准标记器将单个临床概念“Spirometry”(肺功能检查)分割成三个单独的 token [Spi, rom, etry],而不是将其作为一个统一的术语处理。
为了解决 EHR 中长 token 序列的挑战,已经提出了几种方法,但每种方法在临床环境中都有明显的局限性。一种方法是从医学语料库开发医学专用词汇表,这有助于避免过度碎片化的 token (Bolton et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib10); Kim et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib11); Renc et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib12))。然而,这种方法需要资源密集型的整个 LLM 重新训练,并可能损害预训练 LLM 的核心能力。基于移除的压缩方法,即从输入中丢弃不太重要的 token,不需要模型重新训练,但面临遗漏临床重要信息的风险 (Liskavetz et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib34); Jiang et al., 2023 (https://arxiv.org/html/2605.11774#bib.bib35); Pan et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib36))。基于合并的压缩方法,即在推理期间动态合并医学 token,能够实现无损提示压缩,但通常引入额外的参数或模块,从而增加推理延迟和模型复杂度 (Nakash et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib23); Han et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib24); Harville et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib33))。因此,仍然需要一种医学标记化方法,以实现无损压缩,保持与预训练 LLM 的兼容性,且不增加额外的空间或计算开销。
为了解决现有压缩方法在临床环境中的局限性,我们提出了医学 token 对编码 (MedTPE),如图 2 (https://arxiv.org/html/2605.11774#S2.F2) 所示。具体而言,MedTPE 分三步操作,以实现 EHR 中 token 序列的高效无损压缩。首先,它从 EHR 序列中发现并合并经常共现的 token 对,创建专为医学文本定制的 TPE token。接下来,MedTPE 采用依赖感知替换策略,用最常见的 TPE token 替换预训练 LLM 词汇表中约 3% 的最不常见的原始 token。该策略在保留原始标记化过程完整性的同时,保持原始词汇表大小和模型参数,保留了与标准标记化方法相同的计算复杂度。最后,仅通过自监督学习微调新 TPE token 的嵌入,而所有其他模型参数保持固定。通过设计,MedTPE 提高了每个 token 的信息密度,允许在模型的固定上下文约束内更紧凑地表示 EHR 序列。总体而言,MedTPE 提供了高效且无损的压缩,无缝集成到预训练 LLM 中,提高了 LLM 在临床预测任务中的推理效率。
我们的主要贡献如下:
* **面向临床预测的标记化驱动压缩。** 我们首次通过优化标记化过程,解决了基于 LLM 的临床预测中 EHR 长 token 序列的挑战。所提出的方法实现了 EHR 序列的无损压缩,提高了不同标记器和 LLM 骨干网络在临床预测中的效率。
* **高效且无标签的标记化。** MedTPE 通过依赖感知替换保持原始标记化规则,从而保留标准标记化的计算复杂度。此外,它通过自监督学习微调新 token 的嵌入,实现了嵌入对齐,无需任何标记数据。
* **无损压缩。** MedTPE 在高度频繁和异构的 ICU 场景以及长且稀疏的纵向护理的临床任务中,实现了实质性压缩,同时保持甚至提高了预测性能。除了超越最先进的压缩策略外,MedTPE 在不同上下文长度下表现出鲁棒性,并在临床叙述、科学推理和财务摘要中表现出强大的泛化能力。
## 2 相关工作
#### 基于 LLM 的 EHR 预测
最近的研究利用 LLM 基于 EHR 进行临床预测 (Chen et al., 2024a (https://arxiv.org/html/2605.11774#bib.bib1); Fleming et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib2); Niu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib3); Wu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib4))。EHR-KnowGen (Niu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib3)) 从 EHR 序列中提取有针对性的医学事件和实验室结果子集,将其呈现为叙述性摘要输入 LLM。ClinicalBench (Chen et al., 2024a (https://arxiv.org/html/2605.11774#bib.bib1)) 将诊断、程序和药物代码转换为描述性句子,以丰富模型可用的临床上下文。同样,Llemr (Wu et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib4)) 将整个 EHR 事件集转换为描述性句子,在传递给 LLM 之前使用 ClinicalBERT (Alsentzer et al., 2019 (https://arxiv.org/html/2605.11774#bib.bib5)) 对这些事件进行嵌入。此外,MedAlign (Fleming et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib2)) 将完整的患者事件历史转换为 XML 格式的文本作为 LLM 输入。尽管取得了成功,但这些方法面临 token 序列过长的挑战,它们通过省略部分临床事件(有丢失重要信息的风险)或采用增加模型复杂度的混合编码方案来解决。
#### 标记化和压缩策略
现代 LLM 通常使用子词标记化方法,使用固定大小的词汇表来表示罕见或词表外的单词,例如 BPE (Sennrich et al., 2016 (https://arxiv.org/html/2605.11774#bib.bib6))、WordPiece (Song et al., 2021 (https://arxiv.org/html/2605.11774#bib.bib7)) 和 SentencePiece (Kudo and Richardson, 2018 (https://arxiv.org/html/2605.11774#bib.bib8))。BPE 迭代地将频繁相邻的字符合并为子词 token。WordPiece 基于语言模型的可预测性优化合并,而 SentencePiece 通过迭代概率修剪选择 token。尽管对于通用文本有效,但这些标记器往往过度分割专业的医学术语,导致更长的 token 序列、更高的计算成本和降低的语义凝聚力 (Hasan et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib9))。
为了解决这个问题,提出了提示压缩方法来减少输入序列长度,通常分为两类:基于移除的和基于合并的。基于移除的方法评估单个 token 或句子的重要性,并选择性地移除输入序列中被认为相关性较低的 token。具体而言,LLMLingua (Jiang et al., 2023 (https://arxiv.org/html/2605.11774#bib.bib35)) 和 LLMLingua2 (Pan et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib36)) 通过估计 token 重要性并丢弃排名较低的 token 来实现 token 级压缩。相比之下,CPC (Liskavetz et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib34)) 在句子级别操作,测量每个上下文句子与查询之间的语义相关性,随后仅保留与给定问题最相关的句子。然而,这些方法存在丢弃对临床保真度至关重要的诊断细微差别的风险,可能会损害临床预测的性能。
相反,基于合并的方法通过聚合频繁共现的单位来创建特定领域的 token。例如,AdaptiVocab (Nakash et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib23)) 在推理期间动态地用特定领域的 token 替换不太有用的 token,从而增加计算复杂度。名为 LTSC 的 meta-token 方法 (Harville et al., 2025 (https://arxiv.org/html/2605.11774#bib.bib33)) 用单个 meta-token 替换共现的 token,也需要动态的推理时替换。这两种方法都需要使用标记数据对新引入的嵌入进行有监督对齐,以确保模型在目标领域内保持有效。同样,ZeTT (Minixhofer et al., 2024 (https://arxiv.org/html/2605.11774#bib.bib52)) 使用超网络通过从其原始组成子 token 中聚合信息来为新 token 生成嵌入,从而扩展了原始词汇表和嵌入空间。相比之下,我们的方法保持原始词汇表大小和模型参数数量,保留原始标记化的计算复杂度,并使用自监督学习消除了对标记数据的需求。更多信息见表 1 (https://arxiv.org/html/2605.11774#S2.T1)。
**表 1**: 提示压缩方法总结,描述了实现无损压缩和无标签训练、保持原始词汇表大小和参数数量以及其标记化复杂度(其中 $n$ 是序列长度)的方法。
**图 2**: MedTPE 标记化及其与 LLM 集成的概述。(a) Token 对编码:MedTPE 在医学语料库中识别频繁共现的对,形成统一的 TPE token。(b) 依赖感知替换:通过用高价值医学 token 替换低效用的通用 token(例如,用“Spirometry”替换“Cat”)来优化词汇表,同时严格保留所有依赖的子 token 以保持原始标记化逻辑。(c) 自监督微调 (SSFT):原始 LLM 处理输入(“Incentive Spirometry”)以生成伪标签。这些标签监督**仅**新 TPE token 嵌入的微调,将它们与预训练潜在空间对齐,同时模型的其他部分保持冻结。
## 3 预备知识
形式上,我们将患者 $i \in \{1, \dots, N_{p}\}$ 的纵向 EHR 表示为时间戳事件的序列 $\mathbf{E}^{(i)} = \{e^{(i)}_{j}\}_{j=1}^{T^{(i)}}$。每个事件定义为元组 $e^{(i)}_{j} = (c^{(i)}_{j}, o^{(i)}_{j}, t^{(i)}_{j})$,包括临床概念 $c^{(i)}_{j} \in \mathcal{C}$(例如,诊断、药物代码)、观察值 $o^{(i)}_{j} \in \mathcal{O}$(例如,实验室结果)和时间戳 $t^{(i)}_{j} \in \mathbb{R}$。该序列按时间顺序排列,使得 $t^{(i)}_{j} \leq t^{(i)}_{j+1}$,允许在相同时间戳发生多个事件。相似文章
PromptNCE: 仅使用大语言模型和对比估计提示的点互信息预测
本文介绍了PromptNCE,一种使用大语言模型和对比提示来零样本估计点互信息的方法,在三个数据集上实现了与人类标注真实值的高度相关性。
Compute Optimal Tokenization (2分钟阅读)
本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。
大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测
本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。
基于门控关联检索的通用三重潜在压缩
本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。
Token 最大化
讨论在大型语言模型中最大化 Token 使用以提高效率和输出质量的策略与技术。