LATTE: 预测同侪锚定的偏好轨迹以实现个性化LLM生成

arXiv cs.CL 论文

摘要

Latte 提出了一种框架,将个性化表示为通过潜在轨迹预测同侪锚定的相对偏好状态,并向冻结的LLM注入一个软令牌以实现个性化生成。在Amazon Reviews 2023和MemoryCD数据集上,它优于现有的个性化方法。

arXiv:2605.26612v1 公告类型:新 摘要:使用冻结的大语言模型进行个性化生成需要一个既紧凑又即时的条件信号。现有的个性化方法通常以文本形式检索或汇总用户历史,或将它们压缩为静态潜在轮廓和软提示。这些方法效率高,但它们将用户过去的行为视为一个聚合轮廓,从而将稳定的身份、最近的漂移和物品内容混合在同一表示中。我们提出潜在轨迹跟踪与外推(LATTE)框架,该框架将个性化表示为预测同侪锚定的相对偏好状态。对于每个历史会话,LATTE 减去一个由对同一物品有反应的可比用户构成的时间掩蔽基线,从而生成一个状态,度量目标用户在共享物品上下文中与同侪的差异。然后,一个轻量级序列预测器预测该轨迹中的下一个状态,而状态到令牌桥通过一个单一锚定软令牌将预测注入到冻结的指令微调LLM中。我们提供潜在因子分析,展示同侪锚定何时消除共享物品变化,以及为什么时间预测需要在陈旧平均值与有噪声的近期状态之间权衡。在Amazon Reviews 2023和MemoryCD上的实验表明,LATTE 始终优于检索、摘要记忆、静态潜在轮廓、差异感知潜在轮廓和软提示压缩基线。在Amazon Reviews 2023上,LATTE 将平均ROUGE-L从静态潜在轮廓的0.219和最强追加潜在压缩基线的0.245提高到0.259。额外的成对比较和诊断分析表明,改进主要源于预测用户特定的轨迹信息,而不仅仅是增加一个软提示接口。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:07

# Latte:预测同伴锚定偏好轨迹以实现个性化大语言模型生成

来源:https://arxiv.org/html/2605.26612

Jinze Li¹, Xiaoyan Yang², Shuo Yang¹, Jinfeng Xu¹, Yue Shen², Jian Wang², Jinjie Gu², Edith Cheuk‑Han Ngai¹,†

¹香港大学
²蚂蚁集团·蚂蚁健康

†通讯作者

###### 摘要

使用冻结的大语言模型进行个性化生成,需要一个既紧凑又最新的条件信号。现有的个性化方法通常以文本形式检索或总结用户历史,或将其压缩为静态潜在画像和软提示。这些方法很高效,但将用户过去的行为视为聚合画像,从而将稳定的身份、近期的漂移和物品内容混合在同一表示中。我们提出**潜在轨迹跟踪与推演**(Latte),一个将个性化表示为预测同伴锚定相对偏好状态的框架。对于每个历史会话,Latte 减去由对同一物品做出回应的可比用户构成的时间掩码基线,产生一个状态,该状态衡量目标用户在与同伴共享物品上下文时的差异。然后,一个轻量级序列预测器预测该轨迹中的下一个状态,而状态到令牌桥通过单个锚定软令牌将预测注入冻结的指令微调大语言模型。我们提供潜在因子分析,展示同伴锚定如何抵消共享物品变异性,以及为什么时间预测会在过时平均值与嘈杂近期状态之间进行权衡。在 Amazon Reviews 2023 和 MemoryCD 上的实验表明,Latte 始终优于检索、摘要记忆、静态潜在画像、差异感知潜在画像和软提示压缩基线。在 Amazon Reviews 2023 上,Latte 将平均 ROUGE-L 从静态潜在画像的 0.219 和最强额外潜在压缩基线的 0.245 提升至 0.259。额外的成对比较和诊断分析表明,改进主要源于预测用户特定的轨迹信息,而不仅仅是添加了软提示接口。

## 1 引言

大语言模型 (LLMs) [Dubey et al., 2024](https://arxiv.org/html/2605.26612#bib.bib36) 越来越多地用于相同输入应针对不同用户产生不同输出的场景。一个评论助手应反映用户的写作风格。一个推荐解释应强调用户关心的标准。一个长期运行的对话代理应随着用户在多个会话中改变目标、语气或兴趣而适应。这些场景为个性化生成提出了一个基本问题。当冻结的大语言模型在特定时刻为特定用户生成时,它应该以什么为条件?大多数现有系统通过用户画像来回答这个问题。基于提示的方法检索或总结先前的交互,并将生成的文本置于上下文中 [Salemi et al., 2024b](https://arxiv.org/html/2605.26612#bib.bib6); [Kumar et al., 2024](https://arxiv.org/html/2605.26612#bib.bib7); [Mysore et al., 2023](https://arxiv.org/html/2605.26612#bib.bib8); [Salemi et al., 2024a](https://arxiv.org/html/2605.26612#bib.bib11)。潜在方法将历史压缩成嵌入、引导方向、用户模块或一组小的软提示向量 [Qiu et al., 2025a](https://arxiv.org/html/2605.26612#bib.bib1), [b](https://arxiv.org/html/2605.26612#bib.bib2); [Hebert and others, 2024](https://arxiv.org/html/2605.26612#bib.bib3); [Liu and others, 2024](https://arxiv.org/html/2605.26612#bib.bib4); [Ning et al., 2024](https://arxiv.org/html/2605.26612#bib.bib5)。这些方法紧凑且通常有效,但它们通常将用户视为静态对象。它们将过去的行为聚合成一个表示,并用于未来的生成。静态聚合是有限制的,因为相关的用户信号往往具有时间性。一个评论者可能经过多年简短印象后变得更专业。一个读者可能从类型小说转向文学批评。一个对话用户可能在多个会话中修改约束。在这些情况下,有用的信号不仅仅是用户平均偏好的内容,还有用户目前似乎所处的位置。这种区别对于冻结的大语言模型个性化尤为重要,因为模型通常仅凭目标元数据就能生成流畅且与物品相关的文本。一个过时或被内容主导的画像因此可能看起来合理,但未能匹配用户当前的行为。

本文将个性化生成作为潜在状态预测来研究。我们不是将完整历史压缩成单个画像,而是构建一系列相对偏好状态,并预测应该条件化下一次生成的状态。这种观点将静态画像合并的三个问题分开。首先,每个历史回应应转换为一个跨不同物品可比较的状态。其次,当前状态应从有序轨迹中预测,而不是通过无序平均估计。第三,预测状态应注入冻结的大语言模型,而无需添加用户特定参数。我们提出**潜在轨迹跟踪与推演**(Latte)。对于每个历史会话,Latte 从在目标时间戳之前对同一物品做出回应的可比用户中形成一个时间掩码同伴基线。它从目标用户的回应嵌入中减去该基线并对残差进行归一化。得到的向量是同伴锚定相对状态。它询问用户在同一物品上下文中相对于相似同伴如何回应,这在进行时间建模之前减少了共享物品变异性。给定同伴锚定状态序列,Latte 训练一个轻量级预测器,以直接回归目标预测下一个状态。这将状态预测与语言建模损失解耦。这种分离是有用的,因为仅凭生成损失可能允许条件向量坍缩为低秩捷径,而冻结的大语言模型则依赖物品元数据。预测之后,状态到令牌桥将预测状态映射到冻结大语言模型的令牌嵌入空间。在推理时,桥替换一个占位令牌,而自然语言锚点告诉模型如何解释注入的状态。

我们在 Amazon Reviews 2023 和 MemoryCD 上评估 Latte,与检索、摘要记忆、静态潜在画像、近期和时间衰减潜在画像、类似 DEP 的差异感知静态画像以及类似 PERSOMA 的软提示压缩基线进行比较。因此,最强的比较不仅针对简单静态画像,还包括潜在压缩和差异感知用户建模。在数据集上,Latte 改进了词汇重叠和历史感知偏好判断。在 Amazon Reviews 2023 上,它将平均 ROUGE-L 从最强额外潜在压缩基线的 .245 提升至 .259。偏好保真度指标、同伴泄露控制、自举区间和坍缩诊断表明,收益来自于预测用户特定的轨迹信息,而不仅仅是软提示槽本身。

我们的贡献如下。

- • 我们将冻结大语言模型个性化表述为预测同伴锚定相对偏好状态,将用户历史从静态画像转变为时间有序的潜在轨迹。
- • 我们引入 Latte,一个模块化框架,构建同一物品同伴残差状态,使用轻量级序列模型预测下一个状态,并通过一个锚定软令牌将预测注入冻结的大语言模型。
- • 我们提供分析和经验证据,表明同伴锚定减少了共享物品变异性,轨迹预测优于静态潜在压缩,且观察到的收益不能被同伴泄露、桥不匹配或表示坍缩所解释。

## 2 相关工作

**个性化生成与检索画像。** 基于提示的个性化通过用户历史、检索示例或文本总结来条件化大语言模型。LaMP [Salemi et al., 2024b](https://arxiv.org/html/2605.26612#bib.bib6)、LongLaMP [Kumar et al., 2024](https://arxiv.org/html/2605.26612#bib.bib7)、PEARL [Mysore et al., 2023](https://arxiv.org/html/2605.26612#bib.bib8) 和检索优化方法 [Salemi et al., 2024a](https://arxiv.org/html/2605.26612#bib.bib11) 将检索确立为强基线。最近的基准使评估更加严苛。PersonalLLM 大规模研究个体偏好变异 [Zollo et al., 2025](https://arxiv.org/html/2605.26612#bib.bib38)。PrefEval 评估大语言模型在长时间多会话对话中是否推断并遵循用户偏好 [Zhao et al., 2025](https://arxiv.org/html/2605.26612#bib.bib17)。HYDRA 将黑盒个性化分解为检索历史中的共享和用户特定组件 [Zhuang et al., 2024](https://arxiv.org/html/2605.26612#bib.bib39)。这些工作激励了我们使用检索和历史感知评估。Latte 的不同之处在于用预测的潜在状态替换检索或总结的文本。

**潜在个性化。** 潜在方法将用户信息压缩成嵌入、软提示、引导向量或用户模块。PERSOMA 将广泛历史压缩成软提示嵌入 [Hebert and others, 2024](https://arxiv.org/html/2605.26612#bib.bib3)。PPlug 和 User-LLM 引入插件式用户画像表示 [Liu and others, 2024](https://arxiv.org/html/2605.26612#bib.bib4); [Ning et al., 2024](https://arxiv.org/html/2605.26612#bib.bib5)。DEP 和 DPL 表明用户间差异对个性化有用 [Qiu et al., 2025a](https://arxiv.org/html/2605.26612#bib.bib1), [b](https://arxiv.org/html/2605.26612#bib.bib2)。个性化引导向量和参数高效适应提供了替代的潜在控制机制 [Cao et al., 2024](https://arxiv.org/html/2605.26612#bib.bib40); [Tan et al., 2024](https://arxiv.org/html/2605.26612#bib.bib22)。这条工作线与我们最接近。我们使用相同的核心见解:相对信号可能比仅用户信号更具信息量。关键区别在于时间性。DEP 和 DPL 从选定或聚合的历史构建静态差异感知表示。Latte 构建同伴锚定状态序列,并在生成前预测下一个状态。我们的 DEP 风格基线使用相同的同伴锚定状态但将它们平均,这隔离了轨迹预测的贡献。

**长时记忆。** 长时记忆基准如 LoCoMo [Maharana et al., 2024](https://arxiv.org/html/2605.26612#bib.bib12)、LongMemEval [Wu et al., 2025](https://arxiv.org/html/2605.26612#bib.bib13)、PersonaMem [Jiang et al., 2025](https://arxiv.org/html/2605.26612#bib.bib14)、PerLTQA [Du et al., 2024](https://arxiv.org/html/2605.26612#bib.bib15)、PrefEval [Zhao et al., 2025](https://arxiv.org/html/2605.26612#bib.bib17) 和 MemoryCD [Zhang et al., 2026](https://arxiv.org/html/2605.26612#bib.bib16) 记录了长上下文和基于检索的个性化的失败。记忆架构存储隐藏状态、键值记忆或检索块,如 Memorizing Transformers [Wu et al., 2022](https://arxiv.org/html/2605.26612#bib.bib43)、Recurrent Memory Transformer [Bulatov et al., 2022](https://arxiv.org/html/2605.26612#bib.bib44)、RETRO [Borgeaud et al., 2022](https://arxiv.org/html/2605.26612#bib.bib45) 和 MEMORYLLM [Wang et al., 2024](https://arxiv.org/html/2605.26612#bib.bib42)。Latte 解决了一个互补的瓶颈。它不是存储更多文本或激活,而是学习一个可以通过一个令牌注入的紧致当前偏好状态。

**序列用户建模。** 序列推荐使用循环、注意力、双向、扩散和实例自适应架构对演化用户行为建模 [Hidasi et al., 2016](https://arxiv.org/html/2605.26612#bib.bib23); [Kang and McAuley, 2018](https://arxiv.org/html/2605.26612#bib.bib24); [Sun et al., 2019](https://arxiv.org/html/2605.26612#bib.bib25); [Yang et al., 2023](https://arxiv.org/html/2605.26612#bib.bib46); [Kong et al., 2024](https://arxiv.org/html/2605.26612#bib.bib41)。时间序列预测研究使用分解 Transformers、频率模型、分块和任务通用时间骨干的长程预测 [Wu et al., 2021](https://arxiv.org/html/2605.26612#bib.bib47); [Zhou et al., 2022](https://arxiv.org/html/2605.26612#bib.bib48); [Nie et al., 2023](https://arxiv.org/html/2605.26612#bib.bib29); [Wu et al., 2023](https://arxiv.org/html/2605.26612#bib.bib49); [Zeng et al., 2023](https://arxiv.org/html/2605.26612#bib.bib28)。我们借鉴了轨迹观点,但预测的对象不是下一个物品,也不是标量时间序列。它是用于条件化冻结语言模型的同伴归一化潜在状态。

## 3 方法

参见图注

图1:LATTE 预测同伴锚定偏好轨迹以实现个性化生成。顶部:静态潜在画像将用户历史聚合成一个向量,可能错过近期偏好漂移,而 LATTE 预测用户的当前偏好状态。底部:LATTE 首先从历史会话构建同伴锚定相对状态,然后使用轨迹预测器预测当前状态,最后通过状态到令牌桥将预测注入冻结的大语言模型。

Latte 包含三个阶段。阶段 1 为每个历史会话构建一个同伴锚定相对状态。阶段 2 训练一个预测器从观察到的轨迹预测下一个状态。阶段 3 通过状态到令牌桥将预测映射到冻结大语言模型的隐藏维度,并将其作为单个锚定软提示令牌注入。这些阶段分别训练,这使得表示目标、预测器和桥模块可独立测试。

### 3.1 预备知识

**动态个性化设定。** 用户 \( u \) 有一个按时间顺序的历史 \( \mathcal{H}_{u,T-1} = \{ (i_1, u_1, \tau_1), \ldots, (i_{T-1}, u_{T-1}, \tau_{T-1}) \} \),其中 \( i_t \) 是一个物品或上下文,\( u_t \) 是用户的文本回应,\( \tau_t \) 是时间戳。在时间 \( T \) 时,模型接收到物品 \( i_T \) 的目标元数据 \( x_T \),必须生成用户当前风格和偏好状态下的 \( y_T \)。我们使用时间分裂进行训练和评估,后期回应从不用于构建早期历史。

**编码器和基础模型。** 令 \( \mathrm{enc}(\cdot) \) 是一个冻结的句子编码器,将文本映射到 \( d \) 维单位范数嵌入。我们使用 bge-m3 [Chen et al., 2024](https://arxiv.org/html/2605.26612#bib.bib35),\( d=1024 \)。基础生成器是一个冻结的指令微调大语言模型 \( \mathcal{M} \),带有令牌嵌入矩阵 \( E \in \mathbb{R}^{|V| \times h} \)。个性化通过添加一个占位令牌 `[PREF_TOKEN]` 并在运行时替换其嵌入来实现。所有大语言模型权重保持冻结。

**静态潜在画像。** 标准潜在画像将历史压缩成单个向量
\[
\boldsymbol{\pi}(u) = A\big( \mathrm{enc}(u_1), \ldots, \mathrm{enc}(u_{T-1}) \big), \tag{1}
\]
其中 \( A \) 可以是均值池化、注意力池化或学习编码器 [Qiu et al., 2025a](https://arxiv.org/html/2605.26612#bib.bib1); [Hebert and others, 2024](https://arxiv.org/html/2605.26612#bib.bib3)。Latte 将此静态对象替换为序列 \( \mathbf{p}_1(u), \ldots, \mathbf{p}_{T-1}(u) \) 和一个预测 \( \hat{\mathbf{p}}_T(u) \)。

**符号。** 我们记 \( \tilde{\mathbf{p}}_t(u) \) 为未归一化的同伴锚定残差,\( \mathbf{p}_t(u) \in \mathbb{R}^d \) 为其归一化状态,\( \bar{q} \)

相似文章

PersonaVLM:长期个性化多模态大语言模型

Hugging Face Daily Papers

PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。

在LLM个性化中重新聚焦人类

arXiv cs.CL

本文研究了在评估LLM个性化的三个阶段(属性提取、相关性匹配和响应生成)中,合成数据与人类数据之间的差距。结果表明,模型在真实人类数据上表现更差,作者引入了轻量级训练干预措施以改善对齐。