基于大型语言模型的生成式推荐中的隐式推理

arXiv cs.CL 2026/06/15 04:00 论文

llm generative-recommendation implicit-reasoning pauserec semantic-ids efficient-training chain-of-thought

摘要

本文提出PauseRec，一种用于基于LLM的生成式推荐的轻量级隐式推理范式，其性能优于显式思维链方法，同时显著降低训练和推理成本。

arXiv:2606.14142v1 公告类型：新摘要：大型语言模型（LLM）越来越多地被用作生成式推荐（GR）的骨干，有望利用预训练的世界知识。然而，如何可靠地调用这些知识进行GR仍未被充分理解。一个关键障碍在于，基于LLM的GR通常使用语义ID（SID）表示物品，这破坏了LLM的自然语言推理接口，因为这些标记在LLM预训练期间未曾见过。现有方法通过昂贵的多阶段流程来解决这一问题，这些流程将SID具体化并引发显式推理，但未能深入解释每个阶段何时以及为何必要。在这项工作中，我们系统地分解了基于LLM的GR的显式推理训练流程，揭示了三个关键限制：弱化的世界知识表达、SID与自然语言标记嵌入空间之间的错位，以及对推理质量的高度敏感性，这些都会损害显式推理的性能。为规避这些问题，我们提出了PauseRec，一种专为GR定制的轻量级隐式推理范式。PauseRec非常实用，避免了昂贵的推理轨迹获取和推理对齐训练，带来了诸多优势：（1）其性能优于标准显式CoT方法高达6.22%；（2）训练成本降低高达65%的GPU小时；（3）推理速度提升高达71.3%。这些结果使PauseRec成为显式推理生成的轻量级替代方案，能够实现更有效且高效的基于LLM的GR。

查看原文

查看缓存全文

缓存时间: 2026/06/15 08:57

# 面向大语言模型生成式推荐的内隐推理

来源：https://arxiv.org/html/2606.14142

###### 摘要

大型语言模型（LLMs）正越来越多地被用作生成式推荐（GR）的骨干网络，有望提供预训练的世界知识。然而，如何可靠地调用这些知识用于GR仍然不清楚。一个关键障碍是，基于LLM的GR通常使用语义ID（SID）来表示物品，这破坏了LLM的自然语言推理接口，因为这些标记在预训练期间对LLM是未知的。现有方法通过昂贵的多阶段流水线来解决这个问题，这些流水线将SID进行接地并生成显式推理链，但对每个阶段何时以及为何必要提供的见解有限。在本工作中，我们系统地分解了基于LLM的GR的显式推理训练流水线，揭示了三个关键局限：弱化的世界知识语言化、SID与自然语言标记嵌入空间之间的错位，以及对推理链质量的敏感性——这些都会损害显式推理性能。为了规避这些问题，我们提出了PauseRec，一种为GR量身定制的轻量级内隐推理范式。PauseRec非常实用，避免了昂贵的推理轨迹获取和推理对齐训练，从而带来了多重好处：(1) 性能比标准的显式思维链方法提升高达6.22%，(2) 训练成本降低高达65%的GPU小时，(3) 推理速度提升高达71.3%。这些结果使PauseRec成为显式推理链生成的轻量级替代方案，能够实现更有效、更高效的基于LLM的GR¹。

¹此工作完成于Yinhan He在Snap Inc.担任研究实习生期间。

... 

# 面向大语言模型生成式推荐的内隐推理

## 1 引言

大型语言模型（LLMs）最近被采用作为生成式推荐（GR）的骨干网络，实现了基于LLM的GR系统，将推荐视为条件生成：LLM读取用户历史并生成下一个物品（Hua等人，2023；Bao等人，2023；Rajput等人，2024）。LLMs在GR中的吸引力在于其预训练的世界知识（Zhao等人，2023；Huang和Chang，2023；Yu等人，2024）。原则上，这些知识有助于推断历史物品之间的语义关系，识别用户的潜在意图，并将该意图映射到超出记忆共现的合理下一物品（Wang等人，2025；Zhang等人，2025）。然而，高效且有效地访问LLMs预训练知识用于GR的过程仍然不明确（Zhang等人，2026）。利用LLM世界知识进行GR的关键障碍在于物品表示。具体来说，基于LLM的GR系统通常使用语义ID（SID）来表示物品，即从物品语义关系中导出的短序列特殊标记（Rajput等人，2023）。SID因其紧凑性使得物品生成变得可行，但它们并非自然语言表达，且位于预训练LLM词汇表之外（Li等人，2021）。这造成了不匹配：LLMs通过自然语言访问世界知识，而推荐任务是根据其他非语言SID生成非语言的SID。因此我们问：如何有效利用预训练的LLM世界知识来改进基于SID标记的推荐？

遵循更广泛的LLM文献（Yu等人，2024；Petroni等人，2019），这个问题的自然答案之一是利用显式的思维链（CoT）推理²。显式CoT已被证明可以提升LLM在多个知识密集型领域的性能，包括数学（Imani等人，2023）、科学（Trun等人，2023）和编程（Jiang等人，2026）。对于基于LLM的GR，先前的方法通过多步训练流水线追求类似的目标。这些流水线通常通过持续预训练（CPT）在自然语言物品描述上对LLM进行SID接地，通过有监督微调（SFT）优化下一物品预测，通过推理轨迹上的SFT（我们称之为CoT SFT）引出显式推理链，并通过强化学习（RL）后训练优化模型响应（Liu等人，2025；Yu等人，2025；Liang等人，2026）。然而，现有工作对这些阶段何时必要以及为何有帮助提供的见解有限。考虑到每个阶段的高计算成本，理解这些问题对于证明完整工作流程的合理性以及确定更高效的替代方案至关重要。

²在本工作中，我们使用“推理”和“推理链”来指代LLM的思维链（CoT）过程，即LLM在生成最终答案之前生成的中间、逐步的轨迹（Wei等人，2022）。

图1：基于SID的GR中显式CoT的三个已识别局限。CoT SFT削弱了世界知识的语言化（左），分离了自然语言和SID嵌入空间（中），并使推荐质量对推理链扰动敏感（右），这激发了语言推理链的内隐替代方案。

为了解决这一空白，我们首先分析基于LLM的GR的显式推理流水线，检查每个阶段的贡献和必要性。我们从CPT阶段开始，发现经过CPT训练的模型可以恢复粗略的物品类别，但常常难以识别标题或细粒度类别，表明接地提供了真实但不完整的语义信号。然后我们测试带有各种推理格式的CoT SFT，包括基于模板的推理和教师生成的推理，是否能提升推荐性能。在这些变体中，CoT SFT始终不如简单的下一物品SFT。显式CoT的性能提升仅在昂贵的RL后训练后才出现。为了解释这一差异，我们识别出显式推理的三个局限。首先，我们发现CoT SFT使得预训练的世界知识在标准解码下更难语言化，尽管这些知识仍然可以从模型的logits中恢复。其次，我们展示文本和SID标记嵌入在训练期间在几何上变得分离。我们的理论分析证明这种分离限制了用自然语言标记表达的推理链塑造最终SID预测的程度。第三，我们证明推荐性能对真值推理链的浅层扰动敏感。这些发现共同表明，显式推理链是在基于LLM的GR中利用LLM知识的脆弱接口。

为了规避上述挑战，我们提出了PauseRec，一个为基于SID的GR设计的轻量级内隐推理框架。PauseRec不是通过昂贵的教师模型构建真值自然语言推理链并训练模型生成这些推理链，而是在SID生成之前插入一个短序列的可训练<措辞>标记。<措辞>标记被初始化并预训练以连接语言和SID表示，然后仅通过最终的下一物品预测目标进行优化，为模型提供直接塑造SID预测的潜在计算步骤。PauseRec通过以下方式解决显式推理流水线的三个问题：(i) 消除对语言化预训练知识的依赖，(ii) 通过可训练的<措辞>标记弥合文本-SID表示差距，以及(iii) 避免脆弱的推理链监督。在多个Amazon评论数据集上，PauseRec的性能比SFT和基于CoT的方法高出高达6.22%，同时大幅简化了显式推理流水线；它减少了训练成本高达65%的GPU小时，并将推理速度提升了71.3%，将内隐推理定位为基于LLM的GR更强大、更高效的替代方案。我们的贡献如下：
- •诊断分析。我们分解了基于LLM的GR的显式推理流水线，并识别了它们在缺乏RL后训练时失败的原因，包括不完整的SID接地、弱化的世界知识语言化、文本-SID嵌入不匹配以及对推理链格式的敏感性。
- •内隐推理框架。我们引入了一个名为PauseRec的新颖流水线，它使用可训练的<措辞>标记来引出没有推理链监督的潜在推理。
- •实证评估。在三个Amazon评论数据集上，PauseRec比标准的SFT和基于CoT的方法提升高达6.22%，同时减少了训练和推理开销。

## 2 预备知识

### 2.1 问题形式化

遵循GR文献（Liu等人，2025），我们考虑顺序推荐任务。让I表示所有物品的集合。给定用户n个按时间顺序排列的交互历史H = [i₁, i₂, ..., iₙ]，其中iⱼ ∈ I，任务是预测用户将交互的下一个物品iₙ₊₁。遵循最近的工作（Rajput等人，2024；Bao等人，2023），基于LLM的GR用语义ID（SID）表示每个物品i ∈ I，即一个标记序列sᵢ = [sᵢ⁽¹⁾, sᵢ⁽²⁾, ..., sᵢ⁽ᴸ⁾]，长度为L，这些标记被添加到LLM的词汇表中。推荐可以被框架化为条件生成：
p(iₙ₊₁ | H) = p(sᵢₙ₊₁ | Prompt(H))   (1)
其中Prompt(H)将交互历史转换为列出过去物品（以及可选的元数据）的自然语言提示。本文中所有方法共享这种生成式形式化；它们的区别在于推理如何在SID预测之前插入。

### 2.2 现有的显式CoT流水线用于GR

我们介绍现有显式推理流水线（Liu等人，2025；Liang等人，2026）用于GR的多个训练阶段如下：

持续预训练（CPT）。LLM在SID和物品描述的交织语料上进行微调，仅SID标记嵌入可训练。此阶段将物品语义接地到SID标记嵌入中。给定具有描述dᵢ的物品i，模型训练于：
L_CPT = -E_{(sᵢ, dᵢ)} [ log p(sᵢ | dᵢ) + log p(dᵢ | sᵢ) ]   (2)

下一物品有监督微调（SFT）。CPT模型在用户-物品交互历史上进行微调，通过生成其SID来预测下一物品：
L_SFT = -E_{(H, iₙ₊₁)} [ log p(sᵢₙ₊₁ | Prompt(H)) ]   (3)

CoT SFT。在SFT之后，模型被微调以在目标SID之前生成自然语言推理链。训练目标将每个历史H、推理链r和下一物品iₙ₊₁配对为：
L_Reasoning = -E_{(H, r, iₙ₊₁)} [ log p(r, sᵢₙ₊₁ | Prompt(H)) ]   (4)
在这里，推理链是方法特定的：有些（Liu等人，2025）使用推理模板，而其他（Liang等人，2026）使用教师LLM。

强化学习（RL）后训练。现有方法进一步应用RL来直接优化推荐奖励（Liu等人，2025；Yu等人，2025；Liang等人，2026），尽管这一阶段计算上昂贵。

## 3 训练阶段的贡献

鉴于目前对不同训练阶段何时以及为何使CoT对GR有效存在理解空白，我们分析了第2.2节中每个阶段的作用。我们在此关注CPT和CoT SFT；下一物品SFT和RL将在第6节中评估。

### 3.1 CPT：LLM能恢复SID语义吗？

CPT的主要目标是让LLM对SID语义进行接地，基于的前提是LLM只有在理解SID语义后才能对其进行推理。在检查与推理相关的阶段之前，我们询问在CPT之后LLM从SID中恢复了多少物品级别的语义信息。

实验设计。我们在Amazon Beauty（Ni等人，2019）上训练一个Qwen3-1.7B（Team，2025）骨干网络进行2个epoch的CPT，其中每个SID在训练期间与其名称和类别配对。在CPT之后，我们测试模型是否能生成(1)物品标题和(2)物品类别³，粒度分别为1级、2级和3级。我们使用每个测试SID进行提示，并测量精确匹配准确率；提示和解码见附录F.3。

³在Amazon Beauty（Ni等人，2019）中，类别是三级路径，例如“Beauty > Hair Care > Conditioners”。

结果与分析。

表1：CPT后的SID元数据恢复。模型几乎完美地恢复粗略的单级类别，但在物品标题和细粒度类别上失败，表明SID接地提供了部分语义信息，而非精确的物品级别理解。

从表1中，我们观察到：(1) 细粒度理解较差：标题恢复保持接近0%，并且所有数据集上全类别准确率低于7.2%，因此物品级别语义基本上未恢复。(2) 粗略类别信号很强：单级类别准确率高达99.6%，两级准确率高达40.5%，表明CPT捕捉到了广泛的类别结构。这些结果表明，LLM将SID与预训练的语义关联起来，但仅在粗略级别。接下来我们测试CoT是否可以将这种信号转化为更好的SID预测。

### 3.2 CoT SFT：显式CoT的失败

在此，我们研究CoT SFT是否能改善GR。

实验设计。我们在Amazon Beauty（Ni等人，2019）上使用基于模板、教师生成、拒绝采样和格式受限的推理链，对Qwen3-1.7B（Team，2025）在CPT和SFT之后进行CoT SFT。对于基于模板的推理链，我们使用：(1) 模板-类别：“用户可能购买属于{目标物品类别}类别的物品。”和(2) 模板-...

基于大型语言模型的生成式推荐中的隐式推理

相似文章

大型学习模型中增强且高效的推理

通过具有效率意识的变分后验引导实现高效的大语言模型推理

HyperGuide：大型语言模型中高效多步推理的双曲引导方法

学习细化隐藏状态以实现可靠的LLM推理

潜在奖励引导：一种在推理大语言模型中隐式促进认知行为的自适应推理时框架

提交意见反馈