上下文工程作为推荐：用于上下文工程的演化协同过滤

arXiv cs.CL 2026/05/18 04:00 论文

摘要

本文提出了一种上下文工程中的范式转变，将其形式化为一个推荐问题。作者介绍了神经协同上下文工程（NCCE），该框架利用协同过滤动态分配实例特定的上下文，从而提升LLM任务准确性。

arXiv:2605.15721v1 公告类型：新摘要：大型语言模型（LLM）对其输入上下文高度敏感，这推动了自动化上下文工程的发展。然而，现有方法主要将此视为全局搜索问题，试图寻找能最大化数据集平均性能的单一上下文策略。这种限制性假设忽视了不同输入通常需要不同指导的事实，从而留下了大量未利用的实例级性能提升空间。在本文中，我们提出了一种范式转变，将上下文工程形式化为推荐问题。我们引入了 \textbf{神经协同上下文工程（NCCE）}，该框架将优化从静态全局搜索转变为动态、实例级的路由。NCCE首先引导生成一个多样化的锚定上下文目录，然后采用一种新颖的 \textbf{上下文-协同过滤共同进化} 机制。该阶段建立了一个协同反馈循环：轻量级的神经协同过滤（NCF）模型学习实例-上下文偏好以指导专门化上下文变体的生成，而新评估的上下文则不断优化NCF模型对潜在偏好的理解。在推理时，训练好的NCF模型充当上下文路由器，动态地为每个未见实例分配最合适的上下文策略。理论证明和综合实验表明，通过将单个输入与其最优上下文匹配，NCCE显著提高了任务准确性，凸显了个性化在LLM上下文工程中的关键重要性。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:34

# 上下文工程即推荐：用于上下文工程的进化协同过滤  
来源：https://arxiv.org/html/2605.15721  

Jiachen Zhu  
上海交通大学  
[email protected]  

&Zhuoying Ou*  
上海交通大学  
[email protected]  

&Congmin Zheng  
上海交通大学  
[email protected]  

Yuxiang Chen  
伦敦大学学院  
[email protected]  

&Zeyu Zheng  
卡内基梅隆大学  
[email protected]  

&Rong Shan  
上海交通大学  
[email protected]  

Lingyu Yang  
上海交通大学  
[email protected]  

&Lionel Z. WANG  
香港理工大学  
[email protected]  

&Weiwen Liu  
上海交通大学  
[email protected]  

&Yong Yu  
上海交通大学  
[email protected]  

&Weinan Zhang  
上海交通大学  
[email protected]  

&Jianghao Lin  
上海交通大学  
[email protected]  

###### 摘要  

大型语言模型（LLMs）对其输入上下文高度敏感，这推动了自动化上下文工程的发展。然而，现有方法大多将其视为全局搜索问题，试图寻找一个能在数据集上最大化平均性能的单一上下文策略。这种限制性假设忽略了不同输入通常需要不同指导的事实，导致大量的实例级性能提升未被发掘。在本文中，我们提出了一种范式转变，将上下文工程形式化为推荐问题。我们引入了神经协同上下文工程（NCCE）框架，该框架将优化从静态全局搜索转变为动态的、实例级的路由。NCCE 首先自举出一个多样化的锚定上下文目录，然后采用一种新颖的上下文-协同过滤共同进化机制。该阶段建立了一个协同反馈循环：一个轻量级的神经协同过滤（NCF）模型学习实例-上下文偏好，以指导生成专门的上下文变体，而新评估的上下文则不断精炼 NCF 模型对潜在偏好的理解。在推理时，训练好的 NCF 模型充当上下文路由器，为每个未见过的实例动态分配最合适的上下文策略。理论证明和全面实验表明，通过将个体输入与其最优上下文匹配，NCCE 显著提高了任务准确率，突显了 LLM 上下文工程中个性化的重要性。  

## 1 引言  

参见图注  
图 1：上下文工程即推荐：学习分配实例特定的复合上下文，而非优化单一的全局上下文策略。  

大型语言模型（LLMs）在解决复杂推理、问答和上下文依赖任务方面变得越来越强大[1 (https://arxiv.org/html/2605.15721#bib.bib30),30 (https://arxiv.org/html/2605.15721#bib.bib32),4 (https://arxiv.org/html/2605.15721#bib.bib31),31 (https://arxiv.org/html/2605.15721#bib.bib38)]。然而，它们的性能对推理时提供的上下文高度敏感。指令、选定的少样本示例、所需的推理格式或输出约束的微小变化都可能显著改变模型行为。这种敏感性推动了上下文工程实践的兴起：系统地设计和优化用于引出可靠 LLM 输出的输入上下文。[39 (https://arxiv.org/html/2605.15721#bib.bib33),12 (https://arxiv.org/html/2605.15721#bib.bib35),38 (https://arxiv.org/html/2605.15721#bib.bib34)]  

大多数自动化上下文优化方法旨在寻找一个能最大化平均训练性能的单一上下文策略[40 (https://arxiv.org/html/2605.15721#bib.bib2),34 (https://arxiv.org/html/2605.15721#bib.bib3),36 (https://arxiv.org/html/2605.15721#bib.bib5),18 (https://arxiv.org/html/2605.15721#bib.bib10),9 (https://arxiv.org/html/2605.15721#bib.bib6),3 (https://arxiv.org/html/2605.15721#bib.bib11)]。这些策略可能结合了指令、少样本示例、推理格式和输出约束。虽然有效，但这假设了一个上下文同样适用于所有实例。在实践中，不同的输入需要不同的指导：多跳问题可能受益于显式分解，而验证任务可能需要更严格的证据支撑。本文认为，上下文工程的核心挑战不仅是发现高质量的上下文，还要为每个实例选择正确的上下文。  

我们不是优化单一的全局上下文，而是动态地为每个输入分配最合适的上下文策略。为了解决这个问题，我们提出了一种范式转变：将上下文工程视为推荐问题[22 (https://arxiv.org/html/2605.15721#bib.bib19)]。在这个形式化中，输入实例扮演“用户”的角色，复合上下文策略扮演“物品”的角色，而观察到的任务准确率定义了它们的交互信号。目标是学习实例与上下文之间的潜在偏好结构，并利用该结构为任何先前未见过的实例推荐最合适的上下文。这种视角将上下文优化从一维的全局平均搜索转变为在多样化的上下文策略目录上的实例级路由问题。  

为了实现这一视角，我们引入了神经协同上下文工程（NCCE）。NCCE 不是寻找单一的最优策略，而是维护一个动态的候选目录，并通过三个主要阶段学习哪个策略最适合每个实例：  

首先，为了构建一个有效的初始“物品目录”，NCCE 提取出一组多样化的锚定上下文。通过将实例聚类成语义相似的组，我们利用现有的全局优化器生成特定于聚类的上下文。这提供了一个高质量、多样化的候选策略池，为学习实例-上下文偏好建立了信息丰富的起点。  

其次，受推荐系统中物品扩展的启发，NCCE 通过上下文-协同过滤共同进化机制扩展上下文目录。该阶段不是依赖静态的策略池，而是在上下文目录和推荐模型之间建立一个协同反馈循环。一个轻量级的神经协同过滤（NCF）[10 (https://arxiv.org/html/2605.15721#bib.bib21)]模型在观察到的实例-上下文交互上进行训练，以识别当前上下文失败的“盲点”。在 NCF 模型潜在梯度的引导下，NCCE 通过基于 LLM 的反思和优化迭代地进化出新的、专门的上下文变体。这些新上下文反过来提供了新的交互数据，以进一步精炼 NCF 模型。这种共同进化确保了目录保持多样化和高性能，同时推荐模型发展出对实例级偏好的精细理解。  

最后，在推理时，训练好的 NCF 模型充当实例级的上下文路由器。给定一个新实例，它对所有候选上下文策略进行评分，并选择预测能最大化任务准确率的策略，从而实现动态的、实例特定的上下文构建。  

本文的主要贡献总结如下：  
- • 我们首次将上下文工程形式化为推荐问题，引入了一种新范式，其中每个输入实例被路由到其最合适的上下文策略，而不是依赖全局平均的提示。  
- • 我们提出了上下文-协同过滤共同进化机制，该机制模拟了成熟推荐系统中迭代物品扩展的过程。通过利用偏好模型作为可微分的引导，我们迭代地生成新的上下文变体以处理失败实例，从而形成一个反馈循环，其中上下文目录和神经推荐器协同地相互改进。  
- • 全面实验表明，通过从静态全局优化转向动态的、实例级的路由，NCCE 显著释放了性能提升，突显了上下文工程中个性化的关键重要性。  

## 2 预备知识  

我们形式化复合上下文工程，并建立其与协同过滤的联系。  

### 2.1 使用复合策略的上下文工程  

令 \(X=\{x_1,\dots,x_N\}\) 表示一组输入实例，\(P=\{p_1,\dots,p_M\}\) 表示一个候选上下文策略目录。每个策略是一个复合配置：\(p_j=(c_j^{\mathrm{inst}},\;c_j^{\mathrm{demo}},\;c_j^{\mathrm{reason}},\;c_j^{\mathrm{out}})\)，分别代表任务指令、少样本演示、推理格式和输出约束。给定一个固定的 LLM，将策略 \(p_j\) 应用于实例 \(x_i\) 的任务准确率为：\(r_{ij}=R(x_i,p_j)\)，其中 \(r_{ij}\in[0,1]\)。传统优化寻求单一的全局最优策略：\(p^*=\arg\max_{p\in P}\sum_{i=1}^N R(x_i,p)\)。这假设了一个策略适用于所有实例，忽略了特定实例与上下文表述之间的细粒度交互。  

### 2.2 上下文工程即推荐  

为了利用实例的异质性，我们将上下文工程重新定义为推荐问题：  

- 实例作为用户：每个输入实例 \(x_i\in X\) 被视为一个用户，其语义特征决定了它对不同上下文策略的偏好。  
- 上下文策略作为物品：每个上下文策略 \(p_j\in P\) 被视为目录中的一个物品。  
- 准确率作为交互：通过将 \(p_j\) 应用于 \(x_i\) 获得的观察到的任务准确率 \(r_{ij}\) 作为实例与上下文策略之间的交互信号。  

我们不寻求全局最优，而是学习一个实例级的路由函数，为每个输入选择最佳上下文。由于评估所有对在计算上不可行，我们从稀疏的观测中估计兼容性。  

\(p_i^*=\arg\max_{p_j\in P}R(x_i,p_j)\)  

归纳矩阵补全：我们通过归纳矩阵补全对稀疏的观测交互 \(\Omega\) 进行建模。我们使用语义嵌入而非固定 ID 来预测兼容性：\(\hat{r}_{ij}=f_\theta(\phi(x_i),\psi(p_j))\)，其中 \(f_\theta\) 对嵌入的实例 \(\phi(x_i)\) 和上下文 \(\psi(p_j)\) 之间的适宜性进行评分。这种归纳方法使得对未见实例的零样本路由成为可能，并且无需重新训练即可无缝集成新的上下文。  

## 3 方法论  

参见图注  
图 2：NCCE 的整体架构，其特点是神经协同过滤模型与不断演化的上下文目录之间形成协同共同进化循环，以实现个性化的上下文构建和实例级路由。  

在本节中，我们介绍 NCCE 框架。该框架包含三个阶段：基于聚类的初始化、上下文-协同过滤共同进化和实例级上下文路由。  

### 3.1 神经协同偏好模型  

NCCE 使用一个轻量级的神经协同过滤（NCF）模型来估计实例-上下文适宜性。给定一个实例 \(x_i\) 和一个上下文策略 \(p_j\)，我们使用冻结的文本编码器提取它们的表示，其中 \(e_i=\phi(x_i)\) 和 \(h_j=\psi(p_j)\)，并且复合上下文 \(\psi(p_j)\) 聚合了其各个组成部分。然后我们将它们投影到一个共享的潜在空间（\(u_i=W_x e_i, v_j=W_p h_j\)）并构建交互向量：\(z_{ij}=[u_i;\;v_j;\;u_i\odot v_j;\;|u_i-v_j|]\)。兼容性得分通过 MLP 计算：\(\hat{r}_{ij}=f_\theta(x_i,p_j)=\sigma(\mathrm{MLP}_\theta(z_{ij}))\)。  

为了优化实例级的选择，NCCE 在观察到的三元组 \((i,j,k)\)（其中 \(p_j\) 在 \(x_i\) 上优于 \(p_k\)）上最小化成对排序损失：  

\(\mathcal{L}_{\mathrm{rank}}=-\sum_{(i,j,k)\in\mathcal{D}_{\mathrm{pair}}}\log\sigma(\hat{r}_{ij}-\hat{r}_{ik})\)。  

该目标通过关注相对排序来减轻固有实例难度的影响。  

### 3.2 基于聚类的初始化  

信息丰富的初始目录对于学习可靠的偏好至关重要。为了避免薄弱的起点，NCCE 采用基于聚类的初始化。我们将训练实例划分为 \(K\) 个聚类：\(\mathcal{C}_1,\ldots,\mathcal{C}_K=\mathrm{KMeans}(\{\phi(x_i)\}_{i=1}^N)\)。对于每个聚类 \(\mathcal{C}_k\)，一个预热优化器 \(\mathcal{A}\) 生成专门的锚定上下文：\(P_k^0=\mathcal{A}(\mathcal{C}_k)\)。初始目录变为：\(P_0=\bigcup_{k=1}^K P_k^0\)。这些多样化的、群体级别的锚定提供了比单一全局优化策略强得多的偏好学习信号。  

### 3.3 上下文-协同过滤共同进化  

接下来，NCCE 进入一个共同进化循环：NCF 模型识别出上下文改进的有希望的方向，而新进化的上下文则生成交互数据以精炼 NCF 模型。  

在迭代 \(t\)，在对 \(\Omega_t\) 训练 \(f_\theta\) 之后，我们针对当前任何策略都无法解决的失败实例：  

\(\mathcal{F}_t=\{x_i\in X\mid R(x_i,p_j)=0,\ \forall p_j\in P_t\}\)。  

从采样的批次 \(\mathcal{B}_t\sim\mathcal{F}_t\) 中，我们对 \(k\) 个随机采样的上下文嵌入 \(h\) 执行梯度上升，以最大化 NCF 预测的对失败批次的适宜性：  

\(\mathcal{J}(h;\mathcal{B}_t)=\frac{1}{m}\sum_{x_i\in\mathcal{B}_t} s_\theta(h,x_i)\)。  

嵌入迭代更新：  

\(h^{(\tau+1)}=\operatorname{Normalize}\left(h^{(\tau)}+\eta\nabla_{h^{(\tau)}}\mathcal{J}(h^{(\tau)};\mathcal{B}_t)\right)\)。  

经过 \(G\) 步后，这些优化的嵌入 \(\tilde{h}_\ell\) 代表了连续的理想上下文。为了将它们映射回离散文本，我们找到与这些目标平均距离最小的现有上下文 \(p^{\mathrm{pot}}\)：  

\(p^{\mathrm{pot}}=\arg\min_{p_j\in P_t}\frac{1}{k}\sum_{\ell=1}^k \left\|\psi(p_j)-\tilde{h}_\ell\right\|_2\)。  

通过这种梯度引导的选择，NCCE 避免了盲目变异，而是选择最接近 NCF 预测最优点的上下文。最后，一个 LLM 反射器通过诊断其在 \(\mathcal{B}_t\) 上的失败来修正 \(p^{\mathrm{pot}}\)，生成一个改进的策略：  

\(p_{\mathrm{new}}=\mathcal{M}(p^{\mathrm{pot}},\mathcal{B}_t)\)。  

评估 \(p_{\mathrm{new}}\) 会产生新的交互 \(\Delta\Omega_t\)，同时更新目录（\(P_{t+1}=P_t\cup\{p_{\mathrm{new}}\}\)）和交互集（\(\Omega_{t+1}=\Omega_t\cup\Delta\Omega_t\)），为下一轮 NCF 训练做准备。算法 1 (https://arxiv.org/html/2605.15721#alg1) 总结了 NCCE。训练通过聚类自举目录，并迭代地精炼目录和 NCF 模型（算法

上下文工程作为推荐：用于上下文工程的演化协同过滤

相似文章

AI智能体的有效上下文工程

面向智能体与多模态大语言模型的上下文感知强化学习

更少上下文，更智能代理：面向长周期工具使用的LLM代理的高效上下文工程

Show HN: 上下文工程的完整参考实现

@svpino：上下文工程是当下你能关注的最重要领域。我们已经拥有出色的模型。智能体…

提交意见反馈