测试时个性化:针对缩放失败的一种诊断框架与概率修正方法
摘要
本文提出了测试时个性化(TTP),这是一种通过候选采样和基于奖励的选择来扩展推理时计算,从而提升大语言模型(LLM)个性化能力的框架。该研究诊断了标准奖励模型中的失效模式,并提出了一种概率个性化奖励模型以缓解这些问题。
arXiv:2605.10991v1 公告类型:新论文
摘要:现有的大语言模型(LLM)个性化方法主要集中在构建更优的个性化模型或输入上,而将推理过程视为一次性操作。在这项工作中,我们从一个未被探索的角度研究测试时个性化(TTP):即通过从个性化策略模型中采样 N 个候选答案,并利用个性化奖励模型选择最佳答案,从而扩展推理时的计算量。我们证明了,理想选择器(oracle selection)带来的预期效用随采样候选数量的增加而对数增长,为测试时缩放确立了一个理论上限。然而,标准的奖励模型未能实现这一潜力。为了诊断其原因,我们推导出了一个统一的缩放定律,该定律将任何奖励模型的 Best-of-N 曲线分解为四个可测量的量,并揭示了两种失效模式:用户级崩溃(对某些用户的预测几乎恒定不变)和查询级奖励破解(在某些查询中与真实质量呈负相关)。在该定律的指导下,我们提出了一种概率个性化奖励模型,其学习到的方差能够有效缓解这两种失效模式。实验证实了我们框架的两个方面:TTP 在多个策略模型和个性化文本生成任务中实现了稳定的缩放效果,且我们的缩放定律与不同奖励模型变体下观察到的缩放曲线高度吻合。
查看缓存全文
缓存时间: 2026/05/13 06:26
# 测试时个性化:针对扩展失败问题的诊断框架与概率性修复方案
来源: https://arxiv.org/html/2605.10991
Linhai Zhang King’s College London linhai\.zhang@kcl\.ac\.uk
Yulan He King’s College London The Alan Turing Institute yulan\.he@kcl\.ac\.uk
###### 摘要
现有的大语言模型(LLM)个性化方法主要侧重于构建更好的个性化模型或输入,而将推理过程视为单次生成过程。在本工作中,我们沿着一个未被探索的维度研究**测试时个性化(Test-Time Personalization, TTP)**:通过从个性化策略模型中采样 $N$ 个候选项,并利用个性化奖励模型选择最佳结果,来扩展推理时的计算量。我们证明了,理想的选择器(oracle selection)带来的预期效用随采样候选项数量的增加呈对数增长,从而确立了测试时扩展的理论上限。然而,标准的奖励模型未能实现这一潜力。为了诊断其原因,我们推导了一个统一的扩展定律,将任何奖励模型的“$N$ 选最佳”(Best-of-$N$)曲线分解为四个可测量的量,并揭示了两种失败模式:**用户级坍缩**(user-level collapse,即对部分用户的预测趋于常数)和**查询级奖励黑客攻击**(query-level reward hacking,即对部分查询的预测与真实质量呈负相关)。在该定律的指导下,我们提出了一种概率性个性化奖励模型,其学习到的方差有效缓解了这两种失败模式。实验证实了我们框架的两个要素:TTP 在多种策略模型和个性化文本生成任务中展现出一致的扩展性,且我们的扩展定律与观察到的奖励模型变体的扩展曲线高度吻合。
## 1 引言
大语言模型在 diverse tasks 中表现出色,但它们主要产生“一刀切”的响应,忽略了个体用户的偏好 [7](https://arxiv.org/html/2505.10991#bib.bib1)。这一局限性激发了人们对 LLM 个性化的日益增长的研究兴趣。现有方法可分为三类:
* **个性化提示(Personalized Prompting)**:通过检索用户历史来增强输入上下文 [15](https://arxiv.org/html/2505.10991#bib.bib3), [17](https://arxiv.org/html/2505.10991#bib.bib2)。
* **个性化适配(Personalized Adaptation)**:直接在用户数据上微调模型参数 [21](https://arxiv.org/html/2505.10991#bib.bib4), [25](https://arxiv.org/html/2505.10991#bib.bib5)。
* **个性化对齐(Personalized Alignment)**:结合多目标奖励模型与特定于用户的权重 [3](https://arxiv.org/html/2505.10991#bib.bib6), [1](https://arxiv.org/html/2505.10991#bib.bib7)。
尽管存在差异,这些方法共享一个共同范式:它们侧重于构建更好的个性化模型或输入,而将推理视为单次生成过程。与此同时,扩展测试时计算已成为提升 LLM 性能(特别是在推理任务中)的强大维度 [22](https://arxiv.org/html/2505.10991#bib.bib8), [19](https://arxiv.org/html/2505.10991#bib.bib9), [18](https://arxiv.org/html/2505.10991#bib.bib10)。近期的工作开始将测试时扩展与个性化相结合,但仅沿两个维度进行:**扩展用户交互**以在线学习每个用户的偏好 [11](https://arxiv.org/html/2505.10991#bib.bib28),以及通过生成式奖励模型**扩展奖励模型推理** [26](https://arxiv.org/html/2505.10991#bib.bib30)。第三个同样自然的维度,即**扩展策略模型本身**,在个性化领域尚未得到研究。
这引出了一个自然的问题:**我们能否通过为弱个性化模型扩展测试时计算来改善个性化?**
测试时个性化的一个直接实例化是并行采样 [17](https://arxiv.org/html/2505.10991#bib.bib2), [4](https://arxiv.org/html/2505.10991#bib.bib12):个性化策略为每个查询生成 $N$ 个候选项,个性化奖励模型从中选择最佳项。我们首先确立该方法的理论潜力:随着候选项数量的增加,最优样本的预期效用呈对数增长(第 3 节)。这为测试时个性化所能达到的效果提供了理论上限。然而,在实践中实现这一上限绝非易事。如图 1 所示,无论是在汇集数据上训练的全局奖励模型,还是在个体历史上训练的每用户奖励模型,在 $N$ 增加时都表现得接近随机选择,使得与理想选择器之间的差距依然巨大。
**是什么阻碍了标准奖励模型的扩展?**
> **图 1 说明**:LaMP-4 新闻标题生成任务上的测试时个性化。理想选择器(Oracle)表现出超越基于训练基线的对数扩展性,而标准奖励模型(RMs)无法扩展,表现接近甚至劣于随机选择。
为了诊断这一差距,我们开发了一个分析框架,将奖励模型与黄金分数的相关性与其 Best-of-$N$ 扩展行为联系起来(第 4 节)。该分析揭示了两种不同的失败模式:**用户级坍缩**(user-level collapse),即奖励模型对部分用户的预测退化为近似常数;以及**查询级奖励黑客攻击**(query-level reward hacking),即奖励模型的预测对部分查询的质量呈负相关。随后,我们将理想扩展定律泛化为一个**通用表达式**,该表达式可以从四个可测量量预测任何奖励模型的扩展曲线。受此表达式启发,我们提出了一种**概率性个性化奖励模型**,通过学习到的方差来缓解这两种失败模式,从而在实践中实现稳定的测试时扩展(第 5 节)。
在涵盖五个个性化文本生成任务的两个基准上的实验证实了框架的两个要素:我们的概率性奖励模型可靠地扩展,并在大多数任务上超越了基于训练的基线;且通用表达式与观察到的扩展曲线高度吻合。
总之,我们的贡献有三点:
* 我们引入了**测试时个性化(TTP)**,这是一种专注于为个性化文本生成扩展策略模型计算的新范式。
* 我们检测到了两种失败模式和一种预测性扩展定律,这是一个可以从四个可测量量预测任何奖励模型扩展曲线的通用表达式。
* 我们提出了一种概率性个性化奖励模型,该模型缓解了这两种失败模式,并在多种策略类型和任务中可靠地扩展。
## 2 预备知识
我们关注**个性化文本生成**任务,其中每个用户通过书面示例展示了风格偏好,系统必须在推理时模仿这些偏好。
### 2.1 问题形式化
考虑一组用户 $\mathcal{U}$,其中每个用户 $u \in \mathcal{U}$ 都有一个潜在偏好函数 $r_u^*: \mathcal{Q} \times \mathcal{X} \to \mathbb{R}$,该函数将查询-响应配对 $(q, x)$ 映射为一个标量奖励,反映响应 $x$ 在多大程度上符合用户对查询 $q$ 的偏好。每个用户关联有历史数据 $\mathcal{D}_u = \{(q_i, x_i)\}_{i=1}^{n_u}$。给定查询 $q$,条件于用户历史的个性化策略 $\pi_u$ 生成 $N$ 个候选响应:$\{x_1, x_2, \ldots, x_N\} \sim \pi_u(\cdot \mid q)$。在 $\mathcal{D}_u$ 上训练的个性化奖励模型 $\hat{r}_u$ 选择最佳候选项:$x^* = \arg\max_{x_i} \hat{r}_u(q, x_i)$。
TTP 的有效性通过所选响应的预期真实奖励来衡量:
$$ U(N) = \mathbb{E}_{q, x_{1:N} \sim \pi_u} [r_u^*(q, x^*)] \quad (1) $$
**理想选择器(Oracle)**策略使用真实偏好函数 $r_u^*$ 选择候选项,产生最优效用 $U_{\text{oracle}}(N)$。TTP 的目标是接近这种理想性能。
### 2.2 实验设置
我们使用来自 LaMP [17](https://arxiv.org/html/2505.10991#bib.bib2) 和 LongLaMP [4](https://arxiv.org/html/2505.10991#bib.bib12) 的五个个性化文本生成任务,涵盖新闻标题、学术标题、摘要、产品评论和主题帖子。个性化策略遵循检索增强生成(RAG)方案 [17](https://arxiv.org/html/2505.10991#bib.bib2),即根据每个查询检索的用户历史示例进行条件生成。由于 $r_u^*$ 不可观测,我们使用生成响应与用户书写参考之间的 ROUGE 分数作为真实奖励的代理。对于每个用户,我们从策略模型中采样候选响应,并基于黄金响应计算它们的 ROUGE 分数以构建训练数据。
我们考虑两种标准奖励模型:**全局 RM**(在跨用户汇集的数据上训练)和**用户 RM**(在每个用户的 $\mathcal{D}_u$ 上单独训练)。对于评估,策略模型为每个查询生成 $N$ 个候选项,不同的奖励模型选择最佳候选项。我们报告跨用户平均的 ROUGE 分数。
## 3 测试时个性化的潜力
我们首先建立 TTP 的理论基础:给定对理想奖励函数的访问,所选响应的预期效用随候选项数量的增加呈对数增长。随后,我们在经验上验证这一扩展定律,并表明理想 TTP 可以超越基于训练的方法 [21](https://arxiv.org/html/2505.10991#bib.bib4)。
### 3.1 理论基础
我们的理论分析确立了理想选择的扩展定律:
###### 定理 3.1(理想扩展定律)。
假设从 $\pi_u(\cdot \mid q)$ 采样的响应的真实奖励是亚高斯分布(sub-Gaussian),均值为 $\mu_u$,方差代理为 $\sigma_u^2$。令 $x_{\text{oracle}}^* = \arg\max_i r_u^*(q, x_i)$ 表示从 $N$ 个独立同分布(i.i.d.)样本中的理想选择。那么预期群体级效用满足:
$$ \bar{U}_{\text{oracle}}(N) = \mathbb{E}_u [U_{\text{oracle}, u}(N)] \leq \bar{\mu} + \bar{\sigma} \cdot c \sqrt{\ln N} \quad (2) $$
其中对于 $N \geq 2$,$\bar{\mu} = \mathbb{E}_u[\mu_u]$,$\bar{\sigma} = \mathbb{E}_u[\sigma_u]$,且 $c > 0$ 为普适常数。形式化证明见附录 A.1 [AppendixA.1](https://arxiv.org/html/2505.10991#A1.SS1)。
亚高斯假设较温和,通常在策略生成多样但质量有界的响应时得到满足,这在温度采样下的 LLM 输出中很常见;我们在附录 C.2 [AppendixC.2](https://arxiv.org/html/2505.10991#A3.SS2) 中对数据经验性地验证了这一性质。$\sqrt{\ln N}$ 的形式源于亚高斯随机变量期望最大值众所周知的结果,对于 $N$ 个 i.i.d. 样本,其增长率为 $O(\sqrt{\ln N})$。
定理 3.1 [Theorem3.1](https://arxiv.org/html/2505.10991#S3.Thmtheorem1) 为测试时个性化确立了理论上限:即使策略较弱(低 $\bar{\mu}$),只要奖励模型能够识别最佳候选项,通过扩展采样也能产生高质量输出。关键问题变成了我们是否能构建接近这种理想性能的奖励模型。
### 3.2 经验验证
我们在两个代表性个性化任务上验证了理想扩展定律:学术标题生成(LaMP-5)和产品评论生成(LongLaMP)。对于每个任务,我们为每个查询采样 $N \in \{1, 5, 10, 15, 20, 30\}$ 个候选项,并使用真实奖励(相对于参考的平均 ROUGE-1 和 ROUGE-L 分数)选择最佳项。
> **图 2 说明**:(a) LaMP-5 和 (b) LongLaMP-Product 上的理想扩展。理想选择(红色实线)紧密跟随理论预测 $\bar{\mu} + \bar{\sigma} c \sqrt{\ln N}$(橙色虚线);水平青色虚线标记基于每用户训练的基线。
图 2 [Figure2](https://arxiv.org/html/2505.10991#S3.F2) 展示了结果。理想扩展曲线表现出清晰的对数增长,紧密匹配定理 3.1 [Theorem3.1](https://arxiv.org/html/2505.10991#S3.Thmtheorem1) 的理论预测。值得注意的是,在适度的候选项数量($N \approx 5-10$)下,理想 TTP 超越了基于训练的方法,表明以适度的计算开销可实现显著增益。这些结果确立了测试时个性化提供了超越基于训练方法的性能的有前景路径,前提是我们能构建有效的奖励模型。
## 4 测试时个性化的挑战
在确立 TTP 可以通过理想奖励模型显著改善个性化之后,我们现在调查这种潜力是否可以通过学习到的奖励模型实现。我们发现标准方法以出人意料的方式失败,然后开发了一个理论框架来诊断根本原因。
### 4.1 标准奖励模型无法扩展
我们评估了第 2 节 [Section2](https://arxiv.org/html/2505.10991#S2) 中定义的两种奖励模型方法:在群体级数据上训练的全局 RM,以及针对每个用户单独训练的用户特定 RM。图 3 [Figure3](https://arxiv.org/html/2505.10991#S4.F3) 展示了两个代表性任务上的扩展曲线。
> **图 3 说明**:标准奖励模型的扩展曲线。(a) 在 LaMP-5 上,全局 RM 的表现不如随机选择。(b) 在 LongLaMP-Product Review 上,用户 RM 的表现劣于全局 RM,尽管它明确地在个性化用户数据上进行了训练。两者都远远低于理想上限。
出现了两个意想不到的现象。首先,在 LaMP-5 上,全局 RM 的表现与随机选择几乎相同;它未能提供任何有意义的候选选择信号。其次,在 LongLaMP 上,用户 RM 的表现劣于全局 RM,尽管它是明确个性化的。这违背了用户特定训练应改善个性化的直觉。这两种方法都远远低于理想上限,表明实现 TTP 的承诺需要理解这些标准方法为何失败。
### 4.2 从相关性到扩展
为了分析奖励模型质量,我们引入了学习到的奖励与真实奖励之间的相关性:
###### 定义 4.1(奖励模型相关性)。
对于用户 $u$,学习到的奖励模型 $\hat{r}_u$ 与真实偏好 $r_u^*$ 之间的相关性为:
$$ \rho_u = \text{Corr}(\hat{r}_u(q, x), r_u^*(q, x)) \quad (3) $$
这种相关性直接决定了扩展行为:
###### 引理 4.2(相关性-扩展关系)。
在均匀性假设下,对于相关性为 $\rho_u$ 的奖励模型,Best-of-$N$ 效用满足:
$$ U_u(N) \approx \mu_u + \rho_u \cdot \sigma_u \cdot c \sqrt{\ln N} \quad (4) $$
证明见附录 A.2 [AppendixA.2](https://arxiv.org/html/2505.10991#A1.SS2),其依赖的双变量线性假设在附录 C.2 [AppendixC.2](https://arxiv.org/html/2505.10991#A3.SS2) 中得到经验验证。直观地说,相关性充当扩展系数:正 $\rho$ 产生递增曲线,$\rho \approx 0$ 产生平坦曲线,负 $\rho$ 产生递减曲线。该框架允许我们通过检查相关性分布来诊断奖励模型失败。
### 4.3 诊断失败模式
引理 4.2 [Lemma4.2](https://arxiv.org/html/2505.10991#S4.Thmtheorem2) 激发了两个诊断相关性:每用户 $\rho_u$(在查询上平均)和每查询 $\rho_q$(在查询内的候选项之间)。图 4 [Figure4](https://arxiv.org/html/2505.109相似文章
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
代理式测试时扩展(GitHub 仓库)
AutoTTS 是一个开源工具,它利用代理发现机制,自动为大型语言模型(LLM)寻找最优的测试时扩展策略,通过基于重放的评估显著降低 token 消耗和成本。
CLIPer:通过分类器引导的推理时个性化定制多样化用户偏好
本文介绍了 CLIPer,这是一种在推理时利用分类器个性化大语言模型(LLM)输出的方法,避免了大规模微调带来的计算成本。
PaT:试错后规划,实现高效的测试时代码生成
本文介绍了 PaT(试错后规划),这是一种用于代码生成的自适应测试时计算策略,在保持与更大模型相当的性能的同时,将推理成本降低了约 69%。
TEMPO:为大推理模型扩展测试时训练
TEMPO 提出一种测试时训练框架,在策略微调与评判器再校准之间交替,防止多样性崩塌并持续放大推理模型的性能,将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。