当梯度碰撞:LLM裁判的多目标提示优化的失败模式

Hugging Face Daily Papers 论文

摘要

本文识别了在使用文本梯度进行LLM裁判的多目标提示优化中的两种失败模式:优化过程中的梯度稀释和推理过程中的指令干扰,表明联合梯度处理会丢失特定于标准的信息。

将LLM裁判定制到特定任务或领域通常需要同时优化其提示以涵盖多个评估标准。文本梯度方法可以针对单一裁判标准自动化此过程,但它们生成的是自然语言评语,而非数值向量。因此,多任务学习中的冲突解决工具(如PCGrad、MGDA)并不适用于多目标文本梯度设置。我们通过改变损失函数、梯度和优化器LLM之间共享的跨任务信息量,测试了文本梯度优化器的五种分解模式。在10种配置中的6种中,我们观察到优化从未比初始提示有所改进。当梯度LLM联合处理多个标准时,梯度特异性下降了59%(从9.0降至3.7)。另外,我们观察到将每个任务的指令简单合并到单个提示中会使Spearman's rho降低5.3%。这些结果识别出两种可分离的失败模式:优化时的梯度稀释和推理时的指令干扰,这两者共同限制了使用文本反馈进行多目标裁判定制的设计空间。
查看原文
查看缓存全文

缓存时间: 2026/06/08 03:29

论文页面 - 当梯度冲突时:LLM评判器多目标提示优化的失败模式

来源:https://huggingface.co/papers/2605.26046 标题:当梯度冲突时:LLM评判器多目标提示优化的失败模式 作者:Parth Darshan (IIT Jodhpur), Abhishek Divekar (Amazon) 博客文章:https://textgrad-failure-modes.github.io/ 代码库:https://github.com/adivekar-utexas/when-gradients-collide

https://huggingface.co/papers/2605.26046#introduction 引言

LLM评判器越来越多地同时根据多个标准对文本进行评分。TextGrad (https://arxiv.org/abs/2406.07496) 可以针对单一标准优化提示,但其“梯度“是自然语言形式的编辑建议,而非数值向量。它们无法像 PCGrad 或 MGDA 处理向量梯度那样进行投影、平均或约束。本文探讨当文本梯度被迫进入多目标场景时会发生什么。我们发现了两种可分离的失败模式:在优化过程中,联合生成的梯度会丢失特定标准的信息;在推理过程中,单独优化的指令在打包到单个评判器提示中时会产生干扰。

我们在 SummEval 上进行评估,该数据集提供了四个可分离的摘要评估标准的专家标注:流畅性、相关性、连贯性和一致性。每个优化步骤有三个阶段,标准可能在此交互:损失LLM、梯度LLM和优化器LLM。我们使用三个字母编码每种模式:S 表示该阶段分别处理每个标准;C 表示该阶段联合处理所有四个标准。

四种多目标模式为:SSS(所有阶段均分离)、SSC(损失和梯度分离,优化器合并)、SCC(仅损失分离,梯度和优化器合并)以及 CCC(所有阶段均合并)。我们还包含一个单任务基线,其中每个标准接收其独立的优化运行。该基线不是一个可部署的单提示评判器,但它衡量了如果多目标耦合没有造成任何损害我们希望能达到的上限。所有实验均使用每个配置 N=3 次独立运行,进行 12 个优化步骤。

https://huggingface.co/papers/2605.26046#failure-mode-1-gradient-dilution 失败模式1:梯度稀释

第一个失败发生在优化过程中。我们测量每个文本梯度的梯度特异性:其改进建议针对单一标准的精确程度(由 LLM 评估器按1-10分评分)。当梯度LLM分别处理每个任务时(模式 Single、SSS、SSC),梯度高度聚焦,平均得分为 9.0(±0.3)。但当它必须在一个调用中协调来自所有四个标准的反馈时(模式 SCC、CCC),特异性下降至 3.7(±0.5),降低了59%,且任务内分布与跨任务分布之间无重叠。

按标准细分揭示了稀释的不均匀性。一致性(Consistency)稀释最严重:SCC 得分为2.6,CCC 得分为2.4。连贯性(Coherence)保留了更多聚焦度:SCC 得分为4.8,CCC 得分为5.1。联合梯度并非简单地变得均匀更差,而是变得不均匀,保留了通用的写作质量反馈,同时丢失了其评分规则最易与其他维度混淆的标准。

这一发现将 CARO (https://arxiv.org/abs/2603.00451) 的规则稀释假设从标准内场景扩展到了跨标准场景。CARO 表明,在单个优化步骤中聚合异质错误模式会降低评分规则的准确性;我们观察到类似效应:当多个任务梯度在单个梯度调用中被组合时,会降低每个任务的优化信号。

https://huggingface.co/papers/2605.26046#failure-mode-2-instruction-interference 失败模式2:指令干扰

梯度稀释解释了跨任务模式为何失败。但为何任务内模式(SSS、SSC)也会停滞不前,尽管它们的梯度清晰且编辑忠实?答案在于推理时间,而非优化时间。

我们进行了一个预言机实验:对于每个标准,我们从所有单任务运行中挑选出最佳的单一指令,即在该任务上获得最高保留集 Spearman 相关系数的指令,然后将四个预言机最优指令组合成一个提示。即使这些单独最优的指令在组合后也会退化,平均 Spearman 从 0.305 下降到 0.220(-0.085),严格低于通用基线(0.284)。

其机制是指令长度不对称性。优化结果对某些标准过度指定(流畅性评分规则扩展到约 800 个标记,包含详细评分锚点),而其他标准则指定不足(相关性指令仅保留初始提示的大约 4 个标记)。当打包到单个提示中时,冗长的指令在推理时比简短的指令获得不成比例的更多关注。单独良好的评分规则在组合时反而会造成伤害,因此仅靠更好的单任务优化无法解决干扰问题。

这一结果加强了 RRD 的发现,后者表明在 JudgeBench 上,朴素的评分规则构建会使 GPT-4o 偏好判断准确率降低 13 个百分点。RRD 的结果表明差评分规则有害。我们的结果表明,单独良好的评分规则在组合时也可能有害,这意味着指令干扰无法通过改进单任务优化来解决。

https://huggingface.co/papers/2605.26046#what-this-means-for-custom-llm-judges 这对定制 LLM 评判器意味着什么

对于为领域特定标准定制评判器的从业者来说,这些结果表明,在使多目标场景可靠工作之前,需要进行架构上的改变。单独解决任一失败模式都是不够的。

对于梯度稀释:如果文本梯度能够被有意义地嵌入和投影,那么从数值多任务学习(PCGrad、CAGrad)改编而来的冲突感知梯度分辨率方法可以解决稀释问题。一个特异性感知的路由器可以在多任务特异性低于阈值时回退到单任务梯度调用,从而捕获 CCC 的超体积增益而不丧失任务聚焦度。

对于指令干扰:每个标准单独调用评判器可以消除干扰,但会成倍增加推理成本。长度感知的指令合成方法在优化过程中对评分规则长度进行归一化,防止冗长的评分规则主导注意力预算。下一个标记注意力掩码在每个输出字段仅暴露相关的标准指令,从而以零成本消除干扰。

我们提供的诊断方法(梯度特异性和反馈忠实度)提供了一种衡量这两种失败模式的方法,因此未来的工作可以使用相同的标准来评估缓解措施。

相似文章

RL用于LLM的价值梯度假说

arXiv cs.LG

本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。

评判电路

arXiv cs.CL

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。

多目标优化中梯度聚合的统一框架

arXiv cs.LG

本文提出了一个多目标优化中梯度聚合的统一理论框架,建立了收敛到帕累托平稳性的速率。作者引入了一个充分对齐条件,并展示了其在现有算法和新算法(如 capped MGDA)中的应用。