你的LLM何时可引导?

Hugging Face Daily Papers 论文

摘要

本文介绍了一种方法,利用梯度提升决策树(GBDT)分类器,从早期解码状态预测语言模型中激活引导的有效性,从而无需完整生成即可高效优化引导强度。

激活引导提供了一种轻量级的方法,在推理时控制语言模型的行为,但其成功与否很大程度上取决于提示、概念、模型和引导配置。寻找成功引导的范围和边界通常需要昂贵的网格搜索和对完整自回归生成的事后评估。在这项工作中,我们研究是否可以在生成过程的开始阶段(例如,在生成前几个token之后)从模型的内部状态预测可引导性,以及如何利用这样的预测器来提高引导成功率。为此,我们首先引入了ASTEER,一个包含140万次引导生成、涵盖150个概念且每个引导成功/失败均已标注的测试平台。利用这个测试平台,我们通过提取特征来比较跨层和初始解码步骤中引导前后的隐藏状态,从而分析模型的早期解码动态。这些特征帮助我们理解引导的效果如何在层和token位置之间传播,从而为可引导性预测提供关键信息。然后,我们基于这些特征训练一个梯度提升决策树(GBDT)分类器,以预测干预是否会引导不足、成功或过强,而无需完整生成。我们的预测器在未见过的概念上实现了约0.7的宏F1分数,表明早期隐藏状态编码了关于最终引导效果的大量结构化信息。我们进一步利用这个可引导性预测器作为引导强度搜索的指导,以极小的解码成本实现了接近最优的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:06

论文页面 - 你的大型语言模型何时可被引导?

来源:https://huggingface.co/papers/2606.11599

摘要

激活引导的有效性可以通过使用GBDT分类器从早期解码状态进行预测,从而在降低计算成本的同时实现高效的引导强度优化。

激活引导 (https://huggingface.co/papers?q=Activation%20steering)提供了一种轻量级方法,用于在推理阶段 (https://huggingface.co/papers?q=inference%20time)控制语言模型 (https://huggingface.co/papers?q=language%20models)的行为,但其成功与否在很大程度上取决于提示、概念、模型和引导配置。要找到成功引导的机制和边界,通常需要进行昂贵的网格搜索 (https://huggingface.co/papers?q=grid%20searches)以及后续对完整的自回归生成 (https://huggingface.co/papers?q=autoregressive%20rollouts)进行评估。在本工作中,我们研究了是否可以从模型在生成过程早期(例如在生成前几个token后)的内部状态预测可引导性,以及如何利用这样的预测器来提高引导成功率。为此,我们首先引入了ASTEER,一个包含140万次引导生成的测试平台,涵盖150个概念,并为每次引导标记成功或失败。利用这个测试平台,我们通过提取特征来比较不同层和初始解码步骤中引导前后的隐藏状态 (https://huggingface.co/papers?q=hidden%20states),从而分析模型的早期解码动态 (https://huggingface.co/papers?q=early%20decoding%20dynamics)。这些特征有助于我们理解引导效果如何在层和token位置之间传播,为可引导性预测 (https://huggingface.co/papers?q=steerability%20prediction)提供关键信息。然后,我们基于这些特征训练了一个梯度提升决策树 (https://huggingface.co/papers?q=Gradient%20Boosting%20Decision%20Trees) (GBDT (https://huggingface.co/papers?q=GBDT)) 分类器,以在不进行完整生成的情况下预测干预会导致引导不足、成功或过度引导。我们的预测器在未见过的概念上达到了约0.7的宏F1分数,表明早期隐藏状态 (https://huggingface.co/papers?q=hidden%20states)编码了大量且结构化的关于最终引导效能的信息。我们进一步利用这个可引导性预测器作为引导强度搜索 (https://huggingface.co/papers?q=steering%20strength%20searching)的指导,以少量解码成本实现了接近最优的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11599) 查看 PDF (https://arxiv.org/pdf/2606.11599) GitHub3 (https://github.com/Fcr09/SteerBoost) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11599)

在你的智能体中使用这篇论文:

hf papers read 2606.11599

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.11599 即可从此页链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.11599 即可从此页链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.11599 即可从此页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中即可从此页链接。

相似文章

你的LLM何时可引导?

arXiv cs.CL

本文通过分析早期解码动态,研究了激活引导在LLM上何时成功或失败。作者引入了ASTEER,这是一个包含大量引导生成结果的大型测试平台,并训练了一个GBDT分类器,通过早期隐藏状态预测引导结果,从而实现高效的引导强度搜索。

SALSA:通过学习的引导激活向量实现语音感知LLM的自适应

arXiv cs.CL

SALSA提出了一种轻量级自适应方法,用于语音感知的大语言模型,通过监督目标学习逐层引导向量,在域外语音基准上取得了显著改进(相对提升高达46.8%),并表明引导编码器层(尤其是较深层)比修改LLM主干更有效。

受控LLM激活的非满射性

Hugging Face Daily Papers

本文证明,LLM中的激活引导产生的内部状态无法通过任何文本提示复制,从而在白盒可控性和黑盒提示之间建立了形式上的区分。

面向语言模型激活引导的高维随机投影

arXiv cs.LG

HiDRA 是一种无需训练的方法,利用高维随机投影在大型语言模型中进行激活引导,能够捕捉超越线性方法的判别信号,并在多种模型系列和基准测试中持续优于现有基线。