受控LLM激活的非满射性
摘要
本文证明,LLM中的激活引导产生的内部状态无法通过任何文本提示复制,从而在白盒可控性和黑盒提示之间建立了形式上的区分。
查看缓存全文
缓存时间: 2026/05/18 14:26
论文页面 - Steered LLM Activations are Non-Surjective
来源:https://huggingface.co/papers/2604.09839
摘要
语言模型中的激活导向会生成无法通过标准文本提示复制的内部状态,这揭示了白盒控制方法与黑盒控制方法之间的根本区别。
激活导向(https://huggingface.co/papers?q=Activation%20steering)是一种流行的白盒控制(https://huggingface.co/papers?q=white-box%20control)技术,通过修改模型激活来引发其行为的抽象变化。它也已成为可解释性(https://huggingface.co/papers?q=interpretability)研究(例如,探测真实性,或将激活转换为人类可读的解释)和安全研究(https://huggingface.co/papers?q=safety%20research)领域(例如,越狱可能性)的标准工具。然而,目前尚不清楚被导向的行为是否可以通过任何文本提示实现。在本工作中,我们将此问题视为一个满射性(https://huggingface.co/papers?q=surjectivity)问题:对于一个固定的模型,每种被导向的激活是否在模型的自然前向传播中都有原像(https://huggingface.co/papers?q=preimage)?在实用假设下,我们证明激活导向(https://huggingface.co/papers?q=activation%20steering)会将残差流(https://huggingface.co/papers?q=residual%20stream)推离从离散提示可达的状态流形之外。几乎可以肯定,没有任何提示能复现由导向所引发的相同内部行为。我们还通过三个广泛使用的LLM实验验证了这一发现。我们的结果确立了白盒可导向性与黑盒提示(https://huggingface.co/papers?q=black-box%20prompting)之间的形式化区分。因此,我们提醒不要将激活导向(https://huggingface.co/papers?q=activation%20steering)的简便与成功视为基于提示的可解释性(https://huggingface.co/papers?q=prompt-based%20interpretability)或脆弱性的证据,并主张采用明确解耦白盒与黑盒干预的评估协议。
查看 arXiv 页面(https://arxiv.org/abs/2604.09839)查看 PDF(https://arxiv.org/pdf/2604.09839)GitHub0(https://github.com/aamixsh/invertsteer)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.09839)
在您的 agent 中获取本论文:
hf papers read 2604\.09839
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
暂无模型关联本论文
在模型 README.md 中引用 arxiv.org/abs/2604.09839 即可从本页链接到该模型。
引用本论文的数据集0
暂无数据集关联本论文
在数据集 README.md 中引用 arxiv.org/abs/2604.09839 即可从本页链接到该数据集。
引用本论文的 Spaces0
暂无 Space 关联本论文
在 Space README.md 中引用 arxiv.org/abs/2604.09839 即可从本页链接到该 Space。
包含本论文的收藏0
暂无收藏包含本论文
将本论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接到该收藏。
相似文章
可解码但无法通过固定残差流线性转向纠正:来自医疗大语言模型失效模式的证据
本文研究了大语言模型隐藏状态中线性可解码的失效信号是否可以通过残差流转向进行纠正。研究发现,虽然“过度思考”失效模式是可解码的,但由于其与任务关键计算的表示纠缠,固定的线性转向未能纠正这些失效,尽管探测探针有效地支持了选择性拒绝回答。
公平输出,偏见内部:大语言模型在高风险决策中潜在偏见的因果效力与非对称性
本文研究了指令微调的大语言模型如何在高风险决策(如抵押贷款承销)中表现出公平输出,同时保留有偏见的内部表征,表明这些隐藏偏见具有因果效力、非对称性,且可通过激活引导加以利用。
保持专注:通过键正交投影实现激活转向
本文介绍了通过键正交投影进行转向(SKOP)方法,该方法通过防止注意力重路由来控制大语言模型(LLM)的行为,从而在保持转向效果的同时降低效用下降。
UniSteer:文本引导的激活空间流匹配实现多功能大语言模型操控
UniSteer 提出了一种文本引导的激活流匹配方法,在激活空间中学习通用条件速度场,无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。