受控LLM激活的非满射性

Hugging Face Daily Papers 2026/05/07 00:00 论文

activation-steering interpretability safety-research surjectivity llm white-box-control

摘要

本文证明，LLM中的激活引导产生的内部状态无法通过任何文本提示复制，从而在白盒可控性和黑盒提示之间建立了形式上的区分。

激活引导是一种流行的白盒控制技术，通过修改模型激活来引发其行为的抽象变化。它也成为可解释性（例如，探测真实性，或将激活转换为人类可读的解释）和安全研究（例如，越狱可能性）中的标准工具。然而，目前尚不清楚引导行为是否可以通过任何文本提示实现。在这项工作中，我们将这个问题视为一个满射问题：对于一个固定模型，是否每个引导激活在模型自然前向传播下都有一个原像？在实际假设下，我们证明激活引导将残差流推离了从离散提示可达的状态流形。几乎可以肯定，没有提示可以复制由引导引起的相同内部行为。我们还通过在三个广泛使用的LLM上的实验结果说明了这一发现。我们的结果在白盒可控性和黑盒提示之间建立了形式上的区分。因此，我们警告不要将激活引导的易用性和成功解释为基于提示的可解释性或脆弱性的证据，并主张采用明确解耦白盒和黑盒干预的评估协议。

查看原文

查看缓存全文

缓存时间: 2026/05/18 14:26

论文页面 - Steered LLM Activations are Non-Surjective

来源：https://huggingface.co/papers/2604.09839

摘要

语言模型中的激活导向会生成无法通过标准文本提示复制的内部状态，这揭示了白盒控制方法与黑盒控制方法之间的根本区别。

激活导向（https://huggingface.co/papers?q=Activation%20steering）是一种流行的白盒控制（https://huggingface.co/papers?q=white-box%20control）技术，通过修改模型激活来引发其行为的抽象变化。它也已成为可解释性（https://huggingface.co/papers?q=interpretability）研究（例如，探测真实性，或将激活转换为人类可读的解释）和安全研究（https://huggingface.co/papers?q=safety%20research）领域（例如，越狱可能性）的标准工具。然而，目前尚不清楚被导向的行为是否可以通过任何文本提示实现。在本工作中，我们将此问题视为一个满射性（https://huggingface.co/papers?q=surjectivity）问题：对于一个固定的模型，每种被导向的激活是否在模型的自然前向传播中都有原像（https://huggingface.co/papers?q=preimage）？在实用假设下，我们证明激活导向（https://huggingface.co/papers?q=activation%20steering）会将残差流（https://huggingface.co/papers?q=residual%20stream）推离从离散提示可达的状态流形之外。几乎可以肯定，没有任何提示能复现由导向所引发的相同内部行为。我们还通过三个广泛使用的LLM实验验证了这一发现。我们的结果确立了白盒可导向性与黑盒提示（https://huggingface.co/papers?q=black-box%20prompting）之间的形式化区分。因此，我们提醒不要将激活导向（https://huggingface.co/papers?q=activation%20steering）的简便与成功视为基于提示的可解释性（https://huggingface.co/papers?q=prompt-based%20interpretability）或脆弱性的证据，并主张采用明确解耦白盒与黑盒干预的评估协议。

查看 arXiv 页面（https://arxiv.org/abs/2604.09839）查看 PDF（https://arxiv.org/pdf/2604.09839）GitHub0（https://github.com/aamixsh/invertsteer）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.09839）

在您的 agent 中获取本论文：

hf papers read 2604\.09839

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

暂无模型关联本论文

在模型 README.md 中引用 arxiv.org/abs/2604.09839 即可从本页链接到该模型。

引用本论文的数据集0

暂无数据集关联本论文

在数据集 README.md 中引用 arxiv.org/abs/2604.09839 即可从本页链接到该数据集。

引用本论文的 Spaces0

暂无 Space 关联本论文

在 Space README.md 中引用 arxiv.org/abs/2604.09839 即可从本页链接到该 Space。

包含本论文的收藏0

暂无收藏包含本论文

将本论文添加到收藏（https://huggingface.co/new-collection）即可从本页链接到该收藏。

受控LLM激活的非满射性

论文页面 - Steered LLM Activations are Non-Surjective

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的收藏0

相似文章

你的LLM何时可引导？

你的LLM何时可引导？

可解码但无法通过固定残差流线性转向纠正：来自医疗大语言模型失效模式的证据

面向高效可控LLM推理的代理式思维链引导

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

提交意见反馈