representation-engineering

#representation-engineering

通过标题特定激活引导控制工具使用

arXiv cs.AI ↗ · 昨天缓存

本文研究大型语言模型中的工具使用决策是否具有稳定的内部表征，这些表征可以通过激活引导（Activation Steering）提取和操控，并展示了在五个开源模型和三个领域中，标题特定引导向量可以抑制不必要的工具使用。几何分析揭示，工具调用步骤表现出弥散的双峰对齐，而非参数化基础概念所预期的清晰线性结构。

0 人收藏 0 人点赞

#representation-engineering

HARC：耦合有害性与拒绝方向以实现稳健的安全对齐

arXiv cs.AI ↗ · 2026-07-02 缓存

本文分析了对齐的LLM如何编码有害性和拒绝方向，揭示越狱攻击会抑制这些方向。作者提出了HARC，一种微调方法，该方法在提示和响应位置上耦合这些方向，在不降低通用能力的情况下实现了稳健的安全对齐。

0 人收藏 0 人点赞

#representation-engineering

想要更好的合成数据？引导它：用于低资源语言生成的激活引导

arXiv cs.CL ↗ · 2026-06-18 缓存

本文研究了激活引导作为替代少样本提示的方法，用于生成低资源语言的合成数据。作者提出了LanguageSteering和QualitySteering策略，表明在早期层进行引导可以提高数据多样性并改善下游模型性能。

0 人收藏 0 人点赞

#representation-engineering

MechELK：一种用于从大型语言模型中引出潜在知识的机制可解释性框架

arXiv cs.CL ↗ · 2026-05-29 缓存

MechELK 是一个三阶段框架，结合机制可解释性工具（SAE、激活修补、因果探测）与表示工程，从大型语言模型中引出潜在知识，实现了84.7%的准确率，优于CCS和线性探测等现有方法。

0 人收藏 0 人点赞

#representation-engineering

解构并引导大型语言模型中的功能性元认知

arXiv cs.CL ↗ · 2026-05-12 缓存

本研究探讨了大型语言模型中的功能性元认知，证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态，展示了对推理行为、冗长度及安全响应的因果控制。

0 人收藏 0 人点赞

representation-engineering

通过标题特定激活引导控制工具使用

HARC：耦合有害性与拒绝方向以实现稳健的安全对齐

想要更好的合成数据？引导它：用于低资源语言生成的激活引导

MechELK：一种用于从大型语言模型中引出潜在知识的机制可解释性框架

解构并引导大型语言模型中的功能性元认知

提交意见反馈