标签
UniSteer 提出了一种文本引导的激活流匹配方法,在激活空间中学习通用条件速度场,无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。
本文介绍了Prototype-Based Sparse Steering方法,该方法将稀疏自编码器应用于大语言模型的注意力查询激活,然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证,展示了可解释且解耦的控制能力。
NousResearch 发布了对比神经元归因(CNA),该方法通过消融稀疏的 MLP 电路来引导 LLM 行为,无需训练稀疏自编码器或降低基准测试性能,并在多达 70B 参数的模型的拒绝电路上验证了有效性。