llm-steering

#llm-steering

UniSteer：文本引导的激活空间流匹配实现多功能大语言模型操控

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

UniSteer 提出了一种文本引导的激活流匹配方法，在激活空间中学习通用条件速度场，无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。

0 人收藏 0 人点赞

#llm-steering

arXiv cs.LG ↗ · 2026-05-25 缓存

本文介绍了Prototype-Based Sparse Steering方法，该方法将稀疏自编码器应用于大语言模型的注意力查询激活，然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证，展示了可解释且解耦的控制能力。

0 人收藏 0 人点赞

#llm-steering

X AI KOLs Following ↗ · 2026-05-19 缓存

NousResearch 发布了对比神经元归因（CNA），该方法通过消融稀疏的 MLP 电路来引导 LLM 行为，无需训练稀疏自编码器或降低基准测试性能，并在多达 70B 参数的模型的拒绝电路上验证了有效性。

0 人收藏 0 人点赞