llm-steering

标签

Cards List
#llm-steering

UniSteer:文本引导的激活空间流匹配实现多功能大语言模型操控

Hugging Face Daily Papers · 2026-05-28 缓存

UniSteer 提出了一种文本引导的激活流匹配方法,在激活空间中学习通用条件速度场,无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。

0 人收藏 0 人点赞
#llm-steering

基于稀疏查询特征梯度优化的导向生成

arXiv cs.LG · 2026-05-25 缓存

本文介绍了Prototype-Based Sparse Steering方法,该方法将稀疏自编码器应用于大语言模型的注意力查询激活,然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证,展示了可解释且解耦的控制能力。

0 人收藏 0 人点赞
#llm-steering

@NousResearch:今天我们发布对比神经元归因(CNA),一种通过识别和消融稀疏电路来引导LLM行为的方法…

X AI KOLs Following · 2026-05-19 缓存

NousResearch 发布了对比神经元归因(CNA),该方法通过消融稀疏的 MLP 电路来引导 LLM 行为,无需训练稀疏自编码器或降低基准测试性能,并在多达 70B 参数的模型的拒绝电路上验证了有效性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈