steering

#steering

Gemma-4-31B-AntiHal：引导Gemma模型反驳错误前提、避免生成幻觉，且对基准性能无任何影响

Reddit r/LocalLLaMA ↗ · 2026-07-14

Gemma-4-31B 的一个变体利用基于可解释性的引导技术，通过质疑错误前提来抵抗幻觉，在基准性能几乎不受影响的情况下，对错误前提的反驳效果提升了一倍。

0 人收藏 0 人点赞

#steering

SPARK：基于敏感性的大语言模型潜在推理状态分析与引导

arXiv cs.AI ↗ · 2026-07-14 缓存

介绍SPARK方法，利用长度控制的隐藏状态敏感性诊断和引导大语言模型的推理状态，提高GSM8K和MATH-500等数学推理基准的准确率。

0 人收藏 0 人点赞

#steering

每个Token抛硬币：大型语言模型的伯努利稀疏引导

arXiv cs.LG ↗ · 2026-07-08 缓存

介绍了针对LLM激活引导的随机Token引导（STS）和随机块引导（SBS），它们以概率方式按token或按序列控制引导信号。实验表明，仅引导50%的token即可恢复大部分密集引导效果，同时保持流畅性，并且行为结果受累积信号剂量的速率限制。

0 人收藏 0 人点赞

#steering

方言能否像语言一样被引导？阿拉伯语大语言模型中的稀疏神经元与分布式方向

arXiv cs.CL ↗ · 2026-07-07 缓存

本文研究了通过识别稀疏神经元群体和提取方言激活方向来引导阿拉伯语大语言模型生成特定方言的方法，从而在不进行微调的情况下实现推理时的方言控制。

0 人收藏 0 人点赞

#steering

它们推断出你的意图：模型对交际意图的表征比实际行动更可靠

arXiv cs.CL ↗ · 2026-07-07 缓存

本文研究了语言模型尽管具有稳健的内部表征，但在行动上却未能体现交际意图的问题。通过线性探针，作者发现意图可以从隐藏状态中解码，但通常不反映在输出中，而引导一个较后层的方向可以恢复预期的行为。

0 人收藏 0 人点赞

#steering

LLMs的机制人格分析：通过潜在特征干预调控人格

arXiv cs.AI ↗ · 2026-06-30 缓存

本文介绍了一种机制可解释性方法，通过使用稀疏自编码器识别并干预潜在特征来调控LLM人格特质，在保持语言性能的同时实现了可控的人格调制。

0 人收藏 0 人点赞

#steering

让LLM代理真正保持角色一致：无人记录的引导靶心

Reddit r/AI_Agents ↗ · 2026-06-28

关于保持LLM代理一致性的技术讨论，强调了一个常被忽视的引导方面。

0 人收藏 0 人点赞

#steering

使用稀疏自编码器解释与引导文本转语音语言模型

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

本文对CosyVoice3文本转语音语言模型应用稀疏自编码器，发现可解释的特征，这些特征可被引导以控制笑声、说话者性别和语速等属性，同时保留内容。

0 人收藏 0 人点赞

#steering

视觉-语言-动作模型中的闭环神经激活控制

arXiv cs.AI ↗ · 2026-06-02 缓存

提出CTRL-STEER，一种闭环框架，通过时变控制信号对视觉-语言-动作模型进行自适应引导，在无需重新训练的情况下，实现了概念调节与任务成功率之间的更好权衡。

0 人收藏 0 人点赞

#steering

深度研究的交互式范式

arXiv cs.CL ↗ · 2026-05-26 缓存

SteER 是一个用于可引导深度研究的框架，通过自适应暂停决策和实时用户画像建模，在过程中引入可解释的控制，在对齐方面比基线高出 22.80%，并在超过 85% 的成对对齐判断中受到人类读者的青睐。

0 人收藏 0 人点赞

#steering

多语言设计导向的调控：多语言稀疏自编码器与原则性层选择

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍了一种基于原则的多语言语言调控方法，该方法使用在多语言数据上训练的稀疏自编码器（SAEs）以及一种基于多语言对齐与语言可分性交集的新型层选择规则，并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。

0 人收藏 0 人点赞

#steering

@jxnlco: https://x.com/jxnlco/status/2057153744630890620

X AI KOLs Following ↗ · 2026-05-20 缓存

这个推文串讨论了使用Codex编码代理的最佳实践，重点包括持久线程、语音输入、引导、队列，以及其从代码生成扩展到完整计算机工作流程自动化的能力。

0 人收藏 0 人点赞

#steering

@NousResearch: 为了检查CNA是否只隔离了预期行为，我们评估了MMLU上不同转向强度下的转向模型……

X AI KOLs Following ↗ · 2026-05-19 缓存

Nous Research 发布了对比神经元归因（CNA），这是一种通过识别和消融MLP神经元中稀疏电路来引导LLM行为的方法，无需训练稀疏自编码器或降低通用基准性能，已在多个大型语言模型上得到验证。

0 人收藏 0 人点赞

#steering

Codex 最大化

Hacker News Top ↗ · 2026-05-19 缓存

Jason Liu 分享了他如何使用 OpenAI 的 Codex 进行编码之外的知识工作，利用持久化线程、语音输入和引导将编码代理整合到他更广泛的工作流程中。

0 人收藏 0 人点赞

#steering

@jxnlco: 我是 codex 团队的 jason，这里有一篇关于 codex 高效使用以及我日常使用的几个基本工具的草稿 https://jxnl.g…

X AI KOLs Following ↗ · 2026-05-17 缓存

Jason Liu 分享了高效使用 Codex 的工作流基本组件，包括持久线程、语音输入和引导，将 AI 智能体从编码扩展到知识工作。

0 人收藏 0 人点赞

#steering

DeepSeek-V4-Flash 让 LLM 引导再次变得有趣

Hacker News Top ↗ · 2026-05-16 缓存

文章探讨了 DeepSeek-V4-Flash 这一强大的本地模型如何使 LLM 引导再次变得实用，并讨论了 antirez 在 DwarfStar 4 项目中的概念及其实现。

0 人收藏 0 人点赞

#steering

大型语言模型的非线性干预

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出了一种大型语言模型非线性干预的通用公式，超越了线性表示假说，能够操控沿非线性流形编码的特征，并通过拒绝规避引导验证了该方法。

0 人收藏 0 人点赞

#steering

负面先于正面：大型语言模型中的不对称效价处理

arXiv cs.CL ↗ · 2026-05-08 缓存

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导，作者发现负面效价定位于早期层，而正面效价在中后期层达到峰值，并通过主题控制翻转测试验证了这一点。

0 人收藏 0 人点赞

steering

提交意见反馈