steering

标签

Cards List
#steering

视觉-语言-动作模型中的闭环神经激活控制

arXiv cs.AI · 2026-06-02 缓存

提出CTRL-STEER,一种闭环框架,通过时变控制信号对视觉-语言-动作模型进行自适应引导,在无需重新训练的情况下,实现了概念调节与任务成功率之间的更好权衡。

0 人收藏 0 人点赞
#steering

深度研究的交互式范式

arXiv cs.CL · 2026-05-26 缓存

SteER 是一个用于可引导深度研究的框架,通过自适应暂停决策和实时用户画像建模,在过程中引入可解释的控制,在对齐方面比基线高出 22.80%,并在超过 85% 的成对对齐判断中受到人类读者的青睐。

0 人收藏 0 人点赞
#steering

多语言设计导向的调控:多语言稀疏自编码器与原则性层选择

arXiv cs.CL · 2026-05-25 缓存

本文介绍了一种基于原则的多语言语言调控方法,该方法使用在多语言数据上训练的稀疏自编码器(SAEs)以及一种基于多语言对齐与语言可分性交集的新型层选择规则,并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。

0 人收藏 0 人点赞
#steering

@jxnlco: https://x.com/jxnlco/status/2057153744630890620

X AI KOLs Following · 2026-05-20 缓存

这个推文串讨论了使用Codex编码代理的最佳实践,重点包括持久线程、语音输入、引导、队列,以及其从代码生成扩展到完整计算机工作流程自动化的能力。

0 人收藏 0 人点赞
#steering

@NousResearch: 为了检查CNA是否只隔离了预期行为,我们评估了MMLU上不同转向强度下的转向模型……

X AI KOLs Following · 2026-05-19 缓存

Nous Research 发布了对比神经元归因(CNA),这是一种通过识别和消融MLP神经元中稀疏电路来引导LLM行为的方法,无需训练稀疏自编码器或降低通用基准性能,已在多个大型语言模型上得到验证。

0 人收藏 0 人点赞
#steering

Codex 最大化

Hacker News Top · 2026-05-19 缓存

Jason Liu 分享了他如何使用 OpenAI 的 Codex 进行编码之外的知识工作,利用持久化线程、语音输入和引导将编码代理整合到他更广泛的工作流程中。

0 人收藏 0 人点赞
#steering

@jxnlco: 我是 codex 团队的 jason,这里有一篇关于 codex 高效使用以及我日常使用的几个基本工具的草稿 https://jxnl.g…

X AI KOLs Following · 2026-05-17 缓存

Jason Liu 分享了高效使用 Codex 的工作流基本组件,包括持久线程、语音输入和引导,将 AI 智能体从编码扩展到知识工作。

0 人收藏 0 人点赞
#steering

DeepSeek-V4-Flash 让 LLM 引导再次变得有趣

Hacker News Top · 2026-05-16 缓存

文章探讨了 DeepSeek-V4-Flash 这一强大的本地模型如何使 LLM 引导再次变得实用,并讨论了 antirez 在 DwarfStar 4 项目中的概念及其实现。

0 人收藏 0 人点赞
#steering

大型语言模型的非线性干预

arXiv cs.CL · 2026-05-15 缓存

本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。

0 人收藏 0 人点赞
#steering

负面先于正面:大型语言模型中的不对称效价处理

arXiv cs.CL · 2026-05-08 缓存

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈