sparse-autoencoders

#sparse-autoencoders

从稀疏特征到可信代理：认证基于SAE的可解释性

arXiv cs.LG ↗ · 6天前缓存

本文提出了一种事后认证框架，用于基于稀疏自编码器（SAE）的可解释性，通过可测量量推导出冻结语言模型风险的上界。该框架在GPT-2 Small、Gemma-2B和Llama-3-8B上得到了验证，显示出非空洞的界，并揭示了深度相关的行为。

0 人收藏 0 人点赞

#sparse-autoencoders

SAE干预不可靠：干预后受抑制行为的恢复

arXiv cs.LG ↗ · 6天前缓存

本文证明了对稀疏自编码器（SAE）特征的干预可能不可靠，因为受抑制的行为可以通过残差空间优化恢复，即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。

0 人收藏 0 人点赞

#sparse-autoencoders

大小不重要：余弦评分稀疏自编码器

arXiv cs.LG ↗ · 2026-06-16 缓存

本文提出用余弦相似度与输入幅值的可学习组合替代稀疏自编码器中的内积评分，结果表明所得特征更具可解释性且与概念对齐，优化器始终偏好余弦而非内积。

0 人收藏 0 人点赞

#sparse-autoencoders

Rational Sparse Autoencoder

arXiv cs.LG ↗ · 2026-06-16 缓存

介绍理性稀疏自编码器（RSAE），该模型用可训练的有理函数替换固定的编码器激活，在多个基线族开放权重语言模型的残差流激活上改善重建与稀疏性权衡。

0 人收藏 0 人点赞

#sparse-autoencoders

在应稀疏分解时稀疏分解，在应密集吸收时勿密集吸收

arXiv cs.LG ↗ · 2026-06-15 缓存

论文假设语言模型激活包含一个低秩密集分量，该分量被稀疏自编码器（SAEs）低效表示。通过添加一个线性瓶颈来吸收密集结构，作者减少了密集潜变量，并改进了在Gemma-2-2B上的稀疏探针性能。

0 人收藏 0 人点赞

#sparse-autoencoders

不稳定特征，可重现子空间：理解稀疏自编码器中的种子依赖性

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

本文研究稀疏自编码器中的种子依赖性，发现稳定特征携带大部分预测信号，而不稳定特征反映了可重现的低维子空间。

0 人收藏 0 人点赞

#sparse-autoencoders

共享潜在结构实现LLMs中后门攻击的统一检测与缓解

arXiv cs.AI ↗ · 2026-06-09 缓存

本文识别了LLMs中不同后门行为之间的共享潜在机制，利用稀疏自编码器检测并因果抑制这些特征，从而在多种模型和攻击类型中实现统一的后门检测与缓解。

0 人收藏 0 人点赞

#sparse-autoencoders

Query Lens：利用间接效应解释稀疏键值特征

arXiv cs.LG ↗ · 2026-06-09 缓存

Query Lens 扩展了 Logit Lens，通过联合考虑编码器侧的键特征和解码器侧的值特征，并计入来自下游模块的间接效应，来解释稀疏自编码器特征。该论文还提出了子空间通道假说，表明下游模块通过特定层的子空间读取特征。

0 人收藏 0 人点赞

#sparse-autoencoders

使用稀疏自编码器解释与引导文本转语音语言模型

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

本文对CosyVoice3文本转语音语言模型应用稀疏自编码器，发现可解释的特征，这些特征可被引导以控制笑声、说话者性别和语速等属性，同时保留内容。

0 人收藏 0 人点赞

#sparse-autoencoders

稀疏自编码器中概念学习与神经元解释的几何视角

arXiv cs.LG ↗ · 2026-06-08 缓存

本文提出了一个统一的几何框架，用于理解稀疏自编码器中的概念学习和神经元解释，将概念形式化为集合，并定义了检测、分离和近似。它提供了误差界、容量约束，并与形式概念分析建立了联系，同时在合成数据上进行了实验。

0 人收藏 0 人点赞

#sparse-autoencoders

自动解释标签的泛化程度：跨语言、文字和改写的一项受控研究

arXiv cs.CL ↗ · 2026-06-02 缓存

本文利用塞尔维亚双文制作为受控测试平台，探究稀疏自编码器特征的自动生成标签是否跨语言和文字泛化。研究发现，尽管特征集在不同语言间存在显著重叠，但标签通常未能追踪非英语输入中的同一概念，尤其是在代表性较弱的文字中。

0 人收藏 0 人点赞

#sparse-autoencoders

@bclavie: 非常兴奋终于能分享这个，已经藏着太久了！现在它非常应景。博客文章很快就会…

X AI KOLs Timeline ↗ · 2026-05-30 缓存

研究人员使用经过重构训练的稀疏自编码器，从冻结的密集检索器中提取出可索引且适用于BM25的稀疏特征。

0 人收藏 0 人点赞

#sparse-autoencoders

@lateinteraction: Late-interaction稀疏检索？利用神经元级倒排索引，基于无监督稀疏自编码器。效果更佳…

X AI KOLs Timeline ↗ · 2026-05-30 缓存

本文提出了一种使用无监督稀疏自编码器和自然倒排索引的单阶段稀疏编码方法，以加速多向量检索，其效果优于传统的基于k-means的方法。

0 人收藏 0 人点赞

#sparse-autoencoders

@_reachsumit: Latent Terms: 密集检索器包含可轻松提取的BM25就绪齐普夫词汇表 @bclavie 等人提取中…

X AI KOLs Following ↗ · 2026-05-29 缓存

该论文提出 Latent Terms 方法，使用稀疏自编码器从冻结的密集检索器中提取BM25就绪的稀疏特征，无需检索特定训练即可实现有竞争力的性能。

0 人收藏 0 人点赞

#sparse-autoencoders

扩展单义性：从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI ↗ · 2026-05-29 缓存

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征，解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性，并涵盖欺骗、谄媚等安全相关概念，且对模型输出具有因果影响。

0 人收藏 0 人点赞

#sparse-autoencoders

何时与多久？时间推理中的读出-中介角度

arXiv cs.LG ↗ · 2026-05-29 缓存

本文引入读出-中介角度，证明线性探针可以从语言模型激活中解码出与模型实际因果计算正交的信息，从而削弱了基于探针的可解释性。该发现跨模型规模和系列得到复现，揭示出使用探针进行机制理解或安全监控的一个根本性失败模式。

0 人收藏 0 人点赞

#sparse-autoencoders

LoRA适配器的特征几何：微调语言模型中表征差异的稀疏自编码器分析

arXiv cs.LG ↗ · 2026-05-29 缓存

本文使用稀疏自编码器分析了语言模型中LoRA诱导表征的几何结构，发现LoRA更新占据的部分特征结构无法完全被预训练的可解释性词典捕获。

0 人收藏 0 人点赞

#sparse-autoencoders

表示对齐基于线性结构

arXiv cs.LG ↗ · 2026-05-29 缓存

本文研究了Platonic Representation Hypothesis，提出对齐源于表示中的线性结构，并引入了一个包含信号、偏置和噪声的统计框架。

0 人收藏 0 人点赞

#sparse-autoencoders

MechELK：一种用于从大型语言模型中引出潜在知识的机制可解释性框架

arXiv cs.CL ↗ · 2026-05-29 缓存

MechELK 是一个三阶段框架，结合机制可解释性工具（SAE、激活修补、因果探测）与表示工程，从大型语言模型中引出潜在知识，实现了84.7%的准确率，优于CCS和线性探测等现有方法。

0 人收藏 0 人点赞

#sparse-autoencoders

特征抽奖？概念涌现的分岔理论

arXiv cs.LG ↗ · 2026-05-26 缓存

本文提出了一种表征动力学的分岔理论，用于检测神经网络在训练过程中何时获得结构化表征。该理论利用对GMM探针的黑塞矩阵分析，得到的比值β/β_c作为一种无标签的相位坐标，能够预测可用结构的出现，并在训练早期预判稀疏自编码器中的特征可解释性。

0 人收藏 0 人点赞

sparse-autoencoders

提交意见反馈