sparse-autoencoder

标签

Cards List
#sparse-autoencoder

利用语言模型的稀疏特征解读大脑对语言的反应

arXiv cs.CL · 2026-06-08 缓存

本文介绍了Augmented Sparse Encoding Models,利用语言模型的稀疏特征解读大脑对语言的反应,并在高场7T fMRI数据上进行了验证。该模型恢复了已知的神经调谐特性,并发现了一个新的体素群体,该群体对与人相关的内容具有调谐特性。

0 人收藏 0 人点赞
#sparse-autoencoder

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers · 2026-06-05 缓存

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。

0 人收藏 0 人点赞
#sparse-autoencoder

量化如何改变可解释特征:语言模型的稀疏自编码器分析

arXiv cs.LG · 2026-06-03 缓存

本文研究了在全精度语言模型中由稀疏自编码器识别的可解释特征在量化后是否仍然忠实,发现系统性的退化,而像困惑度这样的行为指标可能无法捕捉到这种退化。

0 人收藏 0 人点赞
#sparse-autoencoder

潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架

arXiv cs.AI · 2026-06-02 缓存

介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。

0 人收藏 0 人点赞
#sparse-autoencoder

我构建了一个工具,能实时展示GPT-2在生成文本时的“思维”过程:每个令牌的概念激活3D图 [R]

Reddit r/MachineLearning · 2026-05-19

一位开发者构建了AXON,该工具利用稀疏自编码器将GPT-2的内部概念激活可视化为实时3D力导向图,使用户能够在令牌生成前看到可解释特征的激活情况。

0 人收藏 0 人点赞
#sparse-autoencoder

Qwen-Scope:将稀疏特征转化为大语言模型的开发工具

arXiv cs.CL · 2026-05-13 缓存

本文介绍了 Qwen-Scope,这是一套在 Qwen3 和 Qwen3.5 模型上训练的稀疏自编码器(SAE)工具包,旨在实现机械可解释性分析与干预。该工具包发布了涵盖密集和 MoE 骨干网络的 14 组 SAE 权重,为残差流激活提供了稀疏表示。

0 人收藏 0 人点赞
#sparse-autoencoder

WriteSAE:面向循环状态的稀疏自编码器

Hugging Face Daily Papers · 2026-05-12 缓存

WriteSAE 引入了第一个稀疏自编码器,能够分解状态空间模型和混合循环语言模型中的矩阵缓存写入,相比现有方法实现了更优的令牌级干预。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈