hidden-state

#hidden-state

不要让LLM说话，直接探测它（8分钟阅读）

TLDR AI ↗ · 20小时前缓存

本文介绍了一种技术，该技术从LLM的最后一个提示标记处提取隐藏状态，无需文本生成即可进行分类，使用一个小型MLP读取模型的内部决策，从而实现快速且廉价的零样本分类器。

0 人收藏 0 人点赞

#hidden-state

arXiv cs.CL ↗ · 2026-05-26 缓存

介绍AERIC，一种轻量级隐藏状态监测方法，用于检测LLM对话中的隐式有害内容，无需额外的前向传递，在强基线上实现了AUROC提升，且延迟开销极小。

0 人收藏 0 人点赞

#hidden-state

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出DiHAL，一种扩散-变换器混合模型，利用基于几何的代理选择预训练语言模型中的某个层，通过扩散桥进行隐藏状态替换，通过避免直接的词元恢复来改进连续扩散语言建模。

0 人收藏 0 人点赞