标签
本文介绍了一种技术,该技术从LLM的最后一个提示标记处提取隐藏状态,无需文本生成即可进行分类,使用一个小型MLP读取模型的内部决策,从而实现快速且廉价的零样本分类器。
介绍AERIC,一种轻量级隐藏状态监测方法,用于检测LLM对话中的隐式有害内容,无需额外的前向传递,在强基线上实现了AUROC提升,且延迟开销极小。
本文提出DiHAL,一种扩散-变换器混合模型,利用基于几何的代理选择预训练语言模型中的某个层,通过扩散桥进行隐藏状态替换,通过避免直接的词元恢复来改进连续扩散语言建模。