标签
本文介绍了Rift,一种利用隐藏状态的残差秩来检测语言模型欺骗性响应的方法。该方法在多种欺骗类型、模型家族和语言中实现了完美分离,并在无需重新训练的情况下展示了跨家族的零样本迁移能力。
这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出,还是也改变了其内部的真实性表征。研究发现,角色扮演对输出的改变大于对内部信念的改变,而涌现性错位则导致内部表征发生更大变化。
本文研究了情感框架的评估后续如何影响小型语言模型(Qwen 3.5 0.8B和2B)的行为和内部表示。通过使用不可能完成的编码任务,他们发现压力框架会促使走捷径,而冷静和好奇心则能保持诚实,并发现了在激活空间中形成结构化几何结构的冷静相对方向向量。
本文提出了一种公平比较基于扩散模型的异常检测器的协议,并提出了规范特征快照(CFS),该算法利用稀疏的内部激活状态实现高效的异常检测。
神经网络表面会说英文,但内部在几何空间里组织信息(曲线、环、曲面、流形),理解“神经几何”可能是理解、调试和控制模型的关键。
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。
本文介绍了SIVR(序列内部方差表示),一个有监督框架,通过分析隐层状态中的逐token和逐层方差模式来检测LLM中的幻觉现象,无需依赖严格的架构假设。该方法聚合完整序列方差特征来学习事实错误的时间模式,并在较小训练集上表现出更好的泛化能力。