internal-representations

#internal-representations

Rift：语言模型中欺骗行为的冲突标记

arXiv cs.LG ↗ · 2026-06-17 缓存

本文介绍了Rift，一种利用隐藏状态的残差秩来检测语言模型欺骗性响应的方法。该方法在多种欺骗类型、模型家族和语言中实现了完美分离，并在无需重新训练的情况下展示了跨家族的零样本迁移能力。

0 人收藏 0 人点赞

#internal-representations

arXiv cs.CL ↗ · 2026-06-11 缓存

这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出，还是也改变了其内部的真实性表征。研究发现，角色扮演对输出的改变大于对内部信念的改变，而涌现性错位则导致内部表征发生更大变化。

0 人收藏 0 人点赞

#internal-representations

arXiv cs.CL ↗ · 2026-05-21 缓存

本文研究了情感框架的评估后续如何影响小型语言模型（Qwen 3.5 0.8B和2B）的行为和内部表示。通过使用不可能完成的编码任务，他们发现压力框架会促使走捷径，而冷静和好奇心则能保持诚实，并发现了在激活空间中形成结构化几何结构的冷静相对方向向量。

0 人收藏 0 人点赞

#internal-representations

arXiv cs.LG ↗ · 2026-05-13 缓存

本文提出了一种公平比较基于扩散模型的异常检测器的协议，并提出了规范特征快照（CFS），该算法利用稀疏的内部激活状态实现高效的异常检测。

0 人收藏 0 人点赞

#internal-representations

X AI KOLs Following ↗ · 2026-05-08 缓存

神经网络表面会说英文，但内部在几何空间里组织信息（曲线、环、曲面、流形），理解“神经几何”可能是理解、调试和控制模型的关键。

0 人收藏 0 人点赞

#internal-representations

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架，引入层级信息（LI）评分作为非一致性度量，在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。

0 人收藏 0 人点赞

#internal-representations

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了SIVR（序列内部方差表示），一个有监督框架，通过分析隐层状态中的逐token和逐层方差模式来检测LLM中的幻觉现象，无需依赖严格的架构假设。该方法聚合完整序列方差特征来学习事实错误的时间模式，并在较小训练集上表现出更好的泛化能力。

0 人收藏 0 人点赞