linear-probe

标签

Cards List
#linear-probe

Rift:语言模型中欺骗行为的冲突标记

arXiv cs.LG · 2026-06-17 缓存

本文介绍了Rift,一种利用隐藏状态的残差秩来检测语言模型欺骗性响应的方法。该方法在多种欺骗类型、模型家族和语言中实现了完美分离,并在无需重新训练的情况下展示了跨家族的零样本迁移能力。

0 人收藏 0 人点赞
#linear-probe

余弦相似度具有误导性:辅助损失重塑了视觉语言模型,而非其潜变量

Hugging Face Daily Papers · 2026-06-04 缓存

该论文挑战了“监督潜变量与视觉目标之间的余弦对齐能提高视觉语言模型准确性”的假设,发现了强烈的负相关。引入了PRISM诊断方法,揭示答案是从潜变量下游解码的,而非潜变量内部,并且辅助损失通过共享参数重塑了语言模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈