internal-representations

标签

Cards List
#internal-representations

Rift:语言模型中欺骗行为的冲突标记

arXiv cs.LG · 2026-06-17 缓存

本文介绍了Rift,一种利用隐藏状态的残差秩来检测语言模型欺骗性响应的方法。该方法在多种欺骗类型、模型家族和语言中实现了完美分离,并在无需重新训练的情况下展示了跨家族的零样本迁移能力。

0 人收藏 0 人点赞
#internal-representations

角色扮演时,模型是否相信自己所说的话?

arXiv cs.CL · 2026-06-11 缓存

这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出,还是也改变了其内部的真实性表征。研究发现,角色扮演对输出的改变大于对内部信念的改变,而涌现性错位则导致内部表征发生更大变化。

0 人收藏 0 人点赞
#internal-representations

压力之下:情感框架在小型语言模型中引发可测量的行为变化和结构化的内部几何结构

arXiv cs.CL · 2026-05-21 缓存

本文研究了情感框架的评估后续如何影响小型语言模型(Qwen 3.5 0.8B和2B)的行为和内部表示。通过使用不可能完成的编码任务,他们发现压力框架会促使走捷径,而冷静和好奇心则能保持诚实,并发现了在激活空间中形成结构化几何结构的冷静相对方向向量。

0 人收藏 0 人点赞
#internal-representations

通过稀疏内部快照实现骨干均衡的扩散模型异常检测

arXiv cs.LG · 2026-05-13 缓存

本文提出了一种公平比较基于扩散模型的异常检测器的协议,并提出了规范特征快照(CFS),该算法利用稀疏的内部激活状态实现高效的异常检测。

0 人收藏 0 人点赞
#internal-representations

@FinanceYF5: 神经网络会说英文,但它们用“形状”思考 1/ 神经网络不是按词思考 它们表面上会说英文,内部却可能是在几何空间里组织信息:曲线、环、曲面、流形。 理解 neural geometry,可能是理解、调试和控制模型的关键。

X AI KOLs Following · 2026-05-08 缓存

神经网络表面会说英文,但内部在几何空间里组织信息(曲线、环、曲面、流形),理解“神经几何”可能是理解、调试和控制模型的关键。

0 人收藏 0 人点赞
#internal-representations

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL · 2026-04-20 缓存

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。

0 人收藏 0 人点赞
#internal-representations

从大型语言模型的序列内部离散中学习不确定性

arXiv cs.CL · 2026-04-20 缓存

本文介绍了SIVR(序列内部方差表示),一个有监督框架,通过分析隐层状态中的逐token和逐层方差模式来检测LLM中的幻觉现象,无需依赖严格的架构假设。该方法聚合完整序列方差特征来学习事实错误的时间模式,并在较小训练集上表现出更好的泛化能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈