probing

标签

Cards List
#probing

野外探测:无监督发音分析下自监督语音表示在普通话次方言中的案例研究

arXiv cs.CL · 2026-06-25 缓存

本文通过无监督发音探测进行案例研究,探讨自监督语音模型如何在普通话次方言中编码语音特征,发现唇音性等显著特征保持稳定,而更精细的频谱区别则表现出方言依赖的变化。

0 人收藏 0 人点赞
#probing

MemTrace:探究最终准确率在长期记忆中遗漏的内容

arXiv cs.AI · 2026-06-17 缓存

MemTrace 是一个基准,它在知识点层面评估 LLM 代理的记忆,探究事实在不同记忆年龄、问题类型和证据条件下的表现。它揭示出汇总的准确率掩盖了不同的失败模式,并且主要瓶颈是证据的使用而非检索。

0 人收藏 0 人点赞
#probing

Vernier: 探究因果推理中词汇缺口背后的表征错位

arXiv cs.CL · 2026-06-16 缓存

本文探究了为何指令调优的语言模型在将变量名替换为占位符后,对因果推理问题给出不同答案,发现问题源于表征错位而非信息丢失。作者引入了Vernier方法,通过配对视图权重更新和机制检查,揭示出答案相关内容在占位符视图中仍然存在但错位。

0 人收藏 0 人点赞
#probing

当探测精度饱和时,脆弱性解析:LLM预训练分析的补充指标

arXiv cs.CL · 2026-06-11 缓存

本文引入了'脆弱性'这一探测精度的补充指标,它衡量导致探测精度崩溃的激活噪声水平,从而能够在精度饱和后分析LLM预训练过程中的表示演化。

0 人收藏 0 人点赞
#probing

不要让LLM说话,直接探测它(8分钟阅读)

TLDR AI · 2026-06-11 缓存

本文介绍了一种技术,该技术从LLM的最后一个提示标记处提取隐藏状态,无需文本生成即可进行分类,使用一个小型MLP读取模型的内部决策,从而实现快速且廉价的零样本分类器。

0 人收藏 0 人点赞
#probing

幻觉可从量化大语言模型中间层隐藏状态线性解码

arXiv cs.LG · 2026-06-03 缓存

本文研究开源量化大语言模型的隐藏状态中是否编码了线性可分的真实性信号。在三个7B-8B指令调优模型上,对单个网络中间层的线性探针在幻觉检测基准上达到0.904-1.000 AUROC,优于基于采样的方法。

0 人收藏 0 人点赞
#probing

何时与多久?时间推理中的读出-中介角度

arXiv cs.LG · 2026-05-29 缓存

本文引入读出-中介角度,证明线性探针可以从语言模型激活中解码出与模型实际因果计算正交的信息,从而削弱了基于探针的可解释性。该发现跨模型规模和系列得到复现,揭示出使用探针进行机制理解或安全监控的一个根本性失败模式。

0 人收藏 0 人点赞
#probing

探究大语言模型中的最简阶段结构:通用依存关系无法表达的内容

arXiv cs.CL · 2026-05-27 缓存

本文研究大语言模型是否编码了通用依存关系(UD)无法捕捉的句法抽象(如阶段边界),通过在wh-移动刺激上设计UD距离不变的结构探针,在13个LLM中发现了阶段结构表示的证据,且这些表示具有因果活性。

0 人收藏 0 人点赞
#probing

哪种预训练范式更能服务于空间智能?视觉语言模型与视频生成模型的实证比较

Hugging Face Daily Papers · 2026-05-27 缓存

本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。

0 人收藏 0 人点赞
#probing

Polar Probe线性解码LLM中的语义结构

arXiv cs.CL · 2026-05-15 缓存

本文提出了一种Polar Probe,通过在学习的子空间中用距离和方向表示实体关系,从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明,该编码出现在中间层,能泛化到新实体,并对模型预测产生因果影响。

0 人收藏 0 人点赞
#probing

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers · 2026-05-10 缓存

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

0 人收藏 0 人点赞
#probing

预测阅读时间的探针研究

arXiv cs.CL · 2026-04-22 缓存

研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈