model-interpretability

#model-interpretability

视觉语言模型推理中的视觉访问边界

arXiv cs.AI ↗ · 2026-07-15 缓存

本文介绍了Visual Access Sweep，一种因果干预方法，用于衡量视觉语言模型推理所需的最小图像标记访问量，并发现思维链（Chain-of-Thought）提示并非主要通过延长直接图像访问来提升性能，而是通过在视觉信息上扩展语言侧计算来实现。

0 人收藏 0 人点赞

#model-interpretability

从方向到幅度：多模态指令调优如何重新组织Transformer隐藏状态中身份指定提示的几何编码

arXiv cs.LG ↗ · 2026-07-14 缓存

本文研究了多模态指令调优如何重新组织Transformer隐藏状态中身份指定提示的几何编码，发现指令调优后编码从基于方向转变为基于幅度。

0 人收藏 0 人点赞

#model-interpretability

交互式 Jacobian-Lens 可视化工具和实时引导器，用于 llama.cpp 上的 GGUF 模型

Reddit r/LocalLLaMA ↗ · 2026-07-12

交互式 Jacobian-Lens 可视化工具和实时引导器，适用于在 llama.cpp 上运行的 GGUF 模型，实现实时模型可解释性和控制。

0 人收藏 0 人点赞

#model-interpretability

过度思考：放大推理权重以提取习得秘密

arXiv cs.AI ↗ · 2026-07-10 缓存

介绍“过度思考”技术，通过放大推理蒸馏模型中的推理权重，诱导语言模型泄露隐藏信息，在2B-32B参数规模的模型上展示了高达10倍的秘密泄露效果。

0 人收藏 0 人点赞

#model-interpretability

WARP: 权重空间分析用于恢复训练数据组合

arXiv cs.LG ↗ · 2026-07-03 缓存

WARP是一种框架，通过模型合并生成伪检查点并提取几何特征，从已发布权重中恢复微调模型的域混合权重。它在BERT和GPT-2上实现了低平均绝对误差，优于成员推断。

0 人收藏 0 人点赞

#model-interpretability

思考标记有助于安全性吗？

Hugging Face Daily Papers ↗ · 2026-06-23 缓存

本文研究了推理模型的思考标记是否真正改善了安全对齐，发现安全结果可以从早期的隐藏表示中预测，且推理过程在很大程度上是表面化的，当前的安全干预措施导致了过度拒绝。

0 人收藏 0 人点赞

#model-interpretability

从稀疏特征到可信代理：认证基于SAE的可解释性

arXiv cs.LG ↗ · 2026-06-18 缓存

本文提出了一种事后认证框架，用于基于稀疏自编码器（SAE）的可解释性，通过可测量量推导出冻结语言模型风险的上界。该框架在GPT-2 Small、Gemma-2B和Llama-3-8B上得到了验证，显示出非空洞的界，并揭示了深度相关的行为。

0 人收藏 0 人点赞

#model-interpretability

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障，可以完全通过内部激活和稀疏自编码器来检测和缓解，无需微调即可大幅降低幻觉率。

0 人收藏 0 人点赞

#model-interpretability

反事实行为的几何视角：决策边界接近性与局部数据支撑的交互作用

arXiv cs.LG ↗ · 2026-06-04 缓存

本文通过几何视角审视机器学习模型中的反事实行为，表明预测性能相似的模型，由于决策边界接近性与局部数据支撑之间的交互作用，其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度，对模型选择及反事实解释方法的可靠性具有启示意义。

0 人收藏 0 人点赞

#model-interpretability

非线性时间序列中的函数值因果影响

arXiv cs.LG ↗ · 2026-05-27 缓存

本文认为非线性因果发现中的标量边分数掩盖了状态依赖效应，并提出使用Neural Additive Vector Autoregression和Individual Conditional Expectation的函数值因果影响。

0 人收藏 0 人点赞

#model-interpretability

通过潜在激活引导的大语言模型文化价值对齐

arXiv cs.CL ↗ · 2026-05-27 缓存

一个利用基于场景的行为探测和激活引导来评估和引导大语言模型中文化价值的框架，揭示了价值维度之间的潜在纠缠。

0 人收藏 0 人点赞

#model-interpretability

基于轨迹的数据归因的可靠性如何？误差来源、修复方法及实践指南

arXiv cs.LG ↗ · 2026-05-20

本文首次系统性地分析了基于轨迹的数据归因方法的误差来源，指出优化器不匹配是主要误差，提出了AdamW-influence来解决该问题，并通过K步前瞻框架提供了数据选择的实用指南。

0 人收藏 0 人点赞

#model-interpretability

评估安全关键型ATR系统中的可解释性：事后方法的局限性与迈向稳健型XAI的路径

arXiv cs.AI ↗ · 2026-05-08 缓存

本文评估了安全关键型自动目标识别（ATR）系统中的可解释性方法，突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架，以解决虚假解释和不稳定性等问题，倡导采用更稳健、基于因果关系的XAI方法。

0 人收藏 0 人点赞

#model-interpretability

忏悔如何让语言模型保持诚实

OpenAI Blog ↗ · 2025-12-03 缓存

OpenAI提出一种新颖的“忏悔”训练方法，激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认，在压力测试评估中检测不良行为的假阴性率仅为4.4%。

0 人收藏 0 人点赞

model-interpretability

提交意见反馈