model-interpretability

标签

Cards List
#model-interpretability

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers · 2026-06-05 缓存

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。

0 人收藏 0 人点赞
#model-interpretability

反事实行为的几何视角:决策边界接近性与局部数据支撑的交互作用

arXiv cs.LG · 2026-06-04 缓存

本文通过几何视角审视机器学习模型中的反事实行为,表明预测性能相似的模型,由于决策边界接近性与局部数据支撑之间的交互作用,其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度,对模型选择及反事实解释方法的可靠性具有启示意义。

0 人收藏 0 人点赞
#model-interpretability

非线性时间序列中的函数值因果影响

arXiv cs.LG · 2026-05-27 缓存

本文认为非线性因果发现中的标量边分数掩盖了状态依赖效应,并提出使用Neural Additive Vector Autoregression和Individual Conditional Expectation的函数值因果影响。

0 人收藏 0 人点赞
#model-interpretability

通过潜在激活引导的大语言模型文化价值对齐

arXiv cs.CL · 2026-05-27 缓存

一个利用基于场景的行为探测和激活引导来评估和引导大语言模型中文化价值的框架,揭示了价值维度之间的潜在纠缠。

0 人收藏 0 人点赞
#model-interpretability

基于轨迹的数据归因的可靠性如何?误差来源、修复方法及实践指南

arXiv cs.LG · 2026-05-20

本文首次系统性地分析了基于轨迹的数据归因方法的误差来源,指出优化器不匹配是主要误差,提出了AdamW-influence来解决该问题,并通过K步前瞻框架提供了数据选择的实用指南。

0 人收藏 0 人点赞
#model-interpretability

评估安全关键型ATR系统中的可解释性:事后方法的局限性与迈向稳健型XAI的路径

arXiv cs.AI · 2026-05-08 缓存

本文评估了安全关键型自动目标识别(ATR)系统中的可解释性方法,突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架,以解决虚假解释和不稳定性等问题,倡导采用更稳健、基于因果关系的XAI方法。

0 人收藏 0 人点赞
#model-interpretability

忏悔如何让语言模型保持诚实

OpenAI Blog · 2025-12-03 缓存

OpenAI提出一种新颖的“忏悔”训练方法,激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认,在压力测试评估中检测不良行为的假阴性率仅为4.4%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈