标签
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
本文通过几何视角审视机器学习模型中的反事实行为,表明预测性能相似的模型,由于决策边界接近性与局部数据支撑之间的交互作用,其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度,对模型选择及反事实解释方法的可靠性具有启示意义。
本文认为非线性因果发现中的标量边分数掩盖了状态依赖效应,并提出使用Neural Additive Vector Autoregression和Individual Conditional Expectation的函数值因果影响。
一个利用基于场景的行为探测和激活引导来评估和引导大语言模型中文化价值的框架,揭示了价值维度之间的潜在纠缠。
本文首次系统性地分析了基于轨迹的数据归因方法的误差来源,指出优化器不匹配是主要误差,提出了AdamW-influence来解决该问题,并通过K步前瞻框架提供了数据选择的实用指南。
本文评估了安全关键型自动目标识别(ATR)系统中的可解释性方法,突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架,以解决虚假解释和不稳定性等问题,倡导采用更稳健、基于因果关系的XAI方法。
OpenAI提出一种新颖的“忏悔”训练方法,激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认,在压力测试评估中检测不良行为的假阴性率仅为4.4%。