标签
本文介绍了将地理隐式神经表示中的位置嵌入分解为人类可解释特征的方法,例如稀疏潜在概念、自然语言概念和视觉特征,揭示了森林和城市区域等地理结构。
本文评估了多传感器融合在时间分布偏移下对牛姿态分类的稳健性,发现多模态模型性能显著下降,而更简单的单传感器模型泛化能力更好,揭示了捷径学习问题。
本文研究了在大型语言模型(LLM)中剪枝注意力层对解释忠实性和置信度校准的影响,发现准确率通常保持较高,但可解释性和可靠性下降,凸显了模型置信度、可解释性与准确率之间的失调。
本文通过将机器学习(尤其是神经网络)的学习过程视为复杂动态系统,分析了其为何在学习过程中保持不透明,指出了导致学习不透明性的三个关键特性,并论证了某些不透明源可能是不可约的。
本文提出了 Behavior Forecasters,一种从推理轨迹中预测 LRM 未来行为(如答案一致性和输入敏感性)的学习方法,以更低的成本超越了 GPT-5.4 和 Claude Opus 4.6。
本文通过几何视角审视机器学习模型中的反事实行为,表明预测性能相似的模型,由于决策边界接近性与局部数据支撑之间的交互作用,其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度,对模型选择及反事实解释方法的可靠性具有启示意义。
密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。
介绍了SafeRx-Agent,一种基于知识的多智能体框架,用于安全且可解释的药物推荐,可生成细粒度的ATC代码预测,同时控制药物相互作用和禁忌症,在MIMIC-III和MIMIC-IV数据集上进行了评估。
介绍TELL,一种AI生成文本检测系统,它在提供数值评分的同时给出可解释的标注,实现了具有竞争力的AUROC 0.927,并允许用户根据高亮的文本指标判断作者身份。
本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。
文章认为,AI在2026年的主要挑战并非技术开发,而是如何向习惯于确定性保证的传统利益相关者沟通概率性输出,这需要解释和说服的技巧。
INSIGHTS 是一种模型无关的方法,通过生成多样化、信息丰富的样本摘要来提供时间序列模型的全局解释,这些摘要捕捉特定领域的行为,在用户研究中优于局部归因方法。
本文提出了一种专门用于可解释虚假信息检测的LLM微调流水线,并介绍了一种数据合成方法LonsRex,用于生成必要且充分的解释,解决了仅基于标签正确性进行简单过滤的局限性。
本文提出了GESD,一种面向过程的公平性度量,用于衡量不同子组之间解释稳定性的差异,并将其集成到一个多目标优化框架中,以联合优化效用、结果公平性和解释公平性。
FairHealth 是一个专为资源匮乏环境下的可信医疗AI设计的开源Python库,提供公平性审计、隐私保护型联邦学习和可解释性模块。
作者详细阐述了不让LLM生成最终事实核查判定的决定,转而采用混合架构:LLM负责数据提取,确定性Python层负责评分,并指出了随机不稳定性和可审计性的问题。
本文介绍了“模型到数据 (M2D)”蒸馏框架,该框架通过将复杂性从图神经网络转移到数据空间,从而提升架构的透明度和可解释性。
TriEx提出一种三视角博弈框架,将自我推理、对手信念状态与神谕审计对齐,使多智能体LLM决策可被审计,并揭示所述理由与实际行为之间的错配。
北京大学研究人员提出了CFMS,这是首个细粒度中文多模态讽刺检测基准,包含2,796个图像-文本对和三级标注框架(讽刺识别、目标识别、解释生成),以及一种新颖的强化学习增强上下文学习方法(PGDS),该方法显著优于现有基线。