explainability

#explainability

地球嵌入中有什么？位置编码器的可解释性分析

arXiv cs.LG ↗ · 16小时前缓存

本文介绍了将地理隐式神经表示中的位置嵌入分解为人类可解释特征的方法，例如稀疏潜在概念、自然语言概念和视觉特征，揭示了森林和城市区域等地理结构。

0 人收藏 0 人点赞

#explainability

多传感器融合泛化失败：动物级别和时间分布偏移下的牛姿态分类

arXiv cs.LG ↗ · 16小时前缓存

本文评估了多传感器融合在时间分布偏移下对牛姿态分类的稳健性，发现多模态模型性能显著下降，而更简单的单传感器模型泛化能力更好，揭示了捷径学习问题。

0 人收藏 0 人点赞

#explainability

别让我的LLM崩溃：注意力层剪枝对解释忠实性与置信度校准的影响

arXiv cs.LG ↗ · 16小时前缓存

本文研究了在大型语言模型（LLM）中剪枝注意力层对解释忠实性和置信度校准的影响，发现准确率通常保持较高，但可解释性和可靠性下降，凸显了模型置信度、可解释性与准确率之间的失调。

0 人收藏 0 人点赞

#explainability

复杂性如何促成机器学习中的学习不透明性

arXiv cs.LG ↗ · 16小时前缓存

本文通过将机器学习（尤其是神经网络）的学习过程视为复杂动态系统，分析了其为何在学习过程中保持不透明，指出了导致学习不透明性的三个关键特性，并论证了某些不透明源可能是不可约的。

0 人收藏 0 人点赞

#explainability

良好解释的定义与解释LLM输出的挑战

arXiv cs.AI ↗ · 2026-06-16 缓存

本文基于反事实和先验信念提出了良好解释的定义，并探讨了在此定义下解释LLM输出固有的困难。

0 人收藏 0 人点赞

#explainability

将未来行为预测作为学习任务

arXiv cs.AI ↗ · 2026-06-11 缓存

本文提出了 Behavior Forecasters，一种从推理轨迹中预测 LRM 未来行为（如答案一致性和输入敏感性）的学习方法，以更低的成本超越了 GPT-5.4 和 Claude Opus 4.6。

0 人收藏 0 人点赞

#explainability

反事实行为的几何视角：决策边界接近性与局部数据支撑的交互作用

arXiv cs.LG ↗ · 2026-06-04 缓存

本文通过几何视角审视机器学习模型中的反事实行为，表明预测性能相似的模型，由于决策边界接近性与局部数据支撑之间的交互作用，其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度，对模型选择及反事实解释方法的可靠性具有启示意义。

0 人收藏 0 人点赞

#explainability

模拟、推理、决策：基于LLM的科学推理驱动仿真决策

arXiv cs.AI ↗ · 2026-06-04 缓存

密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架，使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理，而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。

0 人收藏 0 人点赞

#explainability

SafeRx-Agent：一个基于知识的多智能体框架，用于安全且可解释的药物推荐

arXiv cs.CL ↗ · 2026-05-29 缓存

介绍了SafeRx-Agent，一种基于知识的多智能体框架，用于安全且可解释的药物推荐，可生成细粒度的ATC代码预测，同时控制药物相互作用和禁忌症，在MIMIC-III和MIMIC-IV数据集上进行了评估。

0 人收藏 0 人点赞

#explainability

展示而非告知：可解释的AI生成文本检测

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

介绍TELL，一种AI生成文本检测系统，它在提供数值评分的同时给出可解释的标注，实现了具有竞争力的AUROC 0.927，并允许用户根据高亮的文本指标判断作者身份。

0 人收藏 0 人点赞

#explainability

归因合同：生成式语言模型中的特征归因

arXiv cs.LG ↗ · 2026-05-25 缓存

本文介绍了归因合同（Attribution Contract），这是生成式语言模型中特征归因声明的一种规范，解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例，展示了归因何时具有信息量，何时可能产生误导。

0 人收藏 0 人点赞

#explainability

2026年AI最难的环节不是构建工作流，而是向传统利益相关者解释“概率性输出”。

Reddit r/ArtificialInteligence ↗ · 2026-05-24

文章认为，AI在2026年的主要挑战并非技术开发，而是如何向习惯于确定性保证的传统利益相关者沟通概率性输出，这需要解释和说服的技巧。

0 人收藏 0 人点赞

#explainability

INSIGHTS: 基于示范的时间序列预测摘要

arXiv cs.LG ↗ · 2026-05-20

INSIGHTS 是一种模型无关的方法，通过生成多样化、信息丰富的样本摘要来提供时间序列模型的全局解释，这些摘要捕捉特定领域的行为，在用户研究中优于局部归因方法。

0 人收藏 0 人点赞

#explainability

解释是否必要且充分？调优LLM用于可解释的虚假信息检测

arXiv cs.CL ↗ · 2026-05-20 缓存

本文提出了一种专门用于可解释虚假信息检测的LLM微调流水线，并介绍了一种数据合成方法LonsRex，用于生成必要且充分的解释，解决了仅基于标签正确性进行简单过滤的局限性。

0 人收藏 0 人点赞

#explainability

GESD：超越结果导向的公平性

arXiv cs.LG ↗ · 2026-05-18 缓存

本文提出了GESD，一种面向过程的公平性度量，用于衡量不同子组之间解释稳定性的差异，并将其集成到一个多目标优化框架中，以联合优化效用、结果公平性和解释公平性。

0 人收藏 0 人点赞

#explainability

FairHealth：一个面向资源匮乏地区可信医疗AI的开源Python库

arXiv cs.LG ↗ · 2026-05-12 缓存

FairHealth 是一个专为资源匮乏环境下的可信医疗AI设计的开源Python库，提供公平性审计、隐私保护型联邦学习和可解释性模块。

0 人收藏 0 人点赞

#explainability

我运营着一个基于AI的事实核查平台，却坚决不让大语言模型给出最终判定。以下是我的理由。

Reddit r/artificial ↗ · 2026-05-11

作者详细阐述了不让LLM生成最终事实核查判定的决定，转而采用混合架构：LLM负责数据提取，确定性Python层负责评分，并指出了随机不稳定性和可审计性的问题。

0 人收藏 0 人点赞

#explainability

从模型到数据 (M2D)：将图神经网络 (GNN) 的复杂性转移到图结构中以提升图学习的透明度

arXiv cs.LG ↗ · 2026-05-11 缓存

本文介绍了“模型到数据 (M2D)”蒸馏框架，该框架通过将复杂性从图神经网络转移到数据空间，从而提升架构的透明度和可解释性。

0 人收藏 0 人点赞

#explainability

TriEx：基于博弈的三视角框架，揭示多智能体LLM内部推理

arXiv cs.CL ↗ · 2026-04-23 缓存

TriEx提出一种三视角博弈框架，将自我推理、对手信念状态与神谕审计对齐，使多智能体LLM决策可被审计，并揭示所述理由与实际行为之间的错配。

0 人收藏 0 人点赞

#explainability

CFMS：面向可解释细粒度中文多模态讽刺检测基准

arXiv cs.CL ↗ · 2026-04-21 缓存

北京大学研究人员提出了CFMS，这是首个细粒度中文多模态讽刺检测基准，包含2,796个图像-文本对和三级标注框架（讽刺识别、目标识别、解释生成），以及一种新颖的强化学习增强上下文学习方法（PGDS），该方法显著优于现有基线。

0 人收藏 0 人点赞

explainability

提交意见反馈