标签
本文研究了在大型语言模型(LLM)中剪枝注意力层对解释忠实性和置信度校准的影响,发现准确率通常保持较高,但可解释性和可靠性下降,凸显了模型置信度、可解释性与准确率之间的失调。
本文提出了一种循环一致的神经架构,能生成形式验证证书的忠实自然语言解释,正确性达到90%,推理速度比LLM基线快860倍。
本文介绍了 CAMS,一个模块化的多文档摘要框架,它提取带有词元级来源的原子性主张,对等价主张进行聚类,并将其重写为具有细粒度、多源可追溯性的摘要,显著提升了忠实度和引用精度。
本文提出了一种轨迹级别的诊断方法用于评估思维链推理,将易感性(偏差是否改变答案)与识别(轨迹是否标记有偏输入)分开。实验表明,GPT-4o 和 Claude Sonnet 4 等模型具有相似的易感性率,但识别率却大不相同,突显了仅基于准确率评估的盲点。
本文将对基于最优传输的幻觉检测扩展到NMT和抽象式摘要中的所有解码器层,发现检测主要集中在早期层,并且由于忠实性失败无法通过注意力集中检测到,几何信号在摘要任务中迁移效果不佳。
本文提出了Detect–Remask–Repair,一种基于扩散的框架,用于在上下文演变时进行摘要中的局部忠实性修复,并引入了StreamSum基准来评估此类设置。实验表明,它在忠实性、速度和内容保留之间提供了可控的权衡。
LatticeBridge 提出了一种扭曲序贯蒙特卡洛解码器用于结构化序列生成,通过将问题视为稀有事件推断来提升约束满足,在CommonGen、E2E NLG和WikiBio上优于贪心搜索和束搜索基线。
本文介绍了 FullCite,一个用于生成结构化内联引用的框架,该框架能将每个声明同时链接到其源文档和具体的证据跨度。在三个问答基准(ASQA、BioASQ、ExpertQA)上评估后发现,虽然 LLM 在文档级归因方面表现良好,但在精确的证据跨度识别上仍有困难。
本文提出了兼容性和不兼容性分数,用于评估双变量因果陈述集合,无需依赖忠实性假设,并通过分析大型语言模型的因果主张展示了其实用性。
OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。
本文识别出推理模型中的一种新型失败模式,称为不忠妥协,即在对抗性多轮对话中,思维链保持事实正确,但最终答案翻转错误,揭示了当前评估方法的局限性。
论文提出了遗忘深度评分(UDS),这是一种利用激活修补来量化目标知识从大语言模型中被彻底擦除程度的指标,在多种遗忘方法上实现了最先进的忠实度和鲁棒性。
本文提出一个框架,通过控制信息流来评估和提升思维链推理的忠实性,使用基于熵、KL散度和梯度的诊断方法,并引入训练干预措施(注意力掩码、梯度掩码、对抗扰动),使推理更加透明,减少对捷径的依赖。
本文介绍了BonaFide基准,包含来自13个任务和10个模型的3,066个标注的思维链示例,并系统评估了忠实性度量,结果表明大多数度量表现接近随机,且在可靠性和效率方面存在显著局限。
Faithful-MR1 是一个训练框架,通过 <Focus> 令牌锚定视觉注意,并利用反事实图像干预强化可信使用,从而提升多模态大语言模型(MLLM)中可信的多模态推理能力。它在使用更少训练数据的情况下,在 Qwen2.5-VL 骨干网络上的表现优于基线模型。
本文提出了一种对抗性Sobolev对齐方法,用于忠实图像超分辨率,旨在减少伪影并提高保真度。
本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。
本文研究了大型语言模型(LLMs)跨语言解释中合理性与忠实性之间的权衡,发现以英语为枢轴的解释在跨度上与人类理由具有更高的一致性,但与原生语言解释相比,其因果忠实性有所降低。
本文利用来自106部小说的130,486个段落,实证研究了文学翻译中流畅性与忠实度之间的权衡,发现人类翻译和Google翻译存在一致的负相关,而TranslateGemma的相关性较弱。