标签
CRAFT是一个统一的反事实推理框架,通过构建原始陈述和反事实变体,从双向推理路径中提取证据,并通过加权机制进行整合,从而提升了表格问答和事实验证的效果。在WikiTQ和TabFact数据集上的实验表明,该框架持续优于基线方法。
本文介绍了CHARM框架,用于检测和缓解多步骤智能体RAG流水线中的级联幻觉问题——早期阶段产生的错误会在推理步骤中不断传播并放大。CHARM在多个基准测试中实现了89.4%的级联检测率和82.1%的错误传播降低率,且延迟开销较低。
本文介绍了SEEK,一个用于多语言事实核查中语义证据提取的框架,该框架从完整文章中构建连贯的证据块,并使用LoRA微调多语言大语言模型,在宏观F1分数上相比基线提升了高达20%。
本文介绍了NEI-CAP,一种用于评估事实核查基准中“信息不足”示例构建方式的诊断协议,揭示了在易于取巧的NEI构建上训练的模型无法迁移到更难的、语义相关的信息不足案例上。
本文利用脑电图记录研究人类处理AI生成的幻觉内容时的神经动力学,揭示了错误判断与正确判断幻觉之间的不同认知模式及差异。
RADAR 提出角色锚定的多智能体辩论框架,让“政客”与“科学家”智能体在证据上对抗推理,识别因遗漏语境而具误导性的半真半假,在 omission-aware 事实验证上全面超越基线。