标签
本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成,结合双重提示策略,并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名,优于所有基线模型,证明了模型多样性的价值。
本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。
AtManRL 是一种通过可微分注意力操作和强化学习来训练大语言模型的方法,旨在确保推理令牌因果地影响最终预测,从而生成更忠实的思维链推理。在 GSM8K 和 MMLU 上使用 Llama-3.2-3B 进行的实验表明,该方法能够识别具有影响力的推理令牌并提高推理透明度。