标签
CaVe-VLM-CoT是一个基于模块化反思的智能体RAG框架,专为视觉-语言模型设计,通过五阶段流水线强制执行基于证据的推理,在ScienceQA上达到87.1%的准确率,并提出了一套包含23项指标的评估体系。
介绍了MODE-RAG,一个多智能体系统,利用变分自由能和蒙特卡洛树搜索动态门控干预,以减轻多模态检索增强生成系统中的幻觉,同时提供了ModeVent评估数据集。
本文提出了一种多智能体‘信任但验证’系统,旨在减少大语言模型中的医疗幻觉。该系统在关于违禁药物的临床问题上测试了三种开放获取模型,实现了53%的幻觉错误率降低。
讨论优化DiffusionGemma推理、减少幻觉以及提高工具使用和代理性能的多种方法,包括熵约束采样、模式脚手架和去噪期间的检索。
本文提出NTS-CoT,一种使用思维链推理来减轻基于LLM的新闻时间线摘要中幻觉的新框架。它引入了三个模块——Element-CoT、Date Selection和Causal-CoT——以提高忠实度并减少遗漏,在三个基准测试上优于最先进的基线模型。
本文介绍了MGAP,一种无需训练的解码方法,通过自适应地仅抑制语言先验中的有害部分,同时保留模型的语义流形,从而减少多模态大语言模型中的幻觉。该方法在POPE和CHAIR基准测试上优于先前的基线方法。
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
TIGER是一个推理时框架,通过提取观察图和声明图并分配风险评分来修复不支持的事实,从而减轻多模态生成中的幻觉。它在图像到文本、图像+文本到文本、音频到文本和视频到文本任务中减少了不支持的内容。
# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院
本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。
FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。
PSRD 框架通过分阶段自奖励解码和蒸馏轻量奖励模型,无需额外监督即可将 LVLM 的多模态幻觉降低一半。