标签
本文指出了在使用LoRA进行LLM强化学习时,令牌级信用分配中存在的一种结构性失效模式,即内在信号退化。它提出了适配器残差信用分配(ARCA),该方法从适配器的隐藏状态残差中推导令牌显著性,并与基线方法保持竞争力。
RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。