标签
介绍LoFa,一个用于评估大语言模型在说服语境中面对逻辑谬误的鲁棒性的综合基准,包含多智能体流程和多轮辩论框架。
介绍LPDS,一个通过缩放逻辑保持变体的难度来系统评估LLM鲁棒性的框架,发现性能下降高达随机采样的5倍,并在更难变体上训练提高了鲁棒性。
本研究探讨了“文本恐怖谷”现象,即随着词边界破坏程度的增加,大语言模型(LLM)在信息检索任务中的表现出现非单调性下降。作者提出了“模式转换假说”以解释这种U型性能曲线,并证明了该假说与现实世界中噪声文本输入的相关性。
本文介绍了 WARDEN,一种用于大型语言模型的分布鲁棒对抗训练框架。该框架利用 f-散度动态调整对抗样本的权重,在显著降低攻击成功率的同时保持了计算效率。
本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。
本论文研究了监督微调(SFT)如何通过导致知识退化而增加大语言模型的幻觉问题,并提出了一种基于自蒸馏的方法来缓解这一问题,同时保留预训练阶段获得的既有事实知识。作者将语义干涉识别为SFT引起幻觉的主要机制,并演示了包括参数冻结和自蒸馏在内的解决方案。