标签
本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。
本文研究了大语言模型如何处理否定与比喻语言的组合,发现这种组合构成了特殊挑战,且模型表现高度依赖于提示风格。作者为Fig-QA数据集新增了标注,并通过分析嵌入空间揭示了时态和具体性等额外语言因素的影响。
介绍BioDivergence,一个用于检测生物医学摘要中上下文条件矛盾的基准与评估框架,包含六类冲突分类法和一个由11,865个声明对构成的银标准数据集。
SHALA-LLM是一个强化学习框架,使大语言模型能够直接从标注者分布中学习,并在对齐过程中动态优先处理高模糊样本,从而提升与人类标签分布的一致性及分类性能。
提出了一种多粒度推理网络(MGRN),该网络显式利用层次语义特征进行自然语言推断,在多个基准测试中优于强基线模型。
介绍了SEA-NLI,一个基于文化的自然语言推理基准,涵盖八个东南亚国家,揭示了LLMs在特定文化知识上的低性能,尤其是在语言和科学/技术方面。结果表明,文化感知提示有所帮助,但思维链提升有限。
本文利用AfriXNLI基准测试,研究标注数据大小对16种非洲语言自然语言推理性能的影响。结果表明,缩放行为对语言敏感且通常非单调,挑战了常见的单调改进假设,并强调了需要为特定语言创建数据集以及更强的多语言策略。
本文提出了一种基于自然语言推理(NLI)的语义验证框架,用于评估临床大语言模型对保留语义的提示变化的敏感性,并引入了MVS、ΔC和WCI等度量指标。结果表明,领域专业化并不能持续提高鲁棒性,领域专用模型和通用模型的表现均参差不齐。
LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线,在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。
# 专家乘积训练减少自然语言推理中的数据集伪影 来源:[https://arxiv.org/html/2604.19069](https://arxiv.org/html/2604.19069) ###### 摘要 神经NLI模型过度拟合数据集伪影而非真正推理。仅假设模型在SNLI上达到57.7%,显示出强烈虚假关联,其中38.6%的基线错误源于这些伪影。作者提出专家乘积(PoE)训练,对偏见模型过度自信的样本降权。
# 分词失败、分布偏移及针对性缓解策略 来源:[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效:分词失败、分布偏移及针对性缓解策略 ###### 摘要 我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时,非正式表层形式如何降低 ELECTRA-small(14M)和 RoBERTa-large(355M)的自然语言推理准确率:俚语替换、表情符号替换、Gen-Z 填充词,以及它们的