natural-language-inference

#natural-language-inference

LLM归因指标能否迁移？跨数据集与构念的检索增强生成评估审计

arXiv cs.CL ↗ · 昨天缓存

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计，发现同一构念内没有单一指标能在数据集间迁移，挑战了将它们视为可互换的常见做法。

0 人收藏 0 人点赞

#natural-language-inference

如同火箭科学般简单：评估大语言模型理解比喻语言中否定表达的能力

arXiv cs.CL ↗ · 2026-06-18 缓存

本文研究了大语言模型如何处理否定与比喻语言的组合，发现这种组合构成了特殊挑战，且模型表现高度依赖于提示风格。作者为Fig-QA数据集新增了标注，并通过分析嵌入空间揭示了时态和具体性等额外语言因素的影响。

0 人收藏 0 人点赞

#natural-language-inference

BioDivergence：面向生物医学摘要中隐藏上下文矛盾的基准与评估框架

arXiv cs.CL ↗ · 2026-06-11 缓存

介绍BioDivergence，一个用于检测生物医学摘要中上下文条件矛盾的基准与评估框架，包含六类冲突分类法和一个由11,865个声明对构成的银标准数据集。

0 人收藏 0 人点赞

#natural-language-inference

SHALA-LLM: 智能处理大模型对齐中的模糊标签

arXiv cs.LG ↗ · 2026-06-05 缓存

SHALA-LLM是一个强化学习框架，使大语言模型能够直接从标注者分布中学习，并在对齐过程中动态优先处理高模糊样本，从而提升与人类标签分布的一致性及分类性能。

0 人收藏 0 人点赞

#natural-language-inference

自然语言推断的多粒度推理

arXiv cs.CL ↗ · 2026-06-05 缓存

提出了一种多粒度推理网络（MGRN），该网络显式利用层次语义特征进行自然语言推断，在多个基准测试中优于强基线模型。

0 人收藏 0 人点赞

#natural-language-inference

SEA-NLI：以自然语言推理透视东南亚文化理解

arXiv cs.CL ↗ · 2026-06-03 缓存

介绍了SEA-NLI，一个基于文化的自然语言推理基准，涵盖八个东南亚国家，揭示了LLMs在特定文化知识上的低性能，尤其是在语言和科学/技术方面。结果表明，文化感知提示有所帮助，但思维链提升有限。

0 人收藏 0 人点赞

#natural-language-inference

非洲语言NLI评估的样本量缩放

arXiv cs.CL ↗ · 2026-06-03 缓存

本文利用AfriXNLI基准测试，研究标注数据大小对16种非洲语言自然语言推理性能的影响。结果表明，缩放行为对语言敏感且通常非单调，挑战了常见的单调改进假设，并强调了需要为特定语言创建数据集以及更强的多语言策略。

0 人收藏 0 人点赞

#natural-language-inference

同一位患者，不同的表述，不同的诊断？评估临床大语言模型的语义稳定性

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出了一种基于自然语言推理（NLI）的语义验证框架，用于评估临床大语言模型对保留语义的提示变化的敏感性，并引入了MVS、ΔC和WCI等度量指标。结果表明，领域专业化并不能持续提高鲁棒性，领域专用模型和通用模型的表现均参差不齐。

0 人收藏 0 人点赞

#natural-language-inference

LLMBridge：面向英语端到端指称桥接解析的LLM流水线

arXiv cs.CL ↗ · 2026-05-29 缓存

LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线，在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。

0 人收藏 0 人点赞

#natural-language-inference

# 专家乘积训练减少自然语言推理中的数据集伪影来源：[https://arxiv.org/html/2604.19069](https://arxiv.org/html/2604.19069) ###### 摘要神经NLI模型过度拟合数据集伪影而非真正推理。仅假设模型在SNLI上达到57.7%，显示出强烈虚假关联，其中38.6%的基线错误源于这些伪影。作者提出专家乘积（PoE）训练，对偏见模型过度自信的样本降权。

0 人收藏 0 人点赞

#natural-language-inference

当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略

arXiv cs.CL ↗ · 2026-04-21 缓存

# 分词失败、分布偏移及针对性缓解策略来源：[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略 ###### 摘要我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时，非正式表层形式如何降低 ELECTRA-small（14M）和 RoBERTa-large（355M）的自然语言推理准确率：俚语替换、表情符号替换、Gen-Z 填充词，以及它们的

0 人收藏 0 人点赞

natural-language-inference

提交意见反馈