semantic-understanding

#semantic-understanding

当相似意味着不同：评估LLM在阿拉伯语-希伯来语同源词上的表现

arXiv cs.CL ↗ · 2026-06-12 缓存

本文介绍了SemCog Bench，这是一个精心整理的基准测试，包含1,858个阿拉伯语-希伯来语词对，并带有句子级别的注释，用于评估LLM区分真同源词、假同源词和借词的能力。结果显示，模型在真同源词上准确率很高，但在假同源词上准确率大幅下降，突显了跨语言语义推理中的一个关键局限性。

0 人收藏 0 人点赞

#semantic-understanding

arXiv cs.CL ↗ · 2026-05-13 缓存

本文提出了一个面向安全、感知后果的大型语言模型空中交通管制评估框架，揭示了高总体准确率掩盖了在处理高风险语义错误方面的显著可靠性问题。

0 人收藏 0 人点赞