标签
本文介绍了SemCog Bench,这是一个精心整理的基准测试,包含1,858个阿拉伯语-希伯来语词对,并带有句子级别的注释,用于评估LLM区分真同源词、假同源词和借词的能力。结果显示,模型在真同源词上准确率很高,但在假同源词上准确率大幅下降,突显了跨语言语义推理中的一个关键局限性。
本文提出了一个面向安全、感知后果的大型语言模型空中交通管制评估框架,揭示了高总体准确率掩盖了在处理高风险语义错误方面的显著可靠性问题。