multilingual-benchmark

#multilingual-benchmark

ROK-FORTRESS：衡量地缘政治翻译创作对国家安全与公共安全的影响

arXiv cs.CL ↗ · 2026-05-15 缓存

介绍ROK-FORTRESS，一个双语基准测试，用于衡量语言和地缘政治背景如何共同影响大语言模型（LLM）的安全行为，以英韩语言对和美韩地缘政治轴为案例研究。研究结果表明，语言和背景之间的相互作用是仅通过翻译评估所无法捕捉的。

0 人收藏 0 人点赞

#multilingual-benchmark

arXiv cs.CL ↗ · 2026-04-22 缓存

CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准，用于检验大模型在真实文化场景下的表现；目前最佳模型仅得 44.48%，提升空间巨大。

0 人收藏 0 人点赞

#multilingual-benchmark

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者发布 MORPHOGEN，一个多语言基准，用于测试大模型能否在法语、阿拉伯语和印地语中将第一人称句子改写为相反性别，同时保留原意。

0 人收藏 0 人点赞