multilingual-benchmark

标签

Cards List
#multilingual-benchmark

ROK-FORTRESS:衡量地缘政治翻译创作对国家安全与公共安全的影响

arXiv cs.CL · 2026-05-15 缓存

介绍ROK-FORTRESS,一个双语基准测试,用于衡量语言和地缘政治背景如何共同影响大语言模型(LLM)的安全行为,以英韩语言对和美韩地缘政治轴为案例研究。研究结果表明,语言和背景之间的相互作用是仅通过翻译评估所无法捕捉的。

0 人收藏 0 人点赞
#multilingual-benchmark

CulturALL:评测大模型多语言多文化能力的实景基准

arXiv cs.CL · 2026-04-22 缓存

CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。

0 人收藏 0 人点赞
#multilingual-benchmark

MORPHOGEN:评估性别感知形态生成的多语言基准

arXiv cs.CL · 2026-04-22 缓存

研究者发布 MORPHOGEN,一个多语言基准,用于测试大模型能否在法语、阿拉伯语和印地语中将第一人称句子改写为相反性别,同时保留原意。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈