标签
介绍ROK-FORTRESS,一个双语基准测试,用于衡量语言和地缘政治背景如何共同影响大语言模型(LLM)的安全行为,以英韩语言对和美韩地缘政治轴为案例研究。研究结果表明,语言和背景之间的相互作用是仅通过翻译评估所无法捕捉的。