标签
爱沙尼亚语言研究所发布了一个开放基准,用于评估LLM在爱沙尼亚语中的表现,涵盖语言能力、推理、事实准确性以及抵制宣传的能力,结果显示在英语基准上表现强劲的模型在较小语言环境中可能表现不同。
爱沙尼亚语言研究所开展的一项基准测试评估了各大LLM抵御俄罗斯宣传内容的能力,结果显示Nvidia的Nemotron、阿里巴巴的Qwen以及OpenAI的GPT-4.5表现优异,而Google的Gemini系列模型则表现出明显的薄弱之处,尤其是在以俄语提问时。