LLM在爱沙尼亚语中的表现
摘要
爱沙尼亚语言研究所发布了一个开放基准,用于评估LLM在爱沙尼亚语中的表现,涵盖语言能力、推理、事实准确性以及抵制宣传的能力,结果显示在英语基准上表现强劲的模型在较小语言环境中可能表现不同。
爱沙尼亚语言研究所(EKI)发布了一个开放基准,用于评估LLM在爱沙尼亚语中的表现。该基准超越了简单的语言理解,评估了多个维度,包括:
• 爱沙尼亚语语言能力
• 推理和问题解决
• 事实准确性
• 抵制宣传和操控性提示的能力
• 不同任务间的可靠性
一个有趣的结果是,领先模型在受叙事引导和宣传式提示影响方面的表现存在显著差异。在通用基准上表现良好的模型,在较小语言的信息环境中测试时,并不一定同样出色。
该基准和结果已公开:https://moodupuu.eki.ee/
这是一个有用的例子,说明仅基于英语基准评估LLM可能会忽略在较小语言和本地信息生态系统中显现的重要弱点。我很想听听这里的人们如何评估非英语语言,以及是否应该将抵制宣传/操控能力作为标准基准类别。
相似文章
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
# 这些大语言模型在抵御俄罗斯宣传方面表现最佳
爱沙尼亚语言研究所开展的一项基准测试评估了各大LLM抵御俄罗斯宣传内容的能力,结果显示Nvidia的Nemotron、阿里巴巴的Qwen以及OpenAI的GPT-4.5表现优异,而Google的Gemini系列模型则表现出明显的薄弱之处,尤其是在以俄语提问时。
UA-Legal-Bench:评估大语言模型在乌克兰法律推理能力的基准
介绍了UA-Legal-Bench,这是一个基于统一国家法院判决登记册构建的、用于评估大语言模型在乌克兰法律推理能力的五项任务基准。评估了11个LLM,揭示了任务相关的少样本效应以及在不平衡法律任务中准确率的误导性。
大语言模型在最长简单链式推理任务上的表现如何:关于等价类问题的实证研究
本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。