QIMMA قِمّة ⛰: 以质量为核心的阿拉伯语 LLM 排行榜

Hugging Face Blog 2026/04/21 10:09 工具

arabic-nlp llm-evaluation leaderboard tiiuae benchmark-quality large-language-models validation

摘要

QIMMA 是由 TII UAE 推出的全新以质量为核心的阿拉伯语 LLM 排行榜，它在评估前对基准测试进行验证，以确保性能测量的准确性。该排行榜通过严格的多阶段验证流程，解决了现有阿拉伯语 NLP 基准测试中存在的系统性质量问题。

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:03

QIMMA قِمّة ⛰：以质量为先的阿拉伯语 LLM 排行榜

来源：https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard 返回文章 (https://huggingface.co/blog)

🔍 问题所在：阿拉伯语 NLP 评估碎片化且未经充分验证 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%8D-the-problem-arabic-nlp-evaluation-is-fragmented-and-unvalidated)
⛰ QIMMA 包含什么？ (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%E2%9B%B0-whats-in-qimma)
🔬 质量验证流程 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%AC-the-quality-validation-pipeline)- 第一阶段：多模型自动评估 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#stage-1-multi-model-automated-assessment) - 第二阶段：人工标注与审核 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#stage-2-human-annotation-and-review)
⚠️ 我们的发现：系统性质量问题 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%E2%9A%A0%EF%B8%8F-what-we-found-systematic-quality-problems)- 数据概览 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#by-the-numbers) - 问题分类 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#taxonomy-of-issues-found)
💻 代码基准测试：另一种质量工作 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%92%BB-code-benchmark-a-different-kind-of-quality-work)
⚙️ 评估设置 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%E2%9A%99%EF%B8%8F-evaluation-setup)- 评估框架 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#evaluation-framework) - 按任务类型的指标 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#metrics-by-task-type) - 提示模板 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#prompt-templates)
排行榜结果 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%8F%86-leaderboard-results)- 规模与性能的关系 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#the-size-performance-relationship)
🌟 QIMMA 的独特之处 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%8C%9F-what-makes-qimma-different)
🔗 资源 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%97-resources)
🔖 引用 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%96-citation)

image (https://cdn-uploads.huggingface.co/production/uploads/66c8620a79b42e5c941b0265/NCnP1M7Ce__41kiS-V7hW.png)

QIMMA 在评估模型之前先验证基准测试，确保报告的分数真实反映 LLM 的阿拉伯语语言能力。

如果你一直在关注阿拉伯语 LLM 评估，你可能已经注意到一个日益突出的矛盾：基准测试和排行榜的数量在快速增长，但我们是否真的在测量我们认为自己在测量的东西？

我们构建了 QIMMA قمّة（阿拉伯语意为“顶峰“），来系统地回答这个问题。与直接聚合现有阿拉伯语基准测试并运行模型不同，我们在任何评估开始之前就应用了严格的质量验证流程。我们的发现令人警醒：即使是广泛使用、备受推崇的阿拉伯语基准测试，也存在系统性的质量问题，这些问题会悄然腐蚀评估结果。

本文将介绍 QIMMA 是什么、我们如何构建它、发现了哪些问题，以及清理之后模型排名呈现怎样的面貌。

image (https://cdn-uploads.huggingface.co/production/uploads/66c8620a79b42e5c941b0265/JFGUze00t2twAEsj6XxCm.png)

🔍 问题所在：阿拉伯语 NLP 评估碎片化且未经充分验证

阿拉伯语有 4 亿多使用者，涵盖多样的方言和文化背景，但阿拉伯语 NLP 评估领域仍然碎片化。以下几个关键痛点推动了这项工作：

翻译问题。 许多阿拉伯语基准测试是从英语翻译而来的。这会引入分布偏移。在英语中自然的问题，翻译成阿拉伯语后变得别扭或文化错位，使基准数据难以代表阿拉伯语的自然使用方式。

缺乏质量验证。 即使是原生阿拉伯语基准测试，在发布时也常常缺乏严格的质量检查。标注不一致、错误的标准答案、编码错误以及标准标签中的文化偏见等问题，在已有资源中都有记录。

可复现性差距。 评估脚本和逐样本输出很少公开发布，这使得结果审计或后续工作难以开展。

覆盖碎片化。 现有排行榜覆盖孤立的任务和狭窄的领域，难以进行全面的模型评估。

为了说明 QIMMA 相对于现有平台的位置：

排行榜	开源	原生阿拉伯语	质量验证	代码评估	公开输出
OALL v1	✅	混合	❌	❌	✅
OALL v2	✅	mostly	❌	❌	✅
BALSAM	部分	50%	❌	❌	❌
AraGen	✅	100%	✅	❌	❌
SILMA ABL	✅	100%	✅	❌	✅
ILMAAM	部分	100%	✅	❌	❌
HELM Arabic	✅	混合	❌	❌	✅
⛰ QIMMA	✅	99%	✅	✅	✅

QIMMA 是唯一一个同时具备以下五种特性的平台：开源、以原生阿拉伯语内容为主、系统化质量验证、代码评估，以及公开逐样本推理输出。

⛰ QIMMA 包含什么？

QIMMA 将 14 个来源基准测试 的 109 个子集 整合为统一的评估套件，包含超过 52,000 个样本，涵盖 7 个领域：

领域	基准测试	任务类型
文化	AraDiCE-Culture, ArabCulture, PalmX	MCQ
STEM	ArabicMMLU, GAT, 3LM STEM	MCQ
法律	ArabLegalQA, MizanQA	MCQ, QA
医学	MedArabiQ, MedAraBench	MCQ, QA
安全	AraTrust	MCQ
诗歌与文学	FannOrFlop	QA
编程	3LM HumanEval+, 3LM MBPP+	Code

这一设计有几个突出特点：

99% 原生阿拉伯语内容。 唯一的例外是代码评估，这本质上是语言无关的。
首个包含代码评估的阿拉伯语排行榜。 QIMMA 整合了 HumanEval+ 和 MBPP+ 的阿拉伯语适配版本，使得用阿拉伯语题目陈述评估编程能力成为可能。
领域和任务的多样性。 QIMMA 评估现实世界的能力领域，包括教育、治理、医疗、创意表达和软件开发。

🔬 质量验证流程

这是 QIMMA 的方法论核心。在运行任何模型之前，我们对每个基准测试中的每个样本应用了多阶段验证流程。

第一阶段：多模型自动评估

每个样本由两个最先进的 LLM 独立评估：

Qwen3-235B-A22B-Instruct
DeepSeek-V3-671B

我们选择了两个具有强大阿拉伯语能力但训练数据组成不同的模型，因此它们的联合判断比单独任何一个都更可靠。

每个模型根据10 点评分标准对样本进行评分，每项标准为二元分数（0 或 1）：

QIMMA 流程

如果任一模型给样本打分低于 7/10，该样本将被淘汰。两个模型都同意淘汰的样本直接丢弃。然而，如果只有一个模型标记了某个样本，则进入第二阶段的人工审核。

第二阶段：人工标注与审核

被标记的样本由具有文化和方言背景的阿拉伯语母语者审核。人工标注员对以下内容做最终判断：

文化背景和区域变体
方言细微差别
主观解读
自动评估可能遗漏的细微质量问题

对于文化敏感内容，会考虑多种视角，因为“正确性“在不同阿拉伯地区之间确实可能存在差异。

⚠️ 我们的发现：系统性质量问题

该流程揭示了各基准测试中反复出现的质量问题；这不是孤立错误，而是反映基准测试原始构建方式存在差距的系统性模式。

数据概览

基准测试	总样本数	丢弃数	丢弃率
ArabicMMLU	14,163	436	3.1%
MizanQA	1,769	412	2.3%
PalmX	3,001	250	0.8%
MedAraBench	4,960	33	0.7%
FannOrFlop	6,984	43	0.6%
ArabCulture	3,482	7	0.2%
MedArabiQ	499	1	0.2%
GAT	13,986	1	~0.0%
3LM STEM	2,609	1	~0.0%
AraDiCE-Culture	180	0	0.0%
ArabLegalQA	790	0	0.0%
AraTrust	522	0	0.0%

问题分类

⚖️ 答案质量

错误或匹配错误的黄金索引、事实性错误答案、缺失或原始文本答案。

📄 文本和格式质量

损坏或难以辨认的文本、拼写和语法错误，以及重复样本。

💬 文化敏感性

强化刻板印象和对多元社区的单一化概括。

🤝 标准答案合规性

标准答案与评估协议不一致。

💻 代码基准测试：另一种质量工作

代码基准测试需要不同的干预方式。我们没有丢弃样本，而是对 3LM 的 HumanEval+ 和 MBPP+ 阿拉伯语适配版本中的阿拉伯语题目陈述进行了优化，任务标识符、参考解决方案和测试套件完全保持不变。

修改比例令人瞩目：

基准测试	总提示数	已修改	未修改	修改率
3LM HumanEval+	164	145	19	88%
3LM MBPP+	378	308	70	81%

修改分为五类：

语言优化：规范化为自然的现代标准阿拉伯语，保持祈使语气一致
清晰度提升：修复歧义指令和不明确的约束条件
一致性规范化：统一数学术语、标点符号和示例格式
结构性修正：修复损坏的三引号字符串、缩进错误、损坏的文本片段
语义优化：明确范围是否包含端点，保留任务意图

⚙️ 评估设置

评估框架

QIMMA 使用 LightEval (https://github.com/huggingface/lighteval)、EvalPlus (https://github.com/evalplus/evalplus) 和 FannOrFlop (https://github.com/mbzuai-oryx/FannOrFlop) 作为其评估框架，选择依据是一致性、多语言社区采用度和可复现性。

按任务类型的指标

任务类型	指标	基准测试
MCQ	归一化对数似然准确率	AraDiCE-Culture, ArabicMMLU, ArabCulture, PalmX, 3LM STEM, MedArabiQ, GAT, MedAraBench, AraTrust
多选 MCQ	黄金选项上的概率质量	MizanQA
生成式 QA	F1 BERTScore (AraBERT v02)	MedArabiQ, ArabLegalQA, FannOrFlop
编程	Pass@1	3LM HumanEval+, 3LM MBPP+

提示模板

QIMMA 按题目格式标准化提示，共有六种模板类型：

QIMMA 提示模板MCQ：通用多选题 · MCQ-C：带上下文段落的多选题 · MCQ-I：带特定指令的多选题（GAT 类比/补全） · QA：通用开放式问答 · QA-C：带上下文的问答 · QA-F：填空式问答

所有提示均为阿拉伯语。对于 MizanQA 和 ArabCulture，保留原始论文中的基准测试特定系统提示。

🏆 排行榜结果

截至 2026 年 4 月的结果；涵盖前 10 名已评估模型。访问实时排行榜获取当前排名。

排名	模型	平均分	AraDiCE-Culture	ArabicMMLU	ArabCulture	PALMX	3LM STEM	AraTrust	MizanQA	MedArabiQ	ArabLegalQA	GAT	MedAraBench	HumanEval+	MBPP+	FannOrFlop
🥇 1	Qwen/Qwen3.5-397B-A17B-FP8	68.06	82.78	77.54	61.75	83.91	88.67	90.04	73.36	47.30	54.94	55.89	47.97	67.68	76.72	44.33
🥈 2	Applied-Innovation-Center/Karnak	66.20	73.33	80.94	53.49	81.40	93.10	89.08	55.92	55.78	71.58	61.06	54.19	33.54	64.55	58.91
🥉 3	inceptionai/Jais-2-70B-Chat	65.81	78.89	81.29	83.24	83.73	87.96	90.23	71.78	52.79	69.60	51.67	50.89	19.51	43.65	56.13
#4	Qwen/Qwen2.5-72B-Instruct	65.75	77.22	73.78	63.83	77.77	87.55	88.51	63.49	50.06	70.74	55.90	44.19	37.20	72.75	57.51
#5	Applied-Innovation-Center/AIC-1	65.37	73.33	72.02	77.52	76.11	88.13	90.61	56.36	53.75	68.96	62.11	50.78	28.05	69.58	47.83
#6	Qwen/Qwen3.5-122B-A10B	64.84	74.44	73.17	37.78	81.46	86.18	86.97	64.01	47.04	55.11	50.90	52.49	65.24	72.43	60.54
#7	Sakalti/Ultiima-72B	64.49	78.33	72.28	68.79	76.75	83.70	89.08	60.44	44.58	69.12	46.91	42.25	39.02	74.07	57.56
#8	meta-llama/Llama-3.3-70B-Instruct	63.96	77.22	71.57	78.05	77.95	88.28	85.63	67.44	56.25	64.00	51.13	54.86	27.44	71.16	24.43
#9	Qwen/Qwen2.5-32B-Instruct	63.26	70.56	68.76	75.80	72.07	81.03	85.82	53.78	48.08	69.27	56.94	36.51	34.15	72.75	93.10
#10	FreedomIntelligence/AceGPT-v2-32B-Chat	61.14	76.67	70.62	79.79	74.46	84.88	86.97	63.89	49.96	71.46	56.04	47.32	23.78	54.50	15.56

规模并不能保证最佳性能。 前 10 名涵盖从 32B 到 397B 参数的模型，多个中等规模模型在特定领域超越了更大模型。
阿拉伯语专用模型在文化和语言任务上领先。 Jais-2-70B-Chat 在 ArabicMMLU 和 ArabCulture 上排名最高，而 Karnak 在 3LM STEM 和 ArabLegalQA 上领先。
编程仍是阿拉伯语专用模型最难的领域。 HumanEval+ 和 MBPP+ 的最高分属于多语言模型，Qwen3.5-397B 在两项上均领先。

规模与性能的关系

纵观完整排行榜（46 个模型），规模与性能之间存在明显但不完美的相关性。然而，也存在有趣的例外：

c64aafc7-1 (https://cdn-uploads.huggingface.co/production/uploads/66c8620a79b42e5c941b0265/KPdYTBwzMvJEyALTYfGji.png)

阿拉伯语专用模型经常超越同等规模的多语言模型
指令微调模型持续超越其基础版本，Qwen3 除外
一些较小的阿拉伯语专用模型（Fanar-1-9B, ALLaM-7B）在特定领域超越大得多的多语言模型

🌟 QIMMA 的独特之处

总结 QIMMA 的 distinctive 特性：

特性	详情
质量优先理念	验证在评估之前进行，而非事后补救
多模型验证	两个训练数据不同的 LLM + 对标记案例的人工审核
99% 原生阿拉伯语	几乎完全避免翻译产物
多领域、多任务	7 个领域，3 种任务类型（MCQ、QA、编程），109 个子集
编程评估	首个包含代码生成的阿拉伯语排行榜
完全透明	公开逐样本推理输出，而非仅聚合分数
基于 LightEval	统一、可复现的评估代码库
方言意识	在提示和评分标准中明确处理现代标准阿拉伯语与方言变体

🔗 资源

🔖 引用

@misc{qimma2025,
  title={QIMMA: A Quality-First Arabic LLM Leaderboard},
  author={TII UAE},
  year={2025},
  howpublished={\url{https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard}}
}