MÖVE:德国公共部门的全面LLM基准

arXiv cs.CL 论文

摘要

MÖVE 是一个全面的基准测试,用于评估德国公共部门中的大型语言模型,涵盖 39 个模型在十个德语数据集上的性能和治理标准。

arXiv:2606.13111v1 公告类型:新 摘要:我们提出了 MÖVE(Modelle für die Öffentliche Verwaltung Evaluieren),这是一个针对德国公共部门背景下评估大型语言模型(LLM)的全面基准。尽管 LLM 在公共管理中的应用日益广泛,但模型选择在很大程度上仍是临时的,现有基准提供的指导有限:它们主要面向英语、内容以美国为中心,并且仅关注任务性能。MÖVE 通过评估 39 个模型的两个互补维度来弥补这些不足。性能标准涵盖摘要、问答和主题提取。治理标准评估幻觉倾向、能源消耗、提供商透明度以及与德国宪法价值观和对德国政党立场的认知的一致性。总共,我们使用了十个德语数据集,包括我们构建的反映公共管理领域的金标准和银标准数据集。我们采用了多指标评估策略,结合了经典 NLP 指标、基于嵌入的方法和 LLM 作为评判者的方法。我们的结果表明,没有单一模型在所有标准中占据主导地位:不同任务的最佳表现者不同,模型大小本身并不能很好地预测质量。我们还对基准本身进行了评估,分析了其统计精度、LLM 评判者的可靠性、私有数据集对模型排名的影响、结果对提示措辞的敏感性以及能源消耗估算的有效性。MÖVE 被设计为一个持续发展的活基准;结果可在 https://moeve.bundesdruckerei.de/ 公开获取。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:51

# MÖVE:针对德国公共部门的全面LLM基准测试

来源:https://arxiv.org/html/2606.13111

\\equalcont 这些作者对本文贡献相同。 \\equalcont 这些作者对本文贡献相同。 \\equalcont 这些作者对本文贡献相同。 \\equalcont 这些作者对本文贡献相同。

###### 摘要

我们提出 MÖVE(Modelle für die Öffentliche Verwaltung Evaluieren),这是一个用于在德国公共部门背景下评估大型语言模型(LLM)的全面基准测试。尽管LLM在公共管理中的应用日益广泛,但模型选择在很大程度上仍基于临时决策,现有基准测试提供的指导有限:它们主要面向英语、内容以美国为中心,且仅关注任务性能。MÖVE通过评估39个模型在两个互补维度上填补了这些空白:性能标准涵盖摘要生成、问答和主题提取;治理标准评估幻觉倾向、能耗、供应商透明度、与德国宪法价值观的一致性以及德国政党立场的知识。我们总共使用了十个德语数据集,包括我们构建的反映公共管理领域的金牌和银牌标准数据集。我们采用多指标评估策略,结合经典NLP指标、基于嵌入的方法和LLM作为评判的方法。我们的结果表明,没有一个模型在所有标准中占据主导地位:不同任务的最佳模型不同,仅凭模型大小无法很好地预测质量。我们还对基准测试本身进行了评估,分析了其统计精度、LLM评判的可靠性、私有数据集对模型排名的影响、结果对提示表述的敏感性以及能耗估计的有效性。MÖVE被设计为一个动态发展的基准测试,结果可在 https://moeve.bundesdruckerei.de/ 公开获取。

###### 关键词:大型语言模型,基准测试,德国公共部门,NLP,AI治理,可持续性,LLM评估

###### 目录
1. 1 引言 (https://arxiv.org/html/2606.13111#S1)
2. 2 相关工作 (https://arxiv.org/html/2606.13111#S2)
   1. 2.1 LLM基准测试 (https://arxiv.org/html/2606.13111#S2.SS1)
   2. 2.2 性能标准 (https://arxiv.org/html/2606.13111#S2.SS2)
   3. 2.3 治理标准 (https://arxiv.org/html/2606.13111#S2.SS3)
3. 3 MÖVE框架概述 (https://arxiv.org/html/2606.13111#S3)
   1. 3.1 目标群体 (https://arxiv.org/html/2606.13111#S3.SS1)
   2. 3.2 标准 (https://arxiv.org/html/2606.13111#S3.SS2)
      1. 3.2.1 性能标准 (https://arxiv.org/html/2606.13111#S3.SS2.SSS1)
      2. 3.2.2 治理标准 (https://arxiv.org/html/2606.13111#S3.SS2.SSS2)
   3. 3.3 评估设置 (https://arxiv.org/html/2606.13111#S3.SS3)
      1. 3.3.1 性能评估 (https://arxiv.org/html/2606.13111#S3.SS3.SSS1)
      2. 3.3.2 治理评估 (https://arxiv.org/html/2606.13111#S3.SS3.SSS2)
4. 4 方法论 (https://arxiv.org/html/2606.13111#S4)
   1. 4.1 数据集 (https://arxiv.org/html/2606.13111#S4.SS1)
   2. 4.2 模型 (https://arxiv.org/html/2606.13111#S4.SS2)
   3. 4.3 上下文窗口和截断策略 (https://arxiv.org/html/2606.13111#S4.SS3)
   4. 4.4 指标 (https://arxiv.org/html/2606.13111#S4.SS4)
   5. 4.5 性能标准 (https://arxiv.org/html/2606.13111#S4.SS5)
      1. 4.5.1 摘要生成 (https://arxiv.org/html/2606.13111#S4.SS5.SSS1)
      2. 4.5.2 问答 (https://arxiv.org/html/2606.13111#S4.SS5.SSS2)
      3. 4.5.3 主题提取 (https://arxiv.org/html/2606.13111#S4.SS5.SSS3)
   6. 4.6 治理标准 (https://arxiv.org/html/2606.13111#S4.SS6)
      1. 4.6.1 幻觉 (https://arxiv.org/html/2606.13111#S4.SS6.SSS1)
      2. 4.6.2 可持续性 (https://arxiv.org/html/2606.13111#S4.SS6.SSS2)
      3. 4.6.3 透明度 (https://arxiv.org/html/2606.13111#S4.SS6.SSS3)
      4. 4.6.4 政治与价值观 (https://arxiv.org/html/2606.13111#S4.SS6.SSS4)
5. 5 模型评估 (https://arxiv.org/html/2606.13111#S5)
   1. 5.1 性能标准 (https://arxiv.org/html/2606.13111#S5.SS1)
      1. 5.1.1 摘要生成 (https://arxiv.org/html/2606.13111#S5.SS1.SSS1)
      2. 5.1.2 问答 (https://arxiv.org/html/2606.13111#S5.SS1.SSS2)
      3. 5.1.3 主题提取 (https://arxiv.org/html/2606.13111#S5.SS1.SSS3)
   2. 5.2 治理标准 (https://arxiv.org/html/2606.13111#S5.SS2)
      1. 5.2.1 幻觉 (https://arxiv.org/html/2606.13111#S5.SS2.SSS1)
      2. 5.2.2 可持续性 (https://arxiv.org/html/2606.13111#S5.SS2.SSS2)
      3. 5.2.3 透明度 (https://arxiv.org/html/2606.13111#S5.SS2.SSS3)
      4. 5.2.4 政治与价值观 (https://arxiv.org/html/2606.13111#S5.SS2.SSS4)
6. 6 基准测试评估 (https://arxiv.org/html/2606.13111#S6)
   1. 6.1 基准精度分析 (https://arxiv.org/html/2606.13111#S6.SS1)
   2. 6.2 LLM评判可靠性 (https://arxiv.org/html/2606.13111#S6.SS2)
      1. 6.2.1 评判内部稳定性 (https://arxiv.org/html/2606.13111#S6.SS2.SSS1)
      2. 6.2.2 评判间一致性 (https://arxiv.org/html/2606.13111#S6.SS2.SSS2)
      3. 6.2.3 影响 (https://arxiv.org/html/2606.13111#S6.SS2.SSS3)
   3. 6.3 内部数据集的影响 (https://arxiv.org/html/2606.13111#S6.SS3)
   4. 6.4 提示敏感性 (https://arxiv.org/html/2606.13111#S6.SS4)
   5. 6.5 能耗估计的有效性 (https://arxiv.org/html/2606.13111#S6.SS5)
7. 7 结论与未来工作 (https://arxiv.org/html/2606.13111#S7)
   1. 7.1 结论 (https://arxiv.org/html/2606.13111#S7.SS1)
   2. 7.2 未来工作 (https://arxiv.org/html/2606.13111#S7.SS2)
      1. 7.2.1 评估范围 (https://arxiv.org/html/2606.13111#S7.SS2.SSS1)
      2. 7.2.2 方法论基础 (https://arxiv.org/html/2606.13111#S7.SS2.SSS2)
8. 参考文献 (https://arxiv.org/html/2606.13111#bib)
9. A 目标群体描述 (https://arxiv.org/html/2606.13111#A1)
10. B 用户提示 (https://arxiv.org/html/2606.13111#A2)
11. C 透明度矩阵 – 问题集 (https://arxiv.org/html/2606.13111#A3)

## 1 引言

大型语言模型(LLM)在公共管理中的应用日益广泛,它们被用于总结政策文件、生成对法律文本问题的回答、从冗长报告中提取关键主题以及自动化服务工作流程[fraunhofer_llm_publicadmin_2024]。在德国,这种应用恰逢公共部门面临日益加剧的人口和组织压力:在2024年约540万公共部门雇员中[destatis_publicservice_2025],预计到2030年将有超过100万人退休[pwc_publicsector_retention]。考虑到预期的劳动力缺口,LLM被广泛讨论为帮助维持服务交付和行政能力的一种手段。随着政府探索这些机会,选择哪个模型部署变得重要:模型选择影响输出质量、运营成本、能耗、法规遵从性,并最终影响公民和公务员对基于AI流程的信任。然而在实践中,德国公共部门的模型选择很少基于系统评估。根据我们与公共机构合作的广泛经验,我们观察到决策往往受到围绕新LLM发布的不平衡媒体报道或原产国偏好的驱动,例如倾向于国内供应商,认为德国模型天生更适合德语任务。虽然在没有更好信息的情况下这些启发式方法可以理解,但它们并非可靠的采购和部署决策基础,这些决策会影响大规模行政流程。

现有LLM基准测试对此提供的指导有限。最著名的通用基准测试,包括MMLU[hendrycks_measuring_2021]、BIG-Bench[srivastava_beyond_2023]和GLUE/SuperGLUE[wang-etal-2018-glue, wang-etal-2019-superglue],仅支持英语,侧重于知识检索或语言能力而非特定领域任务。多语言努力如Global MMLU[singh-etal-2025-global]和thellmann-etal-2024-towards的欧洲基准测试包含德语,但主要依赖翻译数据。然而,翻译只解决了语言差距,而非领域差距:基于美国公民知识或法律判例的基准测试不会仅仅因为被翻译成德语就自动变得与德国公务员相关。大多数现有基准测试未能解决德国公共部门任一方面的问题。此外,绝大多数基准测试只关注任务性能。虽然HELM[liang_holistic_2023]代表了“全面”评估,但其全面性的概念指的是NLP任务的广度,而非在不同维度上评估模型;治理标准如透明度、可持续性或价值观一致性在框架中仍然代表性不足。公开可用的测试数据广泛使用进一步引发了对数据污染的担忧[sainz-etal-2023-nlp, dong-etal-2024-generalization],因为模型可能无意中在用于评估它们的数据集上进行了训练。

最近,少量但不断增长的基准测试专门针对政府领域。PubHealthBench[harris-etal-2025-healthy]评估LLM在英国公共卫生指南上的表现,CitizenQuery-UK[majithia-etal-2026-citizenquery]关注英国面向公民的问答,MSGABench[liu-etal-2025-msgabench]针对中国政府事务。然而,这些基准测试再次局限于各自的国家背景和语言,仅评估任务性能,并且不包括治理标准。rystrom-etal-2026-agentbenchmarks最近的一项元分析证实了这一评估,发现现有基准测试没有一个是满足公共部门要求的。

对于公共机构而言,治理不是可选的附加项,而是核心要求。《欧盟AI法案》第53条[euaiact2024]对通用AI模型提供商提出了关于透明度和文档化的具体义务,增加了整个模型生命周期中有记录的法规遵从性的相关性。同样,可持续性考虑在公共采购中变得越来越重要,能耗和环境影响可能影响购买决策。幻觉,即生成看似合理但无根据的内容,在模型用于处理官方文件、法律文本或政策简报时构成特定风险,因为这些场景中事实可靠性至关重要。最后,尽管存在值得注意的欧洲努力,但LLM领域仍由美国和中国开发的模型主导。对于受德国宪法(Grundgesetz)原则约束的公共管理机构而言,这引发了一个问题:广泛可用的模型是否与德国和欧洲价值观一致。

在本文中,我们提出MÖVE(Modelle für die öffentliche Verwaltung evaluieren),一个为德国公共部门设计的全面LLM基准测试。MÖVE沿着两个互补维度评估模型。**性能标准**评估与行政工作直接相关的任务输出质量:摘要生成、问答和主题提取。**治理标准**解决负责任部署的更广泛条件:幻觉倾向、可持续性、透明度以及政治价值观一致性。我们在十个数据集上评估了39个模型,包括我们专门构建的反映德国公共管理领域的金牌和银牌标准数据集。所有任务和提示均为德语,我们采用多指标评估策略,结合经典NLP指标、基于嵌入的方法和LLM作为评判的方法。除了报告模型排名,我们还对基准测试本身进行方法论自我评估,分析其统计精度、基于LLM的评判指标的可靠性、内部数据集对模型排名的影响、结果对提示表述的敏感性以及能耗估计的有效性。

MÖVE被设计为一个动态发展的基准测试。本文展示其首次全面评估;结果会持续更新并公开提供。<sup>1</sup> <https://moeve.bundesdruckerei.de/>

图1 (https://arxiv.org/html/2606.13111#S1.F1) 提供了框架的概览。

| MÖVE – Modelle für die Öffentliche Verwaltung Evaluieren |
|---|
| **性能** | **治理** |
| - 摘要生成 | - 幻觉 |
| - 问答 | - 可持续性 |
| - 主题提取 | - 透明度 |
| | - 政治与价值观 |

- 39个模型
- 10个数据集
- 德语
- 私有金牌/银牌标准数据集
- 动态基准测试

**图1:** MÖVE框架概览。模型在两个互补维度上接受评估:性能标准评估行政任务的输出质量,而治理标准处理负责任部署的更广泛条件。

本文其余部分结构如下。第2节 (https://arxiv.org/html/2606.13111#S2) 回顾了关于LLM基准测试在性能和治理标准方面的相关工作。第3节 (https://arxiv.org/html/2606.13111#S3) 介绍MÖVE框架,定义评估标准和一般评估设置。第4节 (https://arxiv.org/html/2606.13111#S4) 详细描述方法论,包括数据集、模型、指标以及每个标准的评估设计。第5节 (https://arxiv.org/html/2606.13111#S5) 展示所有性能和治理标准的模型评估结果。第6节 (https://arxiv.org/html/2606.13111#S6) 通过统计精度、评判可靠性、数据集影响、提示敏感性和能耗估计有效性的分析来评估基准测试本身。第7节 (https://arxiv.org/html/2606.13111#S7) 总结并讨论未来工作方向。

## 2 相关工作

在本节中,我们介绍有关LLM基准测试的一般相关文献,以及针对性能和治理任务的相关文献。由于我们的框架侧重于评估LLM,我们不包括关于评估代理或端到端AI系统的研究。

### 2.1 LLM基准测试

虽然基准测试本身是一个传统概念,但现代语言模型基准测试方法与Transformer模型的出现密切相关[vaswani-etal-2017-attention, DBLP:journals/corr/abs-1810-04805, brown-etal-2020-language]。基准测试可以根据它们试图评估的能力<sup>2</sup>的不同维度进行分类,包括语言能力、特定领域能力和特定语言能力。

<details>
<summary>脚注2:</summary>
我们承认LLM应根据功能性而非能力进行评估,因为它们被设计为下一个词预测器。然而,由于相关研究倾向于将基准测试框架为评估能力,我们在相关工作部分使用该术语。
</details>

##### 语言能力

开发了不同的评估套件来评估语言能力,通常对语言现象有相当宽泛的概念。GLUE[wang-etal-2018-glue]和SuperGLUE[wang-etal-2019-superglue]是早期例子,涵盖多种语言任务(文本蕴含、情感分析、共指消解)作为语言理解的代理。类似地,Swag[zellers-etal-2018-swag]和HellaSwag[zellers-etal-2019-hellaswag]形成了用于评估模型在常识自然语言推理中功能的数据集的迭代。另一个有影响力的基准测试是WinoGrande[sakaguchi-etal-2021-winogrande],旨在评估常识推理。

相似文章

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。