Pre-Flight: 评估大型语言模型航空运行知识的基准测试
摘要
本文介绍了Pre-Flight,这是一个包含300道多选题的开源基准测试,旨在评估大型语言模型在航空运行知识方面的表现,覆盖国际法规和地面操作。结果显示,即使是2026年最强模型也只能达到82.7%的准确率,远低于约95%的专家参考水平,突显了持续存在的可靠性差距。
arXiv:2607.01829v1 公告类型:新提交
摘要:大型语言模型(LLMs)越来越多地被应用于航空业务运营,从文档和培训生成到面向客户的助手。通用基准测试无法衡量模型是否安全正确地推理航空特定的运营知识,而该领域的高风险、强监管特性使这一差距具有重大影响。我们提出了Pre-Flight,这是一个开源基准测试,包含300道多选题,题目来自国际标准和机场地面操作材料,涵盖国际机场地面操作、ICAO和美国FAA法规、航空通用知识和复杂操作场景。题目由具有空中交通管理、地面操作和商业飞行经验的从业者编写和审核。我们使用Inspect评估框架评估了多个当代商业和开放权重模型,按照标准多选题协议以准确率评分,并随着新模型的发布滚动更新排行榜。与从会议上航空专业人士的低样本测验中获得的约95%的非正式专家参考值相比,即使是评估中最强的模型(于2026年发布)也只达到82.7%,仅从2025年初约75%的水平逐步提高。因此,与专家级可靠性相比,仍存在显著且持续的差距。我们发布了数据集、评估工具和结果,该基准测试可通过inspect_evals分发的社区评估包获取。我们认为,这种特定领域的评估是负责任的生成式AI在非安全关键航空运营中部署的必要前提。
查看缓存全文
缓存时间: 2026/07/03 05:46
# 评估大型语言模型航空运营知识的基准 来源: https://arxiv.org/html/2607.01829 Tim Hughes (Mahino Research, 新西兰基督城) (2026年6月29日 · 根据CC BY 4.0许可) ## 摘要 大型语言模型(LLM)越来越多地被提议用于航空业务运营,从文档和培训生成到面向客户的助手。通用基准无法衡量模型是否能安全且正确地推理航空特定的运营知识,而该领域高风险、受监管的特性使得这一差距具有重大影响。我们提出 Pre-Flight,这是一个开放源码的基准,包含300道多项选择题,题目来源于国际标准和机场地面运营材料,涵盖国际机场地面运营、ICAO和美国FAA法规、航空通用知识以及复杂运营场景。题目由具有空中交通管理、地面运营和商业飞行经验的从业者编写和审核。我们使用Inspect评估框架评估了一系列当代商业和开放权重模型,在标准多项选择协议下按准确率评分,并随着新模型的发布滚动维护排行榜。相对于非正式的专家参考水平(约95%),该水平来自一次会议上航空专业人士的小样本测验,即使评估的最强模型(2026年发布)也仅达到82.7%,从2025年初的约75%逐渐提升。因此,与专家级可靠性相比,仍然存在巨大且持续的差距。我们发布数据集、评估工具和结果,该基准已包含在通过 `inspect_evals` 分发的社区评估包中。我们认为,这种特定领域的评估是在非安全关键航空运营中负责任地部署生成式 AI 的必要前提。 *标题数据取自2026年6月29日的排行榜快照(表2)。* ## 1. 引言 航空业务运营涵盖多个子领域,每个领域都有独特且苛刻的特点。网络规划处理大量人口和市场数据以优化航线和时刻表。机场运营需要持续、前瞻性的实时资源平衡。资产管理涵盖从短期维护跟踪到数十年的机队生命周期分析。空域和程序设计在复杂的监管限制下,将许多不同的数据格式与运营专业知识相结合。 使得这些子领域特别具有挑战性的是它们的相互关联性和数据的异质性。以遗留格式(如NOTAM和通过AFTN传输的B类电文)编码的信息与现代数字服务一起使用。维护记录以带有亲笔签名和印章的扫描纸质文件形式存在。过去二十年来,在合理化航空信息模型方面付出了巨大努力,特别是ICAO全球空中航行计划下的系统范围信息管理(SWIM),但行业采用进展缓慢,迁移将需要数十年。其结果是,20世纪60年代的简单消息结构与重量级的地理空间XML模式共存,并且大量运营相关知识(包括法规、培训材料和程序)仍然是非结构化文本。 这种结构化和非结构化信息的结合正是生成式 AI 看起来很有前景的地方。驱动问题是:LLM 能否将这些来源整合在一起,回答以前难以处理的运营问题,并且关键的是,我们能否信任这些答案。许多航空决策都是高风险的,无论是由于涉及的财务金额还是准确性的需求,错误可能带来声誉和运营后果。通用评估无法告诉我们一个模型是否真正理解航空运营,还是仅仅产生听起来合理的输出。 本文做出三项贡献。首先,我们论证了航空特定 LLM 评估的必要性,并将其与通用和其他特定领域的基准相对照。其次,我们介绍了 Pre-Flight,一个开放源码的航空运营知识多项选择基准,并描述了其构建和组成。第三,我们报告了一组当代模型的结果,并对典型的故障模式进行了定性分析。我们将范围限制在非安全关键的业务运营;此处不提出将生成式 AI 用于安全关键功能,这与 FAA《人工智能安全保证路线图》[FAA, 2024] 中提出的基于保证、增量式 AI 应用方法一致。 ## 2. 背景与相关工作 ### 2.1 好的 LLM 评估需要什么 一个有用的评估框架应该是真实的,即使用代表性数据反映实际性能;无偏见的;关注安全性和鲁棒性,包括对敌对输入的韧性;并且在可能的情况下,对输出的可解释性提供信息。标准的自动指标各自只捕捉了这部分图景的一部分:语言建模的困惑度、翻译质量的 BLEU [Papineni et al., 2002] 和 METEOR [Banerjee and Lavie, 2005],以及摘要重叠度的 ROUGE [Lin, 2004]。对于此处使用的多项选择知识任务,在固定协议下的准确率是标准且最可解释的度量。 一个反复出现的困难是,强聚合得分可能掩盖浅层能力。模型经常表现出与准确率不匹配的高置信度,这是最近事实性工作中记录的一个校准差距 [Wei et al., 2024]。在一个安全文化依赖于对系统局限性精确理解的领域,这种过度自信是一个特定的弱点,并且它意味着孤立测量的事实回忆是不够的。 ### 2.2 公共基准、领域基准和数据污染 诸如 MMLU [Hendrycks et al., 2021] 之类的通用多任务基准衡量广泛的知识,但很少包含航空运营内容,也不测试法规、程序和运营背景的整合。特定领域的基准已在其他受监管领域确立,包括医学 (MedQA; Jin et al., 2021) 和法律 (LegalBench; Guha et al., 2023),正是因为通用基准无法捕捉在这些环境中部署所必需的知识和故障模式。航空一直缺乏同等的开放资源。 公共基准还面临数据污染问题:由于模型在可能包含基准本身的大型网络语料库上进行训练,公共得分可能被夸大,并可能高估泛化能力 [Sainz et al., 2023]。这促使保留一个私有测试分区,这是在其它领域中用于随着模型改进保持区分能力的方法。 ### 2.3 实践中的领域特定评估 受监管的行业已经在领域特定评估下部署 LLM 和视觉模型:医疗保健中的临床摘要和决策支持,金融中的欺诈检测和风险评估,制造业中的缺陷检测。共同点是,部署前的评估和持续的在役监控都针对该领域的数据结构、错误成本和监管要求进行了定制。Pre-Flight 将相同的逻辑应用于航空运营知识。 ### 2.4 航空与航天 LLM 基准 最近的两项航天航空工作与我们的工作最为接近,并且与我们的工作互补,位于航空栈的不同层级。来自 FAA 和 MITRE 的航空语言理解评估 (ALUE) 针对系统层,即国家空域系统和空中交通管理,并提供了一个可配置的框架来评估模型是否真正理解航空语言和背景,其路线图朝向多模态和检索增强的任务,如图表提取和查询操作手册 [Mangortey et al., 2025]。PilotBench 将 LLM 作为智能体进行评估,根据真实通用航空遥测数据进行安全关键的飞行轨迹和姿态预测,基于回归准确率、指令和安全遵守情况的综合评分 [Wu et al., 2026]。Pre-Flight 在运营层占据一个独特且互补的生态位:它通过一个单一的、固定的、公开发布的多项选择数据集,并带有公开滚动排行榜(在 `inspect_evals` 中分发),来衡量声明性的运营和法规知识(地面运营、ICAO 程序和签派),并且它有意将其范围限制在非安全关键的业务运营。ALUE 为空域系统提供灵活的保证基础设施,PilotBench 探索受物理规律支配的预测,而 Pre-Flight 则提供一种具体的、可复用的、衡量商业部署所依赖的“机翼下”运营知识的指标。它们共同表明,航空业正从互补的方向转向领域特定的 LLM 评估。 ## 3. Pre-Flight 基准 ### 3.1 任务与格式 Pre-Flight 是一个多项选择基准。每个项目呈现一个问题,附有四个或五个答案选项,且只有一个正确答案。基准旨在测试对 ICAO 附件文件、飞行签派规则以及机场地面运营安全程序和规程的理解,题目来源于国际航空公司和机场地面运营安全手册。项目按来源章节分组,分为本文使用的五个类别,即国际机场地面运营、ICAO 规则与条例、FAA 规则与条例、航空常识以及复杂地面场景,其完整组成见表1(第3.3节)。 ### 3.2 数据集构建 基准题目来源于权威的航空源材料:国际机场地面运营安全手册 (GOSM)、美国法规 (14 CFR)、ICAO 附件以及通用航空知识文档。题目由主要作者与一小群拥有空中交通管理、地面运营和商业飞行经验的航空从业者共同编写。每个项目以 JSONL 格式存储,包含唯一标识符、问题题干、四个或五个答案选项以及一个目标答案。 当前公开发布的是“简单”级别。一个单独的、更难的级别正在开发中,并有意将其保留,以在模型改进时保持区分能力;它尚未发布。 正确答案基于所引用的源文件,其中每个项目的标准答案可以直接找到。答案由主要作者和 Tim Hughes(均拥有约25年航空经验)部分手动验证,将项目与源文件及其领域知识进行核对,并且另一位航空主题专家审查了部分项目。因此,验证是基于专家并依据源材料的,但是部分的:并非每个项目都接受了独立的二次审查,也没有计算形式化的标注者间一致性统计量。 ### 3.3 数据集组成 该基准包含300个多项选择项目,分为五个类别(表1)。数据集有意侧重于运营地面内容:国际机场地面运营是迄今为止最大的类别,连同ICAO和FAA法规类别共占基准的96%。两个类别,即复杂地面场景和航空常识,规模较小,最好视为指示性的。 表1. Pre-Flight 基准的组成。 | 类别 | 项目数 | 占比 | |------|--------|------| | 国际机场地面运营 | 152 | 50.7% | | ICAO 规则与条例 | 85 | 28.3% | | FAA 规则与条例 | 51 | 17.0% | | 航空常识 | 8 | 2.7% | | 复杂地面场景 | 4 | 1.3% | | **总计** | **300** | **100%** | 第5.2节的类别分析使用相同的五类分组。 ### 3.4 可用性与许可 公共数据集以 MIT 许可在 Hugging Face 上作为 `AirsideLabs/pre-flight-06` 发布,并且该基准包含在通过 `inspect_evals` (UKGovernmentBEIS/inspect_evals) [UK AI Security Institute et al., 2024b] 分发的社区评估包中,可通过 `inspect eval inspect_evals/pre_flight` 运行。纳入 `inspect_evals` 意味着该评估已作为社区贡献被接受至由英国人工智能安全研究所维护的仓库;这并不意味着该机构认可该基准。该基准自2025年3月起成为 `inspect_evals` 集合的一部分,截至2026年6月,该数据集在 Hugging Face 上已累积11,416次下载,表明社区活跃采用。一个单独的更难级别正在开发中,未公开发布,为公开集提供了一个抗污染的补充。 ## 4. 实验设置 我们使用 Inspect 框架 [UK AI Security Institute, 2024a] 进行评估,运行作为 `inspect_evals` [UK AI Security Institute et al., 2024b] 中分发的 `pre_flight` 任务的基准,该任务加载公共 `AirsideLabs/pre-flight-06` 测试分割,位于其固定的修订版 (439d2d1)。该任务将 Inspect 的标准 `multiple_choice` 求解器与其 `choices` 评分器配对,报告的指标是准确率,即正确回答的项目比例。项目通过模型所选选项与标准答案的确定性精确匹配进行评分;不使用模型评分或 LLM 评判评分。结果记录两个评分器标签,`accuracy` 和 `choice`,但对于单答案多项选择,两者都归约为相同的精确匹配比较,因此结果不依赖于 Inspect 框架版本之间不同的评分组件。 我们以默认配置运行任务。提示是零样本的,使用求解器的默认多项选择模板,没有自定义系统提示,并且没有覆盖生成参数(温度、top-p 或最大令牌数),因此每个模型使用其提供者或运行时的默认采样设置。该任务未设置 epoch 数,因此每个模型在整个300个项目集上评估一次 (epochs = 1);表2中报告的标准误差因此是 n = 300 的二项式标准误差(约0.025)。这300个数据集仅包含文本;第6节描述的视觉探测是单独的说明性材料,不属于评分的基准部分。 模型不是在一次性批次中评估,而是随着发布滚动评估,排行榜持续维护。此处报告的结果是2026年6月29日的快照,涵盖从2024年初到2026年中发布的模型。表中用匕首符号 (†) 标记了十三个早期模型,它们显示原始得分,尚未在当前数据集修订版 (439d2d1) 上重新运行。商业模型通过其提供者的 API(OpenAI、Anthropic、Google)和 Groq 访问;选定的开放权重模型,包括量化变体,在 DGX Spark 硬件上本地运行。当同一模型在多种配置下服务时,它在表2中单独列出并相应标记,区分提供者 API、Groq 和本地服务的量化变体。排行榜记录每个模型的公开发布日期,而非评估日期;因此,在图1和表2中使用的是发布日期,而非评估日期。 ## 5. 结果 ### 5.1 总体结果 表2报告了所有44个评估模型相对于非正式专家参考水平(约95%)的准确率。图1将准确率与模型发布日期绘制在一起,并追踪了随时间推移的前沿。三个发现尤为突出。
相似文章
AI能否像城市规划师一样推理?基于专业判断对大型语言模型进行基准测试
本文介绍了UPBench,这是一个基准测试,用于评估大型语言模型在城市规划知识方面的表现,涵盖四个知识支柱和五个认知层次。研究发现,模型在高阶分析任务上表现优于事实回忆,并识别出如监管幻觉和实践智慧缺失等认知局限。
BAGEL:语言模型中的动物知识专业性基准评估
BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。
面向空中交通管制语言理解系统的安全导向评估
本文提出了一个面向安全、感知后果的大型语言模型空中交通管制评估框架,揭示了高总体准确率掩盖了在处理高风险语义错误方面的显著可靠性问题。
Know2Guess:一种面向大型语言模型知识边界评估的污染感知多区域基准
本文介绍了Know2Guess,一种污染感知的多区域基准,旨在评估大型语言模型从可回答知识到预期拒答的转换,解决数据污染、提示敏感性和拒绝行为问题。作者评估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型,发现更强的模型表现出选择性但不完全的拒答。该基准和数据集已公开发布。
FINESSE-Bench:面向大语言模型金融领域知识与技术分析的分层基准测试套件
本文介绍了FINESSE-Bench,一个包含八个专业基准、共3,993个问题的套件,用于对大语言模型进行金融能力的分层评估,涵盖专业认证主题与应用交易任务。