面向空中交通管制语言理解系统的安全导向评估

arXiv cs.CL 论文

摘要

本文提出了一个面向安全、感知后果的大型语言模型空中交通管制评估框架,揭示了高总体准确率掩盖了在处理高风险语义错误方面的显著可靠性问题。

arXiv:2605.11769v1 公告类型:新论文 摘要:空中交通管制(ATC)是一个安全关键领域,其中对指令的错误解释可能导致严重的操作后果。虽然大型语言模型(LLM)表现出强大的通用性能,但它们在操作 ATC 环境中的可靠性仍不清楚。现有的评估方法主要基于 F1 或宏平均准确率等总体指标,将所有错误视为同等对待,未能考虑高风险语义错误(例如,错误的跑道标识符或移动限制)的非对称后果。为了弥补这一空白,我们提出了一个面向 ATC 操作的、安全导向且感知后果的评估框架。我们的结果表明,尽管当前的 LLM 实现了合理的总体准确率,但其操作可靠性受到了严重限制。在干净的转录文本上进行评估时,风险评分峰值仅为 0.69,大多数模型尽管在宏平均 F1 上表现良好,但其得分低于 0.6。进一步的分析显示,尽管动作类型的分类相对稳定,但错误集中在高影响实体上,表明了结构性基础知识的不足。这些发现强调了在负责任地部署 AI 辅助 ATC 系统时采用后果感知评估协议的必要性。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:17

# 面向空中交通管制语言理解系统的安全性评估

来源:https://arxiv.org/html/2605.11769
Yujing Chang1,∗, Yash Guleria2, Duc\-Thinh Pham1,3, Nhut\-Huy Pham1, Ningli Wang1, Vu N\. Duong3, Sameer Alam

###### 摘要

空中交通管制(ATC)是一个安全关键领域,指令解释错误可能导致严重的操作后果。尽管大型语言模型(LLMs)表现出强大的通用性能,但其在实际 ATC 环境中的可靠性仍有待商榷。现有的评估方法主要基于 F1 分数或宏平均准确率等聚合指标,这些方法对所有错误一视同仁,未能考虑到高风险语义错误(例如:错误的跑道标识符或移动限制)带来的非对称后果。为了填补这一空白,我们提出了一种专为 ATC 操作量身定制的、以安全性为导向且具备后果感知能力的评估框架。我们的研究结果显示,虽然当前的 LLM 取得了合理的整体准确率,但其操作可靠性受到严重限制。在干净的转录文本上评估时,最高风险得分仅为 0.69,大多数模型尽管宏平均 F1 分数较高,但得分低于 0.6。进一步的分析表明,尽管动作类型分类相对稳定,但错误集中在高影响力实体上,这表明存在结构化的 grounding(落地/锚定)缺陷。这些发现突显了在负责任地部署 AI 辅助 ATC 系统时,采用后果感知评估协议的必要性。

参见图注图 1:评估流程概述,对比了传统的语义指标与提出的用于 ATC 语言理解的后果感知评估框架。

## I 引言

空中交通管制(ATC)是全球航空运输系统的核心组成部分,确保飞机在跑道、滑行道及受控空域内的安全有序移动。对 ATC 操作指令的误解可能导致安全事故,包括跑道侵入和空中碰撞。这些事件代表了航空领域中最关键的安全隐患之一。鉴于 ATC 通信短语的紧凑性和语境依赖性,准确的语义理解对于维持操作安全至关重要。

大型语言模型(LLMs)和自动语音识别(ASR)系统的最新进展激发了人们对 AI 辅助空中交通管理的日益浓厚的兴趣\[12 (https://arxiv.org/html/2605.11769#bib.bib4),14 (https://arxiv.org/html/2605.11769#bib.bib5)\]。 spoken language understanding (SLU) 研究通过对比学习、混合专家架构和语音-文本对齐等方法,提高了对 ASR 错误的鲁棒性\[2 (https://arxiv.org/html/2605.11769#bib.bib10),3 (https://arxiv.org/html/2605.11769#bib.bib12),4 (https://arxiv.org/html/2605.11769#bib.bib20),1 (https://arxiv.org/html/2605.11769#bib.bib21)\],而针对 ATC 的特定研究则受益于领域语料库、ASR 基准测试、迁移学习以及用于结构化语义提取和操作现实性评估的检索增强场景建模\[9 (https://arxiv.org/html/2605.11769#bib.bib22),20 (https://arxiv.org/html/2605.11769#bib.bib23),13 (https://arxiv.org/html/2605.11769#bib.bib15),17 (https://arxiv.org/html/2605.11769#bib.bib24),16 (https://arxiv.org/html/2605.11769#bib.bib3),8 (https://arxiv.org/html/2605.11769#bib.bib25)\]。

尽管取得了这些进展,SLU 和 ATC 中的评估仍集中在词错误率(WER)\[6 (https://arxiv.org/html/2605.11769#bib.bib14)\]、字符错误率(CER)\[5 (https://arxiv.org/html/2605.11769#bib.bib13)\]、意图准确率和槽位级 F1\[10 (https://arxiv.org/html/2605.11769#bib.bib7),11 (https://arxiv.org/html/2605.11769#bib.bib8),19 (https://arxiv.org/html/2605.11769#bib.bib16)\]等表面级指标上,这些指标无法捕捉语义误解的操作后果。在安全关键环境中,这一局限性尤为突出,在高风险滑行许可中误认呼号的后果远大于常规交流中轻微槽位遗漏的后果。更广泛的 LLM 安全性研究同样强调了错误严重性的异质性\[18 (https://arxiv.org/html/2605.11769#bib.bib26)\]以及超越聚合指标进行行为评估的必要性\[15 (https://arxiv.org/html/2605.11769#bib.bib27)\];医疗 AI 等相关安全关键领域也开始采用风险分层评估方案\[7 (https://arxiv.org/html/2605.11769#bib.bib30)\]。尽管如此,针对 ATC 实时操作语言理解的系统性后果感知评估仍处于 largely unexplored( largely 未被探索)状态。

为了填补这一空白,我们提出了一个面向真实世界 ATC 操作的安全性导向、风险感知评估框架,如图 1 (https://arxiv.org/html/2605.11769#S0.F1) 所示。该框架对结构化语义动作进行建模,包括动作类型和安全关键槽位,并将其与源自专家知识和法规的操作风险等级相关联,从而能够在聚合准确率之外进行后果感知评分。使用真实的 ATC 通信数据,我们在基于文本和端到端语音到语义的设置下系统地评估了 LLM。通过定量分析和案例研究,我们揭示了在传统评估下隐藏的高风险失效模式,并表明虽然当前模型取得了合理的整体性能,但在安全关键场景下的可靠性显著下降。

本工作的主要贡献如下:

- • 一个用于 ATC 语言理解的安全性导向、风险感知评估框架,显式地对安全关键语义动作及其相关风险等级进行建模。
- • 在真实 ATC 通信上对 LLM 进行的系统性评估,包括端到端语音到语义的评估。
- • 定量和定性分析,揭示了传统评估指标未能捕捉到的安全关键失效模式。

## II 数据集

### II-A 数据来源与初步处理

本研究使用的数据集建立在从新加坡樟宜机场(ICAO:WSSS)收集的真实 ATC 通信基础上,最初由\[16 (https://arxiv.org/html/2605.11769#bib.bib3)\]介绍。管制员与飞行员之间的传输记录于 2025 年 3 月 17 日至 23 日期间,跨越两个每日时间窗口,涉及三个地面控制频率(124.300 MHz, 121.850 MHz, 121.725 MHz)。

该语料库专注于地面管制操作中的表面移动指令。为了构建评估子集,我们提取了一个连续的高密度交通片段,去除了无法识别飞机呼号的语音,并由一名持证管制员和一名商业飞行员审查了剩余数据。最终子集保留了自然的操作序列,同时提供了约 1.2 小时的通信内容和约 1,000 条标注语音。

表 I:数据集统计信息。(a)语音级统计信息

(b)实体和风险统计信息

### II-B 面向风险的语义重构

为了支持风险感知评估,每条语音都被重构为统一的动作级表示。

##### 风险知情 schema(模式/架构)。

对北京首都机场塔台的五名持证塔台管制员进行了结构化专家调查,以评估地面控制通信中语义成分的操作相关性。他们的输入为面向风险的 schema 设计提供了信息,包括分配给不同实体类别的相对安全重要性。

##### 动作分类法。

每条语音被映射到九种规范动作类型之一(HOLD, TAXI, GIVE_WAY, CONTACT, PUSHBACK, INFORM, GREET, STANDBY, UNKNOWN),并根据其在地面操作中潜在的安全后果,进一步细分为三个操作风险等级(HIGH, MEDIUM, LOW)。

##### 关键槽位。

对于每种动作类型,指定了一组预定义的关键槽位(例如,HOLD 的呼号和边界;CONTACT 的呼号和频率)。数据集 accordingly(相应地)进行了标注,产生了包含动作类型、归一化槽位和相关风险等级的结构化表示。

这种重构将自由格式的 ATC 语音转换为适合风险感知评估的风险感知语义单元。

### II-C 数据分析

表 I (https://arxiv.org/html/2605.11769#S2.T1) 总结了精心策划的评估子集。在此,O 表示标注实体跨度之外的 tokens,而 non-O 表示分配给语义实体标签的 tokens。语料库显示出平衡的飞行员-管制员交互,指令和复诵构成了大部分交流,并保持了分层的风险组成(48% 高,26% 中,26% 低)。总体而言,它提供了具有足够语义和风险多样性的真实表面交通动态,适用于后果感知评估。

## III 评估指标

如图 1 (https://arxiv.org/html/2605.11769#S0.F1) 所示,对所有语义错误一视同仁的做法无法捕捉 ATC 通信中固有的严格安全风险。为了确保操作落地,我们的评估结合了 ATC 法规以及基于持证管制员对真实世界操作风险评估的专家意见(表 II (https://arxiv.org/html/2605.11769#S3.T2))。这一专家知情过程指导了贯穿整个评估的动作分类法、风险分层和后果感知加权。在既定的 ATC 表面移动程序下,语义故障在操作上并不等价:呼号错误可能导致向错误的飞机分配许可,滑行道或跑道引用错误可能导致路由冲突或未经授权的跑道进入,而遗漏移动约束可能使 hold-short(停止等待)、give-way(让行)或边界限制失效。由于这些失效模式对应于实质不同的危害后果,我们的评估明确区分了实体关键性和动作上下文,而不是对所有槽位错误一视同仁。

在此基础上,我们的评估采用了一个渐进的四级层次结构:(i)说话人识别,(ii)意图识别,(iii)风险感知实体提取,以及(iv)动作级后果感知评分。除非另有说明,所有分数均在精心策划的评估子集上计算,并跨类别进行宏平均。

### III-A 说话人评估

说话人角色被 formulate(表述)为在 {Pilot, Controller} 上的二元分类任务。我们报告 Macro-F1 作为主要指标,准确率作为辅助指标:

Speaker\-F1=MacroF1\(Pilot,Controller\)

\mathrm\{Speaker\text\{\-\}F1\}=\mathrm\{MacroF1\}\(\textsc\{Pilot\},\textsc\{Controller\}\)。(1)

### III-B 意图评估

意图分类被建模为在 {Greet, Inform, Instruction, Readback} 上的四类问题。性能使用 Macro-F1 进行衡量:

Intention\-F1=1\|C\|∑c∈CF1c

\mathrm\{Intention\text\{\-\}F1\}=\frac\{1\}\{\|\mathcal\{C\}\|\}\sum\_\{c\in\mathcal\{C\}\}\mathrm\{F1\}\_\{c\}。(2)

其中 C \mathcal\{C\} 表示意图类别集合。

### III-C 实体评估(风险感知)

#### III-C1 基于槽位的表示

实体作为由 \(entity\_type, text\) \( \textit\{entity\_type\}, \textit\{text\} \) 表示的语义槽位进行评估。

匹配以一对一的方式在地面真实(ground-truth)和预测实体之间进行。如果预测实体满足以下两个条件,则被视为正确:(i)实体类型匹配,以及(ii)预测文本与地面真实文本之间的 token 级重叠超过预定义阈值(我们的实验中为 0.9)。每个预测实体最多只能匹配一个地面真实实体。

#### III-C2 槽位级 F1

我们使用跨实体类型的 Macro-F1 来计算实体提取性能:

MacroF1=1\|E\|∑e∈EF1e

\mathrm\{MacroF1\}=\frac\{1\}\{\|\mathcal\{E\}\|\}\sum\_\{e\in\mathcal\{E\}\}\mathrm\{F1\}\_\{e\}。(3)

其中 E \mathcal\{E\} 表示实体类别集合。这种未加权的公式确保了频繁实体不会主导整体分数。

#### III-C3 风险加权实体召回率(RW-ER)

为了反映并非所有缺失实体都具有相同操作影响,我们对语音中出现的所有地面真实实体采用风险加权召回率。每个实体类型 e e 被分配一个重要性权重 w\(e\) w\(e\),该权重源自对北京首都机场塔台五名持证塔台管制员的问卷调查。管制员评估了在地面控制通信中遗漏或误解每个实体类别的相对安全影响;评分在参与者之间取平均值并归一化到 \[0,1\] \[0,1\],其中较高值表示较大的操作关键性(表 II (https://arxiv.org/html/2605.11769#S3.T2) 和 III (https://arxiv.org/html/2605.11769#S3.T3))。

令 Egt \mathcal\{E\}\_\{\text\{gt\}\} 为某条语音的所有地面真实实体集合,Ehit \mathcal\{E\}\_\{\text\{hit\}\} 为正确预测的子集。我们定义:

RW\-ER=∑e∈Ehitw\(e\)∑e∈Egtw\(e\)

\mathrm\{RW\text\{\-\}ER\}=\frac\{\sum\_\{e\in\mathcal\{E\}\_\{\text\{hit\}\}\}w\(e\)\}\{\sum\_\{e\in\mathcal\{E\}\_\{\text\{gt\}\}\}w\(e\)\}.

该指标对安全关键实体(例如,呼号、跑道/滑行道)的遗漏施加更重的惩罚,而对低影响实体(例如,问候)的惩罚较轻。

表 II:用于推导实体权重的专家调查摘要。表 III:风险感知评估中使用的实体重要性权重 w\(e\) w\(e\)。较高值表示如果实体被遗漏或误解,其操作关键性更大。O 表示标注实体跨度之外的 tokens。

### III-D 动作级风险感知评分

#### III-D1 动作 schema 和风险等级

每条语音被映射到具有预定义关键槽位集 S\(ai\) \mathcal\{S\}(a\_\{i\}) 的动作类型 ai∈A a\_\{i\}\in\mathcal\{A\},如表 IV (https://arxiv.org/html/2605.11769#S3.T4) 所示。动作类型与操作风险等级 ρ\(ai\)∈\{1.0,0.6,0.2\} \rho(a\_\{i\})\in\{1.0,0.6,0.2\} 相关联,分别对应 High/Medium/Low risk,高/中/低风险(由领域知识和管制员反馈确定)。

表 IV:带有风险等级和关键槽位的动作 schema。
#### III-D2 风险加权动作得分

给定具有地面真实动作类型 ai a\_\{i\} 及其关键槽位集 S\(ai\) \mathcal\{S\}(a\_\{i\}) 的语音 i i,我们定义一个后果感知正确性得分:

Scorei=r\(ai\)⋅∑s∈S\(ai\)wai,smi,s∑s∈S\(ai\)wai,s

\mathrm\{Score\}\_\{i\}=r\(a\_\{i\}\)\cdot\frac\{\sum\_\{s\in\mathcal\{S\}(a\_\{i\})\}w\_\{a\_\{i\},s\}\,m\_\{i,s\}\}\{\sum\_\{s\in\mathcal\{S\}(a\_\{i\})\}w\_\{a\_\{i\},s\}\}.(4)

此处,wai,s w\_\{a\_\{i\},s\} 是在动作 ai a\_\{i\} 下关键槽位 s s 的重要性权重(源自表 III (https://arxiv.org/html/2605.11769#S3.T3) 中的实体权重),mi,s∈\{0,1\} m\_\{i,s\}\in\{0,1\} 是槽位匹配指示器(如果槽位 s s 被正确预测则为 1,否则为 0)。

##### 动作类型风险系数。

我们将动作类型正确性与风险系数相结合:

r\(ai\)=\{1.0,if action type is predicted correctly,1−ρ\(ai\),otherwise

r\(a\_\{i\}\)=\begin\{cases\}1.0,&\text\{if action type is predicted correctly\},\\\\ 1-\rho\(a\_\{i\}\),&\text\{otherwise\},\end\{cases\}(5)

其中 ρ\(ai\) \rho(a\_\{i\}) 是动作 ai a\_\{i\} 的预定义风险等级:

ρ\(ai\)=\{1.0,High risk,0.6,Medium risk,0.2,Low risk.

\rho\(a\_\{i\}\)=\begin\{cases\}1.0,&\textsc\{High risk\},\\\\ 0.6,&\textsc\{Medium risk\},\\\\ 0.2,&\textsc\{Low risk\}.\end\{cases\}(6)

这种设计对高风险动作(例如,移动限制)的动作类型错误施加更严厉的惩罚,同时允许 sm

相似文章

关于语言模型安全性和滥用的经验教训

OpenAI Blog

OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训,讨论了衡量风险的挑战、现有基准的局限性,以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧,以及继续研究大规模AI部署社会影响测量的必要性。

解构并引导大型语言模型中的功能性元认知

arXiv cs.CL

本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。

评估思维链的可监控性

OpenAI Blog

OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。

语言模型中的评估意识对行为的影响有限

arXiv cs.CL

本文探讨了大型推理模型中的言语化评估意识(VEA)是否对其在安全性、对齐、道德推理和政治观点基准测试中的行为产生因果影响。研究发现,VEA 对行为的影响有限:注入 VEA 产生的效应接近于零,而移除 VEA 仅导致微小偏移。这表明,不应将高 VEA 发生率视为战略性行为或对齐篡改的有力证据。