ASTRA: 可扩展的下一代ATCO训练模拟器,配备自主Simpilots

arXiv cs.LG 论文

摘要

ASTRA 是一款用于空中交通管制操作员的端到端训练模拟器,通过本地化适配的语音模型自动执行模拟飞行员(sim pilot)角色,在新加坡口音的航空语音中大幅降低了词错误率,并整合了AI辅助性能评估。

arXiv:2606.18319v1 公告类型:新发布 摘要:空中交通管制操作员(ATCO)对于确保空中交通安全、有序和高效至关重要,但训练能力受限于依赖被称为模拟飞行员(simpilots)的专业人类训练员,这些训练员必须在模拟空域中同时扮演飞行员和ATCO的角色。现有自动化解决方案依赖于西方中心的语音模型,在新加坡运行环境中表现不佳,现成系统在新加坡口音航空语音上的词错误率(WER)高达107.80%。我们推出了ASTRA,一种端到端训练模拟器,通过流水线自动转录ATCO语音、解释指令,并使用本地化适配的语音模型生成适当的飞行员和ATCO响应,从而自动化这些模拟飞行员角色。我们微调的自动语音识别(ASR)流水线将WER降低至23.45%,在该领域显著优于现有方法。除了交通模拟之外,ASTRA还集成了AI辅助性能评估框架,评估受训学员在准确性、简洁性和完整性方面的无线电通话表现,分别达到91.7%、88.2%和86.9%的优化后得分。基于DSPy和Unsloth等开源基础构建,该方法实现了可扩展、标准化的ATCO评估,同时减轻了教员的工作负担。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:41

# ASTRA:一种可扩展的下一代空中交通管制员训练模拟器及自主模拟飞行员

来源:https://arxiv.org/html/2606.18319

\\correspondingauthor

lim\_yong\_zhi1@defence\.gov\.sg

Ethan Chew\*新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Enjia Wu\*新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Iruss Eng Wei Yeow新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Ian Weiqin Lim新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Ranen Sim新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Brandon Koh Ziheng新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Kaleb Nim新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Caden Toh Jun Yi新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Wei Dong Soin新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Darius Kai Keat Koh新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Galen King Yu Tay新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Prannaya Gupta新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军Jonathan Ee Fang Koong新加坡空军新兴技术高速实验与研究(AETHER),新加坡空军敏捷创新数字部(RAiD),新加坡空军

###### 摘要

空中交通管制员(ATCO)对于确保空中交通安全、有序和高效流动至关重要,然而训练能力受限于对专门人类训练员(即模拟飞行员)的依赖,后者需要在模拟空域中同时扮演飞行员和管制员的角色。现有的自动化解决方案依赖以西方式为中心的语音模型,在新加坡运营环境中表现不佳,商用系统在新加坡口音航空语音上的词错误率(WER)高达107.80%。我们引入了**ASTRA**,一种端到端训练模拟器,通过流水线转录ATC管制员的语音、解析指令,并使用本地适应的语音模型生成适当的飞行员和管制员响应,从而自动化模拟飞行员的角色。我们微调的自动语音识别(ASR)流水线将WER降至23.45%,在该领域显著优于现有方法。除了交通模拟之外,ASTRA还集成了一种AI辅助性能评估框架,用于评估学员无线电通话在准确性、简洁性和完整性方面的表现,优化后分别达到91.7%、88.2%和86.9%的得分。该系统基于DSPy和Unsloth等开源基础构建,实现了可扩展、标准化的ATC管制员评估,同时减少了教员的工作负担。

## 1 引言

空中交通管制员(ATCO)在日益拥挤的空域中确保空中交通安全、有序和高效流动方面发挥着关键作用。随着航空业从COVID-19中迅速复苏,ATC管制员严重短缺,增加了安全风险并限制了容量[understaffed-cbs]。当前的ATC管制员训练系统严重依赖专门的人类训练员,即模拟飞行员(或"simpilots"),他们同时扮演飞机飞行员(或"伪飞行员")和其他ATC管制员(或"幽灵管制员"),与学员协调以创建逼真的训练环境[faa_simpilots]。

这种模式在扩展性上存在困难:所需的教员和模拟飞行员配置限制了训练吞吐量,并将实践限制在合格人员同时在场的时段。因此,自动化模拟飞行员角色对于实现更灵活的训练至关重要,同时提供独立于人类可用性的标准化和客观评估[brudnicki2005application]。另一个限制是本地化:在美式英语和英式英语上训练的前沿模型在新加坡口音语音和航空术语上失败。

本工作介绍了**ASTRA**,一种模拟飞行员功能的训练模拟器。ASTRA实现了一个端到端的语音到语音流水线,以对ATC管制员学员的输入命令产生适当响应。

该流水线包括五个主要阶段,建模自lin2021deep:

1. 1.自动语音识别(ASR):将ATC管制员学员的语音转录为文本命令。
2. 2.管制员指令理解(CIU):解析文本命令并提取结构化目标参数(STPs)。
3. 3.响应生成:根据STPs从伪飞行员或幽灵管制员生成上下文适当的回复。
4. 4.文本转语音(TTS):基于响应生成模块生成的响应合成音频,然后流式传输给ATC管制员学员。
5. 5.飞机运动模拟(SAM):利用STPs反映仿真环境中飞机位置的变化。

除了模拟飞行员自动化之外,ASTRA还解决了现有训练系统中的第二个缺口:缺乏客观、可扩展的性能评估。因此,ASTRA集成了一个AI辅助性能评估框架,根据准确性、简洁性和完整性对学员的无线电通话进行评分,提供之前需要经验丰富的教员才能提供的自动反馈。

本文的其余部分结构如下:第2节(https://arxiv.org/html/2606.18319#S2)回顾了自动ATC管制员训练系统关键组件的相关文献,概述了当前技术水平。第3节(https://arxiv.org/html/2606.18319#S3)描述了ASTRA的设计与实现,包括仿真环境和端到端语音流水线。第4节(https://arxiv.org/html/2606.18319#S4)展示了系统的实验评估,涵盖ASR、TTS和通信评估性能。最后,第5节(https://arxiv.org/html/2606.18319#S5)讨论了当前方法的局限性并概述了未来工作方向,然后在第6节(https://arxiv.org/html/2606.18319#S6)总结。

## 2 现有工作

我们对模拟飞行员相关工作的广泛综述分解为四个子模块:ASR、CIU、响应生成和TTS。

### 2.1 自动语音识别(ASR)

现代ASR系统如*Whisper*[radford2023robust]取得了显著进步,使其在多个领域具有更广泛的应用性。尽管有这些进步,这些前沿ASR模型往往在以下两个问题上表现不佳:转录新加坡口音语音和准确识别领域特定术语。

#### 2.1.1 ASR模型中的口音鲁棒性

由于可用于训练的语音语料库有限,传统ASR模型在新加坡口音英语上表现不佳。

he2024MERaLiON和wang2025advancing提出了*MERaLiON*,一种音频基础模型,能够比现有前沿音频基础模型更准确地转录本地口音语音,并引入了多任务国家语音语料库(MNSC),这是一个用于新加坡口音转录的大规模语料库。

#### 2.1.2 航空ASR中的领域术语

传统ASR模型在准确识别无线电通话中使用的特定术语方面存在困难。为解决这一问题,许多工作探索了微调以调整此类模型(例如*Whisper*)的权重以适应领域特定语料库。

van2024whisper提出了*WhisperATC*,一组在ATCO-SIM[hofbauer2008atcosim]和ATCO2[zuluaga2022atco2]上微调的模型。这些模型在ATCO2上的词错误率(WER)达到16.74%,在ATCOSIM上达到1.19%,而基础*Whisper*分别达到24.03%和16.74%。

### 2.2 管制员指令理解

prasad2022speech和zuluaga2023virtual训练了一个基于BERT[devlin2019bert]的命名实体识别(NER)模型,该模型尝试将ASR命令分解为三个关键字段:1)呼叫标识,2)指令,3)值。jiang2024slkir提出了小样本学习关键信息识别(SLKIR),一种用于从中文ATC指令中提取信息的端到端深度学习框架。

### 2.3 响应生成

lin2021deep提出了一种飞行员复述生成方法,通过训练*Seq2Seq*模型重新排序并保留ATC指令的关键元素(如飞机呼叫标识和指令参数)来生成飞行员回读。他们的双向长短期记忆网络配合注意力机制有助于捕捉ATC特定结构和仅需要部分回读的情况。

### 2.4 文本转语音(TTS)

神经TTS通过多语言和语音克隆模型如*VITS*[kim2021conditional]和*XTTS*[casanova2024xtts]取得了快速进步,为航空训练提供了自然且可理解的语音。

10765121介绍了一种用于ATC管制员和飞行员语音的TTS系统,在ATCOSIM和多语言飞行员语音数据集上微调了*VITS*和*XTTS*。在4100个主观评分中,*XTTS*在清晰度、发音、语调、自然度和整体质量方面优于*VITS*。

尽管如此,当前专注于ATC的TTS系统仍然在以下方面存在困难:1)生成一致的新加坡口音语音,2)准确发音航空特定术语,3)有限的领域适当评估指标。

#### 2.4.1 TTS模型中的口音鲁棒性

大多数航空TTS系统在代表性不足的口音上表现不佳,因为训练数据以美式或英式英语为主,限制了本地音系和韵律建模。区域数据不足导致口音偏移和韵律不稳定[10.1109/TASLP.2024.3363414]。零样本和少样本模型如*XTTS*利用多语言表示进行低资源口音迁移,从而缓解了这一问题。

#### 2.4.2 航空TTS中的领域术语

准确的航空无线电通话要求TTS模型能够发音领域特定术语,这些术语通常不在通用语料库中出现,导致发音错误和节奏不规则。低频或未见过的词元产生不稳定的发音,可靠的输出需要专门的词典或发音词典[ttsdomainadapt]。

hu2019domain通过合成词-发音对和音素改进的增强训练减少了未见术语的错误,同时添加领域特定词典和规则以稳定输出。

#### 2.4.3 TTS评估方法的局限性

TTS系统缺乏可靠的领域特定评估指标。平均意见分数(MOS)是主观的且难以获取,而倒谱失真无法捕捉领域术语或无线电通话的时序。基于ASR的可懂度在跨领域时也不可靠[salesky2021assessing],并且没有新加坡口音航空ASR,分数主要反映ASR偏差而非TTS质量。最近的工作探索了自动化评估器,如基于大语言模型(LLM)的评分[wang2025enabling]和结合ASR置信度、发音和声学相似性的ASR集成方法[kirk2025mos],但两者仍然需要领域匹配或校准的模型。

### 2.5 AI辅助无线电通话性能评估

当前的评估方法依赖经验丰富的教员手动审查学员通信,引入了变异性并限制了吞吐量。

aldridge2025identifying强调,客观且持续地测量ATC性能仍然相对未被充分探索,强调了需要结构化和可量化的评估方法。

brudnicki2005application的早期工作引入了智能辅导系统(ITS)来支持ATC训练中的结构化评估。ITS框架定义了三个关键组件:1)专家模型,代表预期性能,2)学生模型,捕获观察到的学员行为,以及3)教员模型,支持反馈和事后回顾(AAR)。然而,实际应用仍然有限,评估过程仍然主要依赖人工解释。

为了提高客观性,人们探索了基于规则的评估方法。wu2020rulebased证明,预定义的评分规则可以在ATC模拟环境中提供一致且可解释的评估。尽管如此,此类方法仍然僵化,无法有效捕捉无线电通话通信中的语言变异和上下文意图。

大语言模型(LLM)的最新进展为解决这些局限性提供了新的机会。chiang2023llm表明,当由结构化提示和评分标准引导时,LLM可以作为可靠的评估器,而zhang2020bertscore证明,像BERTScore这样的上下文嵌入方法能够实现超越精确词汇匹配的语义相似性评估。这些进展推动了混合评估方法的发展,将基于规则的一致性与LLM-as-a-judge相结合,以支持更鲁棒和可扩展的无线电通话性能评估。

## 3 技术方法

ASTRA实现了一个内部真实的仿真引擎,配有上下文适当的用户界面、内置的场景管理系统和端到端语音流水线。

### 3.1 用户界面

为了模拟传统的空中交通管制(ATC)界面并增强真实感,ASTRA利用Unity游戏引擎结合Cesium Ion进行高保真地理空间可视化,包括反映真实ATC显示器的详细3D地形和雷达视图。

除了仿真环境之外,ASTRA用户界面还作为一个集中平台,允许教员配置训练场景并监控学员。

### 3.2 训练场景

ASTRA支持两种场景模式。在自由模式中,预加载的飞机创建一个开放式环境,学员在此环境中反应性地管理交通,适合高级用户。

在故事模式中,教员使用基于节点的工具设计事件驱动场景。场景由**飞机配置文件**(飞机类型、意图、航线和上下文)组成,触发器控制何时以及如何引入飞机,实现动态序列化,根据学员动作自适应调整,无需进一步干预。

在教员创建的**会话**中,每个节点代表一个**飞机配置文件**。跨节点连接触发器建立起构成完整场景的动作序列。教员通过设置三个参数来定义场景中的动作或事件:

- •事件触发器:附加到场景中飞机的可配置规则。
- •事件类型:仿真中监听的条件(例如`AfterReportingWaypoint`)。事件类型可能需要填写额外参数(例如航点名称)。
- •事件

相似文章

Astra Autonomous Pentest

Product Hunt

Astra Security 推出一款自主渗透测试产品,利用AI代理自动发现、验证并修复漏洞。

AI被用于复活已故飞行员的声音

TechCrunch AI

美国国家运输安全委员会(NTSB)暂时关闭了其案件系统的公开访问权限,此前AI工具被用于重建一架UPS飞机失事中的驾驶舱音频,通过频谱图和文字记录再现了已故飞行员的声音。

迈向类人交互式语音识别:基于智能体修正与语义评估

Hugging Face Daily Papers

本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。