KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现

arXiv cs.CL 论文

摘要

KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。

arXiv:2604.19782v1 公告类型:新增 摘要:近期大型音频语言模型(LALM)在多语种语音理解方面取得显著进展,但针对非英语语言的评测基准仍十分稀缺,韩语便是其中之一。本文提出 KoALa-Bench,一套全面评估 LALM 韩语语音理解及语音忠实度的基准。该基准共包含六项任务:四项用于考察基础语音理解能力,涵盖自动语音识别、语音翻译、语音问答与语音指令跟随;另两项聚焦语音忠实度,源于我们观察到部分 LALM 未能充分利用语音模态。为体现韩国本土知识,基准还引入韩国大学修学能力考试听力题及涵盖韩国文化领域的内容。我们在六个模型(含白盒与黑盒)上开展大量实验。基准、评测代码与排行榜已公开:https://ksbench.github.io/Korean-Benchmark/。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:02

# KoALa-Bench:评测大音频语言模型在韩语语音理解与忠实度上的表现  
来源:https://arxiv.org/html/2604.19782  
金珍永¹∗、林亨秀¹∗、徐恩瑞¹∗、张敏浩¹∗、崔建宇²、申承妍²、尹智媛¹†  
¹ 韩国中央大学人工智能系 ² Upstage AI  
{wlsdud338, andrew1001, jeo0534, sunbi8534, jiwonyoon}@cau.ac.kr {keunwoo, logan}@upstage.ai  

###### 摘要  
近期大音频语言模型(LALM)的进展已支持多语种语音理解,但面向非英语的评测基准仍稀缺,韩语即为典型空白。本文提出 KoALa-Bench,一套全面评测 LALM 韩语语音理解与“语音忠实度”的基准,共含 6 项任务:4 项基础语音理解任务(语音识别、语音翻译、语音问答、语音指令遵循)与 2 项新增忠实度任务。后者源于我们观察到若干 LALM 并未充分利用语音模态。为体现韩国本土知识,基准额外引入韩国高考听力题及涵盖韩国历史、体育、K-pop 的文化域语料。我们在 6 个白盒/黑盒模型上开展大规模实验,含 Qwen3-Omni、Gemma-3n、GPT-audio、Gemini-flash 等。基准、评测代码与排行榜已开源:https://github.com/scai-research/KoALa-Bench.git  

---

## 1 引言  
多模态大语言模型(MLLM)已能处理图像、视频、音频等多种模态,其中语音是最自然的人机交互形式。由此,将语音编码器与预训练 LLM 结合的 LALM 成为语音理解与对话的新范式,并日益支持多语种输入。  

然而现有评测基准仍以英语为中心,韩语等语言缺乏系统评估;传统韩语语音数据集(KsponSpeech、ClovaCall 等)又仅面向经典语音任务,无法衡量 LALM 的深层理解能力。为此,我们提出 **KoALa-Bench**——首个专注评测 LALM 韩语语音理解与忠实度的通用基准。  

KoALa-Bench 共 6 项任务:  
- **4 项标准理解任务**:ASR、英→韩语音翻译(ST)、语音问答(SQA)、语音指令遵循(SIF)。  
- **2 项新增忠实度任务**:  
  – **SCA-QA**(Speech-Context-Aware QA)检验模型是否真正使用语音而非仅依赖文本参数知识;  
  – **PA-QA**(Position-Aware QA)评测长语音中“答案位置”对模型准确率的影响,衡量长程忠实度。  

为引入韩国域知识,我们采集高考听力题(KCSAT)与爬取的 K-历史、K-体育、K-pop 文化语料。实验覆盖白盒(Qwen3-Omni、Gemma-3n)与黑盒(GPT-audio、Gemini-flash)模型,参数规模多样。  

**贡献**:  
- 发布首个通用韩语 LALM 评测基准 KoALa-Bench;  
- 提出 SCA-QA、PA-QA 两项忠实度任务;  
- 构建含 KCSAT 与文化域数据的韩国知识评测集。  

---

## 2 相关研究  

##### 音频基准  
AIR-Bench、AudioBench、ADU-Bench、MMAU 等相继提出,但均以英语为主。KoALa-Bench 填补韩语空白。  

##### 多模态忠实度  
已有工作指出 MLLM 易出现“多模态幻觉”——输出与输入模态不一致,或在长音频上下文理解中掉链子。SCA-QA 与 PA-QA 首次系统量化 LALM 对语音输入的忠实程度。  

---

## 3 KoALa-Bench  

##### 概述  
KoALa-Bench 针对韩语 LALM 评估六大维度:ASR、ST(英→韩)、SQA、SIF、SCA-QA(模态忠实度)、PA-QA(长程位置忠实度)。额外提供加噪鲁棒性测试集。  

### 3.1 自动语音识别(ASR)  
**数据**:KsponSpeech(日常对话)、Common Voice Korean、Zeroth-Korean(多样环境)。  
**指标**:字符级错误率 CER,先归一化标点与空白。  

### 3.2 语音翻译(ST)  
**数据**:ETRI 英-韩 TED 演讲语料(MuST-C 风格)。  
**指标**:BLEU、METEOR、BERTScore。  

### 3.3 语音问答(SQA)与语音指令遵循(SIF)  

#### 3.3.1 SQA  
- **短文本**:CLIcK(韩国考试选择题)、KoBEST-BoolQ(是/否问)。  
- **长文本**:LSQA(源自 KCSAT 听力,按题切分)。  
**评测**:logit-based 与 generation-based 两种投票,最终指标 accuracy。  

#### 3.3.2 SIF  
**数据**:将英文指令集(Alpaca、Vicuna、OpenHermes)及韩文指令集 KUDGE 翻译后,用 Qwen3-TTS 合成音频。  
**指标**:GPT-4o 作为裁判,判断模型是否按指令执行。  

### 3.4 语音上下文感知问答(SCA-QA)  
**动机**:验证模型是否“真听”语音。  
**方法**:  
1. 对同一文本问题,构造“语音-文本一致”与“语音-文本矛盾”两种音频-文本对;  
2. 若模型回答随音频改变,则视为忠实利用语音。  
**数据**:除 KCSAT 外,新增爬取的韩国历史、体育、K-pop 文化段落,共 1.2 k 对。  
**指标**:矛盾切换准确率(Consistency Switch Accuracy)。  

### 3.5 位置感知问答(PA-QA)  
**动机**:长语音中模型是否对“答案位置”敏感。  
**方法**:  
1. 在 30–120 s 长语音中标注答案起止时间;  
2. 将音频均分四段,统计答案落在各段时的模型准确率。  
**数据**:用 KBS 新闻、韩国播客构建 2 k 段长语音。  
**指标**:分段准确率曲线 + 长程衰减系数。  

### 3.6 噪音鲁棒性  
对 ASR、SQA、SCA-QA 子集分别添加 ESC-50 环境噪、白噪、咖啡馆噪,SNR 分 20 dB、10 dB、0 dB 三档,观察性能下降比。  

---

## 4 实验  

**模型**:  
- 白盒:Qwen3-Omni-0.6B/2B/8B、Gemma-3n-1B/4B  
- 黑盒:GPT-audio、Gemini-flash-1.5  

**主要结果**  
1. ASR:8B Omni 取得 4.7 % CER,优于Gemini-flash(6.1 %),但加噪 0 dB 时差距缩小。  
2. ST:BLEU 最高 38.2(Omni-8B),黑盒模型在 METEOR 上表现更佳。  
3. SQA:长文本 LSQA 平均准确率仅 58.4 %,显著低于短文本(78.9 %),显示长语音理解仍是瓶颈。  
4. SCA-QA:所有模型“矛盾切换准确率”≤ 65 %,表明普遍存在“听而不信”现象。  
5. PA-QA:答案位于音频后 25 % 区域时,准确率平均下降 18 %,揭示长程遗忘。  

---

## 5 结论  
KoALa-Bench 首次为韩语 LALM 提供系统评测,揭示当前模型在语音忠实度与长程理解上的显著不足。基准与代码已开源,欢迎社区共建 leaderboard。

相似文章

SpeechEditBench:面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers

SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。