基于LLM并行文本生成的低延迟实时音频游戏解说系统

arXiv cs.CL 论文

摘要

本文介绍了一种低延迟实时音频游戏解说系统,该系统利用基于LLM的并行文本生成技术,将语句间的静默时间从9.6秒减少到0.3秒,与顺序基线相比显著改善了感知到的说话节奏。

arXiv:2606.13322v1 公告类型:新 摘要:我们提出了一种低延迟实时音频游戏解说系统,能够直接从实时游戏视频生成语音解说。在这种端到端设置中,一个关键瓶颈是累积的等待时间;传统流程对每个语句顺序执行帧捕捉、文本生成和语音合成,并且在语音播放完成之前不会请求下一次生成。这种严格的顺序性导致语句之间出现长时间且不自然的静默。为了解决这一延迟瓶颈,我们的系统将文本生成与语音播放并行运行,并提前缓冲多个候选语句,从而在播放边界实现即时合成。在快节奏游戏视频上的实验表明,与顺序基线相比,我们的并行设计将语句间平均静默时间从9.6秒减少到0.3秒。此外,与专业解说员的静默时序模式相似度提高了40%以上,一项涉及120名资深游戏玩家的用户研究证实,感知到的说话节奏显著改善。我们的演示视频地址:https://youtu.be/pmrRUlvav8M。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:52

# 基于LLM并行文本生成的低延迟实时音频游戏解说系统
来源:https://arxiv.org/html/2606.13322
Anum Afzal2,3Yuki Saito1Shinnosuke Takamichi4,1 Graham Neubig5Katsuhito Sudoh6Hiroya Takamura2Tatsuya Ishigaki2 1日本东京大学 2日本国立产业技术综合研究所 3德国慕尼黑工业大学 4日本庆应义塾大学 5美国卡内基梅隆大学 6日本奈良女子大学

###### 摘要

我们提出了一种低延迟实时音频游戏解说系统,可直接从实时游戏视频生成语音解说。在这种端到端设置中,一个关键瓶颈是累积的等待时间;传统流水线顺序捕获画面、生成文本、合成语音,每次发声都等待上一段语音播放完毕才请求下一次生成。这种严格的顺序性导致发声之间出现漫长而不自然的静默。为解决这一延迟瓶颈,我们的系统将文本生成与语音播放并行运行,并预先缓冲多个候选发声,从而在播放边界实现即时合成。在快节奏游戏视频上的实验表明,与顺序基线相比,我们的并行设计将发声间平均静默时间从9.6秒降至0.3秒。同时,与专业解说员说话-静默时间模式的相似度提升了40%以上,一项有120名经验丰富游戏玩家参与的用户研究也证实了感知说话节奏的显著改善。我们的演示视频地址:https://youtu.be/pmrRUlvav8M。

参见图题图1:系统概览:顺序基线 vs. 我们的带缓冲和视频延迟控制的并行生成。

## 1引言

实时游戏解说描述游戏内事件并提供情境解释,帮助观众沉浸于游戏体验Behrens and Uhrich (2022);da Silva and Scelles (2025)。音频解说与直播视频整合,通过在线流媒体平台传递给用户。多模态语言模型和音频合成的进展加速了自动音频解说生成的研究Zhenget al.(2025)。先前工作探索了从结构化数据Taniguchiet al.(2019);Ishigakiet al.(2021)、视频Yuet al.(2018);Kim and Choi (2020);Raoet al.(2024);Zhouet al.(2024);Chenet al.(2025);Afzalet al.(2026)以及多模态输入Moriet al.(2025);Someyaet al.(2025);Wang and Yoshinaga (2025)生成语言,以及用于生动解说的富有表现力的语音合成Iuraet al.(2025);然而,这两条研究路线大多独立发展。

基于这些独立研究方向,已有若干工作开始将语言生成和语音合成结合为端到端音频解说系统Kumanoet al.(2019);Jumneanbunet al.(2020);Xuet al.(2021);Ishigakiet al.(2023)。然而,现有系统依赖于结构化游戏状态输入和轻量级语言模型,这使得延迟不成为关键瓶颈。将这种设置扩展到原始游戏视频和现代多模态大语言模型(LLMs)会带来巨大的延迟挑战Moriet al.(2025)。

实时音频解说的一个主要瓶颈是其流水线设计。大多数流水线是顺序的:处理游戏输入、生成文本、合成语音,并且仅在当前语音播放完毕后才开始生成下一段发声。因此,等待时间在轮次间累积,导致发声之间长段静默,显著降低感知解说质量。

为解决这一延迟瓶颈,我们提出了一种带有并行文本生成和轻量级视频延迟控制的音频解说系统。当一段发声正在播报时,我们的系统持续在后端为新到达的视频段生成候选发声,并将其存储在缓冲区中。当当前语音播放结束时,系统立即选择一个缓冲候选并进行语音合成,从而避免了因等待生成完成而产生的静默。由于推理延迟在实践中不可避免,我们还额外实现了轻量级视频延迟控制,有意延迟输出的视频流,以使生成的语音与显示的画面更好地对齐。

在快节奏游戏视频Saitoet al.(2020)上的实验表明,我们的系统将发声间平均静默时间从9.6秒降至0.3秒,这一成果进一步得到了一项120名参与者的人类评估的支持。

## 2实时游戏音频解说

典型的实时音频解说流水线通过执行(i)视频采集与分段、(ii)文本生成和(iii)语音合成,将游戏流转换为音频解说。视频流被缓冲并分组为短帧段。令f_i表示在时间i捕获的帧;则一个段F_k = {f_i, ..., f_{i+N-1}},由N个连续帧组成。常见设计是顺序运行这些模块。具体而言,系统等待当前语音播放结束,然后调用多模态LLM处理最新段,使用简单提示(例如“描述游戏状况。如果你无话可说,保持静默。”)生成文本Afzalet al.(2026)。生成的文本随后由文本到语音(TTS)模块转换为音频Iuraet al.(2025)。由于下一段生成仅在播放完成后触发,这种严格的顺序性累积延迟并导致发声之间长段静默。

## 3提出的系统

我们提出基于两个关键思想的低延迟系统设计:并行文本生成(我们减少等待时间的主要机制)和轻量级视频延迟控制(以保持时间一致性)。

### 3.1并行文本生成

与传统系统仅在语音播放结束后触发文本生成不同,我们的系统在新视频段可用时立即启动文本生成,即使当前发声仍在播报(图1)。结果,多个候选发声在播放前生成并存储在缓冲区中。当前发声结束时,系统选择一个缓冲候选并立即合成,消除了顺序等待导致的空闲静默。

我们考虑三种轻量级选择策略:*最新*(最近段)、*最旧*(最早缓冲)和*随机*。我们采用这些轻量级策略以避免在实时设置中增加额外的决策延迟。

### 3.2视频延迟控制

我们考虑直播平台(如YouTube Live)的流媒体设置,其中游戏视频和自动生成的语音在我们的服务器上整合为单一音视频流,然后上传到平台。这种设置允许我们控制视频播放时序,以缓解生成延迟引起的错位。

由于文本生成和TTS不可避免地引入延迟导致解说滞后,我们通过故意延迟视频来吸收此延迟。具体而言,我们缓冲视频流,并仅在第一个发声开始时才开始播放,以匹配初始端到端生成延迟。

## 4实验

演示设置:在演示中,参会者在现场自愿操作任天堂Switch主机,游戏视频通过采集设备(Elgato HD60 X11https://www.elgato.com/jp/ja/p/game-capture-hd60-x)实时捕获并流式传输到解说服务器。系统基于实时视频输入在线生成语音解说。演示仅在现场进行,不记录或分发任何游戏视频或音频。参会者观察游戏画面并同时收听自动生成的解说,直接感知并行候选生成如何影响发声间静默和说话节奏。游戏机以25 fps发送视频,捕获的帧被分组为N个连续帧的段。在所有实验中,我们设置N=32。每个段F_k = {f_i, ..., f_{i+N-1}}一旦可用即发送至解说服务器。语言模型接收每个段作为base64编码的令牌并生成解说文本。我们使用GPT-4.1-mini22https://platform.openai.com/docs/models/gpt-4.1-mini进行文本生成,并遵循Iuraet al.(2025)中描述的TTS配置。我们的实验改变max_new_tokens参数在{20, 40, 60, 80, 100}中变化。

数据集:我们从Smash Corpus Saitoet al.(2020)中随机选取了8个目标游戏为《任天堂明星大乱斗特别版》的视频。我们选择此游戏进行实验,因为它是快节奏游戏,延迟尤为显著。该语料库提供游戏视频。我们收集了经验丰富的解说员对这些选定视频的解说,以便比较熟练的人类解说与系统生成的解说。

对比模型:我们比较五种方法。所有方法使用相同的视频延迟控制(第3.2节)。*Baseline After-Audio*是完全顺序流水线,仅在当前语音播放结束后才开始生成下一段发声,遵循先前实时解说系统的常见设计Ishigakiet al.(2023)。*Baseline After-Text*是半顺序变体,在文本生成完成后立即开始生成下一段发声,而不等待语音播放结束。我们的系统使用带缓冲的并行生成,并测试三种轻量级选择策略:*Parallel Latest*、*Parallel Oldest*和*Parallel Random*。

表1:max_new_tokens=20时的静默统计和mIoU。括号内为标准差。
表2:max_new_tokens对说话时长和文本长度的影响(Latest策略)。
参见图题图2:不同max_new_tokens下的ROUGE召回率。误差线表示标准差。
参见图题图3:不同方法和max_new_tokens下Q1–Q3的用户研究结果。误差线表示95%置信区间。

评估指标:我们从时序行为和内容充分性两方面评估解说。时序方面,我们比较累积静默、发声间平均静默以及发声长度。为了捕捉说话和静默模式与人类解说员的相似性,我们将每个解说流表示为1 Hz二元序列(1=说话,0=静默),并计算自动生成解说与经验丰富人类解说之间的平均交并比(mIoU)。mIoU越高,表明与熟练人类解说相比,说话和静默区域的不匹配越少。内容充分性方面,我们计算ROUGELin (2004)分数,参考解说文本。由于实时设置中精确的时间对齐困难,ROUGE在固定10秒窗口内计算。

对于人类评估,我们通过Lancers33https://www.lancers.jp/招募了120名众包工作者进行用户研究。我们展示从20个场景中采样的30秒片段。每个片段与25种条件(5种方法×5种max_new_tokens设置)生成的一种解说配对。参与者按5点Likert量表评分,我们报告以下标准的平均意见分数(MOS):(Q1)解说节奏自然度,(Q2)与视频的对齐程度,(Q3)整体质量。

## 5结果

表1总结了每种方法的静默相关统计量和mIoU。顺序基线(After-Audio和After-Text)的累积静默约是人类解说的两倍,mIoU得分极低,表明顺序处理会引入发声之间漫长而不自然的停顿。相比之下,所有提出的并行方法显著减少了静默,实现了接近人类解说的mIoU值。各选择策略之间的差异较小,表明主要收益来自并行生成本身。

表2分析了Latest策略下max_new_tokens的影响。虽然设置为40时最匹配人类说话时长,但60时产生最接近人类解说的发声长度,表明生成长度影响时序行为的不同方面。ROUGE分数(图2)显示并行方法相对于顺序基线的一致改进。

图3报告了人类评估的结果。提出的方法在所有标准(Q1–Q3)上显著优于基线,表明减少不自然静默可提高感知解说质量。

## 6结论

我们提出了一种通过并行生成降低延迟的实时游戏音频解说系统。实验显示发声间静默显著减少,与专业说话/静默模式的相似度提高。

## 致谢

本文基于日本内阁府项目“连接研发与理想社会(社会5.0)及创造经济和社会价值(BRIDGE)/AI×机器人服务领域的实践性全球研究”的结果。本文还基于AIST政策预算项目“物理领域生成式AI基础模型的研发”的结果。

## 参考文献

- Afzal et al. [2026] Anum Afzal, Yuki Saito, Hiroya Takamura, Katsuhito Sudoh, Shinnosuke Takamichi, Graham Neubig, Florian Matthes, and Tatsuya Ishigaki. Real-time generation of game video commentary with multimodal llms: Pause-aware decoding approaches. In Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026), pages 9188–9201, May 2026.
- Behrens and Uhrich [2022] Anton Behrens and Sebastian Uhrich. You'll never want to watch alone: the effect of displaying in-stadium social atmospherics on media consumers' responses to new sport leagues across different types of media. European Sport Management Quarterly, 22(1):120–138, 2022.
- Chen et al. [2025] Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, and Mike Zheng Shou. LiveCC: Learning video llm with streaming s

相似文章

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL

提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。

释放全双工语音模型中LLM的能力

Hugging Face Daily Papers

提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。

ProactiveLLM: 学习主动交互的流式大语言模型

arXiv cs.CL

ProactiveLLM 提出了一种方法,使流式大语言模型能够基于内源性线索主动决定何时生成输出,通过基于掩码的流式建模和同步特权自蒸馏,在无需外部标注的情况下降低延迟。