潜在桥:用于实时游戏智能体的连续慢-快通道

arXiv cs.AI 论文

摘要

本文介绍了潜在桥(Latent Bridge),一种可训练的连续通道,它将慢速推理VLM(Qwen3-VL-8B-Thinking)和快速反应VLM(MiniCPM-o 4.5)耦合起来,用于实时游戏智能体。在Atari游戏和MetaDrive上的实验表明,该通道在性能上与基于文本的桥接器相当或更优,并且单独使用时避免了破坏性干扰。

arXiv:2606.24470v1 公告类型:新发布 摘要:用于通用计算机使用的实时智能体——以游戏为最苛刻场景——必须在数十毫秒内做出行动,同时仍需在秒级尺度上规划。这两个模式处于延迟-质量权衡的两端。推理型VLM(Qwen3-VL-8B-Thinking)能有效思考,但每次响应需要约1.5秒——对于15Hz的控制循环来说太慢了。相比之下,反应型VLM(MiniCPM-o 4.5)能在毫秒级行动,但在规划密集型任务上表现不佳。我们耦合了两个规模匹配的冻结模型(9B反应型,8B推理型),将通信通道作为唯一可训练组件。标准耦合是文本桥(T):慢模型写入后缀,快模型读取。我们引入了一种可学习的连续潜在桥(L),它以LLaVA风格将慢模型的残差投影到快模型的输入嵌入空间,避免了任何文本往返;两者均与仅快模型(F)进行比较。在7个Atari游戏和一个驾驶领域(MetaDrive)上,针对每个通道在留出种子上调优动作解码器,潜在桥在每个领域中都匹配或超越了文本桥:显著改进了两个游戏(MsPacman +57%,RoadRunner +28%),并且在其他场景中可作为安全替换。同时使用两个通道会产生破坏性干扰(RoadRunner -96%),因此应仅使用其中一个。该增益高度可预测:桥接器只有在慢推理已经优于快反应(T > F)时才起作用——潜在桥和文本桥相对于仅快模型的增益以r=0.93协同变化。MetaDrive是受控的反例,其中潜在桥明显无效,因为文本桥没有增加价值。我们发布了回放记录和可复现的流程。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:47

# 潜在桥:用于实时游戏代理的连续慢-快通道

**来源**:https://arxiv.org/html/2606.24470

###### 摘要

一个用于通用计算机使用的实时代理——游戏是最苛刻的用例——必须在几十毫秒内做出反应,同时还要规划数秒内的行为。这两种模式位于延迟-质量权衡的两端。一个*推理型* VLM(Qwen3-VL-8B-Thinking)能够有效思考,但每次响应需要约∼1.5 秒——对于 15 Hz 的控制循环来说太慢了。相比之下,一个*反应型* VLM(MiniCPM-o 4.5)能在毫秒内做出动作,但在需要规划的任务上表现不佳。我们将两个规模匹配的冻结模型(9B 反应型,8B 推理型)配对,仅将通信*通道*作为可训练组件。标准耦合是**文本桥**(TT):慢模型写一个后缀,快模型读取它。我们引入了一个学习到的连续**潜在桥**(LL),它以 LLaVA 风格将慢模型的残差投影到快模型的输入嵌入空间中,避免了任何文本往返;两者都与**仅快模型**(FF)进行了比较。在 7 个 Atari 游戏和一个驾驶域(MetaDrive)上,为每个通道在保留的种子数据上调整动作解码器,潜在桥在每个域中都匹配或击败了文本桥:它显著改进了两个游戏(MsPacman +57%、RoadRunner +28%),而在其他地方是一个安全的替代方案。同时使用两个通道会产生破坏性干扰(RoadRunner −96%),因此只应使用一个通道。其益处高度可预测:当且仅当慢推理已经胜过快反应(T > F)时,桥才有帮助——潜在桥和文本桥相对于仅快模型的增益以 r = 0.93 一起移动。MetaDrive 是受控的负面案例,其中潜在桥被证明是惰性的,因为文本桥没有增加任何价值。我们发布了重放记录和可复现的流程。

## 1 引言

我们寻求用于*通用计算机使用*(GCU)的代理:读取屏幕、发出低级输入、闭合循环、重复。其最严苛的形式是手机或桌面上的实时视频游戏,代理每几十毫秒对原始像素做出反应,同时追求需要规划数秒的目标——快速反应和慢速思考这两种对立的模式,很难在没有专门训练的情况下从单一模型中获得。

> 图 1:使用各自最佳解码器的各通道跨游戏得分(在保留种子上选择,n=12;每个游戏报告的动作头变体,按照 §2 中的规则选择)。潜在桥在 MsPacman(+57%)和 RoadRunner(+28%)上显著优于文本桥,在其他五个游戏中持平,从未失败。星号:LL 与 TT 的 Mann-Whitney U 显著性(** p < .01,*** p < .001);游戏标签上的 ∗ 标记了鲁棒动作头变体(§5)。两个变体都在附录 A 中列出。

#### 为什么耦合两个模型而不是训练一个模型。

单一模型*原则上*可以同时做到这两点——StepFun 的开源权重 *Step-Audio-R1.1* [29] 将推理与语音交错,在持续思考的同时快速回答——但训练一个模型同时做好这两件事是在追逐一个移动的目标。推理模型 [18, 7] 每几个月就会进步:GPT-5.2 到 5.5 [20] 以及 Claude Opus 4.5 到 4.8 [4, 27] 都在大约六个月内发布,这场竞赛的胜负取决于编码 [13] 和代理工具使用 [31],而不是实时交互。将交互作为一个独立的目标来构建——并创建它所需的数据——会冒着稀释竞赛所优化的原始智能(最重要的能力)的风险。即使是前沿实验室也难以承受这样的代价;而对于其他人可以训练的较小规模,没有微调能够缩小与最先进水平的差距。

#### 解耦的替代方案。

实用的替代方案是保持最好的推理模型不变,并为其搭配一个单独的、定制训练的实时循环模型。最近的解耦系统正是这样做的——Thinking Machines Lab 的 *Interaction Models* [28] 将一个实时交互模型与一个异步后台推理器耦合,xAI 的 *Grok Voice Think Fast* [30] 和 Pine AI 的语音代理 [22] 也是如此——在循环中运行快速响应器,在后台运行慢速推理器,通过流式文本或上下文耦合。这些方法以语音为中心,紧密协同设计,并且大多是封闭的。

#### 我们的设定。

我们将这一原则应用到通用计算机使用,特别是实时游戏。人们实际会部署的开放、通用模型没有内置的快/慢分离:一个*推理型* VLM(Qwen3-VL-8B-Thinking [23])善于思考但每次响应需要约∼1.5 秒——对于一个约∼15 Hz 的循环来说晚了数十帧——而一个*反应型* VLM(MiniCPM-o 4.5 [21])能在毫秒内回答但规划能力差:单独行动(仅快模型,FF)时,它留下了很多潜力——在 MsPacman 上,加入推理器后得分大约翻倍。因此,我们将两个*冻结的、开源的*、规模匹配的模型耦合,并研究这些系统隐含的问题:*如何*让慢模型的思考到达快模型——学到的连续潜在通道能否胜过标准的文本耦合?

#### 文本桥与潜在桥。

标准耦合是**文本桥**(TT):慢模型写下结论,快模型将其作为提示后缀读取。我们引入了学到的连续**潜在桥**(LL):它将慢模型的残差流直接投影到快模型的输入嵌入空间(LLaVA 风格),并前置几个潜在标记,无需文本往返。两者都与**仅快模型**(FF)进行了比较。由于两个基础模型都是冻结且规模匹配的(9B 快,8B 慢),*通道*——唯一学到的组件——是唯一研究的变量。快模型以约∼15 Hz 运行,慢模型以约∼1 Hz 思考。我们在 Atari [5](100 毫秒的鬼怪躲避与 10 秒的路线规划并存)和 MetaDrive 驾驶模拟器(作为受控的负面案例)上进行评估。图 2 预览了所有八个评估域。

> 图 2:八个评估域。七个 Atari 游戏(原始像素,约∼15 Hz 控制),涵盖快速危险避开——鬼怪、障碍、敌方火力——以及较慢的路线/策略规划,加上 MetaDrive(自上而下的驾驶),我们非 Atari 的受控负面案例。Frostbite(排除)和 Pong(已报告但无信息量)未显示。

#### 本文展示了什么。

- • **架构很重要。** 首次尝试(v1,在 36 层中的 2 层使用 256 维交叉注意力)在离线时收敛到 KL=0.004,但部署时*失败*;可行的 v2 是 LLaVA 模式——将慢残差投影到快 LLM 的 4096 维输入嵌入空间并前置,这样所有层通过标准因果注意力进行关注(§3)。
- • **按通道调整后,潜在桥从未显著差于文本桥,并且在 7 个游戏中的 2 个上显著更好**(MsPacman +57%,RoadRunner +28%;图 1,§4.4)。一个固定的贪婪解码器(总是选择概率最高的动作)使潜在桥以 4 次胜利占据优势,但这种优势是*贪婪特定的*——一旦改为采样动作,这种优势就会消失(§4.3)。由于解码器是一个可调整的部署超参数,公平的测试是让每个通道使用自己最好的解码器,在保留种子上选择;事实上,两者偏好*不同的*解码器。
- • **同时使用两个通道会*损害*表现**——通过恰好一个通道耦合(§4.5)。在一次前向传播中同时喂入文本后缀和潜在标记从未击败任一更好的单通道,并且在 3 个游戏上显著干扰(RoadRunner −96%):冻结的动作头一次只针对一个条件信号训练,从两个信号中会得到更差的策略。潜在桥是安全的单通道默认选择。
- • **桥是否有帮助是任务的一个属性,而不是通道的属性。** 跨 7 个 Atari 游戏和一个驾驶域(MetaDrive),潜在桥相对于仅快模型的增益(L − F)与文本桥的增益(T − F)呈 Pearson r = 0.93 的相关性:当且仅当慢推理胜过反应(T > F)时,桥才值得付出代价,否则是惰性或有害的。MetaDrive 是受控的负面案例:将训练好的潜在向量替换为零向量或随机向量(一个*桥替换控制*)不改变得分,确认潜在桥在那里是惰性的(§7)。我们这样阐述,而不是作为一个“文本受带宽限制”的故事——我们自己的消融实验并不支持这一点。
- • **大多数崩溃的单元不是桥的失败**,而是快模型动作头在后缀/桥输入下的分布外(OOD)脆弱性。重新训练该头以使其容忍这些输入可以修复崩溃,在 River Raid 上效果显著(§5)。
- • **潜在桥并不总是胜过仅快模型。** 在几个它胜过文本桥的游戏中,仅快模型仍然胜过两者:桥在*匹配的架构下*比文本更好;它并不总是证明运行慢模型是值得的。

## 2 设定

#### 模型。

我们使用两个相似规模的冻结多模态模型。*快速*(反应型)模型是 MiniCPM-o 4.5 [21](9B 参数,bf16)。*慢速*(推理型)模型是 Qwen3-VL-8B-Thinking [23](8B 参数,bf16)。

#### 节拍预算。

Atari 环境以 60 Hz 运行,但快速模型限制在 15 Hz 控制率——每约∼67 ms 一次动作(一个*节拍*)。慢速模型以大约 1 Hz 异步产生一次思考(一次*发射*),因此每次发射被重复用于约∼15 个节拍;由于其残差被缓存,投影的潜在标记在这些节拍间是相同的,直到下一次发射到达。测量的热路径推理延迟(带有视觉缓存)是仅快速模型的 F=33 ms,使用潜在桥时约为 L≈38 ms(8 个前置标记增加了约∼5 ms)。完整的潜在桥系统的端到端挂钟时间主要由来自异步慢模型的 GPU 争用主导,而不是桥本身。(我们在 §4 中的主要得分使用每节拍视觉,而不是这种缓存路径,因此它们是正确性数字,而不是延迟优化的;参见附录 E。)

> 图 3:系统架构。快速模型(MiniCPM-o 4.5,冻结)运行反应循环:视觉标记和游戏状态提示馈入一个 36 层 LLM,其训练过的动作头每节拍发射一个动作(约∼33-38 ms 热路径)。慢速模型(Qwen3-VL-8B-Thinking,冻结)在结构化状态上异步思考,约∼1 Hz;快速循环从不阻塞等待它,并重用最新的发射直到被替换。慢输出通过两种方式到达快速模型:其文本发射作为提示后缀追加,以及其第 24 层残差通过 33M 参数的桥 MLP——唯一的训练组件——投影成 8 个潜在标记前置到输入中。三种策略(仅快模型、文本桥、潜在桥)切换快速模型接收哪些输入。

#### 三种策略比较(图 3)。

三者共享冻结的快速模型及其动作头;它们仅在慢模型贡献给快速上下文的输入上不同。

- • **仅快模型**(FF):快速模型单独行动,忽略慢模型。
- • **文本桥**(TT):仅快模型加上慢模型的完整文本发射逐字追加为提示后缀(中位 302 字符;样例见附录 C)。
- • **潜在桥**(LL):仅快模型加上慢模型投影的潜在标记前置(8 个标记,每个 4096 维)。

我们在散文中按名称书写这三种策略,并在图形和公式中缩写为 FF、TT、LL。(仅慢模型*策略不是第四种策略:它必须在每次动作前同步完成整个感知-推理-发射循环,因此在慢模型约∼1.5 秒每次发射的情况下,它的动作频率远低于 1 Hz,每次决策会错过数十帧——这正是耦合需要解决的速度问题。)

#### 训练流程。

三个阶段,按顺序(只有桥 MLP 是新训练的;两个 VLM 保持冻结):

- • **动作头克隆**:从 Stable-Baselines3 (SB3) 专家 [24] 进行行为克隆 (BC) 到快速模型的*动作头*——将 LLM 的最终隐藏状态映射到游戏动作的小型头。
- • **轨迹缓存**:收集文本桥轨迹并缓存每节拍的(帧、慢文本、第 24 层慢残差、最后 8 个位置)。
- • **桥蒸馏**:训练投影 MLP 以最小化 KL(π_L ∥ π_T)——使潜在条件策略匹配文本条件策略——冻结两个基础模型(每个游戏约∼5K 样本,最终 KL 约∼0.005)。超参数和每个游戏的验证准确率见附录 D。

#### 动作头鲁棒性是调整后的超参数(*不是*每个游戏的选择性挑拣)。

对于每个游戏,我们训练两个变体的动作头:*裸版本*(在纯状态提示上训练)或*鲁棒版本*(训练时后缀概率为 0.5:一半的批次追加慢风格文本后缀,以教头部容忍部署中遇到的 OOD 后缀/桥输入;§5)。这是一个单一的二元超参数。我们通过以下规则为每个游戏选择变体:选择 LL 性能更高的变体,前提是其文本桥没有崩溃(T > 0,这样 LL 与 TT 的比较有意义,而不是在零上的平局)。平局和双崩溃优先选择 TT 性能更高的变体。这个规则是*保守的*。在 Enduro 上,裸版本具有略高的 LL(7.8 对 5.8),但 T = 0,因此我们选择鲁棒版本(T = 5,L = 6)。这个选择降低而不是提高了该游戏的报告 LL。由于规则最大化 LL——部署的量——并且对 L - T *差距*不可见,它不能夸大文本与潜在的比较。所有游戏的两种变体都在附录 A 中报告。鲁棒性选择本身具有信息量:它*拯救*了那些裸动作头在后缀/桥输入下崩溃的游戏(River Raid L: 360 → 612,Q*bert 0 → 50),但*损害*了那些裸头已经工作良好的游戏(MsPacman 628 → 60,Seaquest 80 → 0)。即使没有任何选择,跨游戏预测器(§7)仍然很强(报告的 8 个单元上 r = 0.93,所有 16 个评估单元上 r = 0.96)。

#### 游戏。

总共尝试了九个 Atari 游戏。*Frostbite* 被排除,因为动作头克隆收敛到随机验证准确率,因此没有 F/T/L

相似文章

HarnessBridge: LLM智能体的可学习双向控制器

Hugging Face Daily Papers

介绍了HarnessBridge,一种可学习的双向控制器,它将智能体-环境接口参数化,用于LLM智能体。在Terminal-Bench和SWE-bench上,它以更少的计算开销达到了与专用框架相当的性能。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。