ReVision:通过时间视觉冗余缩减扩展计算机使用智能体

arXiv cs.CL 论文

摘要

本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。

arXiv:2605.11212v1 公告类型:新论文 摘要:计算机使用智能体(CUAs)依赖于图形用户界面的视觉观察,其中每张屏幕截图都被编码为大量视觉 token。随着交互轨迹的增长,token 成本迅速增加,限制了在固定上下文和计算预算下可纳入的历史信息量。这导致与其他领域不同,使用历史信息并未带来性能提升,或提升非常有限。我们通过引入 ReVision 来解决这一低效问题,该方法用于在轨迹上训练多模态语言模型,利用学习到的 patch 选择器移除冗余视觉 patch,该选择器在连续屏幕截图之间比较 patch 表示,同时保留模型所需的空间结构。在 OSWorld、WebTailBench 和 AgentNetBench 三个基准测试中,当使用 Qwen2.5-VL-7B 处理包含 5 张历史截图的轨迹时,ReVision 平均将 token 使用量减少了约 46%,并将成功率比无丢弃基线提高了 3%。这确立了明确的效率优势,使智能体能够以 fewer tokens 处理更长的轨迹。凭借这种改进的效率,我们重新审视了历史信息在 CUAs 中的作用,并发现当移除冗余时,随着纳入更多过去的观察,性能持续改善。这表明,视觉历史中常见的饱和现象并非由于过去信息用途有限,而是低效 token 表示的后果。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:09

# ReVision:通过减少时序视觉冗余来扩展计算机使用代理

**来源:** https://arxiv.org/html/2605.11212
**作者:** Amirhossein Abaskohi¹, Yuhang He², Peter West¹, Giuseppe Carenini¹, Pranit Chawla², Vibhav Vineet²
**机构:** ¹不列颠哥伦比亚大学, ²微软研究院

###### 摘要

计算机使用代理(CUAs)依赖于对图形用户界面(GUI)的视觉观察,其中每个截图都被编码为大量视觉标记(tokens)。随着交互轨迹的增长,标记成本迅速增加,限制了在固定的上下文和计算预算下可以纳入的历史信息量。这导致与使用历史相比,性能没有或仅有非常有限的提升,不同于其他领域。我们通过引入 ReVision 来解决这种低效率问题,该方法用于在多模态语言模型上训练轨迹,其中使用学习到的补丁选择器移除了冗余的视觉补丁,该选择器比较连续截图之间的补丁表示,同时保留模型所需的空间结构。在 OSWorld、WebTailBench 和 AgentNetBench 三个基准测试中,当使用 Qwen2.5-VL-7B 处理包含 5 个历史截图的轨迹时,ReVision 平均将标记使用量减少了约 46%,同时将成功率提高了 3%,优于无丢弃基线。这确立了明确的效率增益,使代理能够用更少的标记处理更长的轨迹。凭借这种改进的效率,我们重新审视了历史在 CUA 中的作用,发现当去除冗余时,随着更多过去观察的纳入,性能持续提高。这表明,视觉历史中通常观察到的饱和现象并非由于过去信息的有用性有限,而是低效标记表示的后果。

## 1 引言

多模态大型语言模型(MLLMs)通过结合视觉理解和基于语言的推理,使得能够与图形用户界面(GUI)交互的代理成为可能 (Wang et al., 2025b; Wang et al., 2025a)。这些计算机使用代理(CUAs)基于截图生成接地动作(grounded actions),如点击、打字和导航,以完成多步任务。VisualWebArena (Koh et al., 2024b)、OSWorld (Xie et al., 2024) 和 AgentNetBench (Wang et al., 2025b) 等基准测试证明了它们在网页和桌面环境中处理复杂工作流的能力。尽管许多任务需要记忆过去的状态或动作,但大多数系统主要依赖当前截图,有时仅包含有限的历史记录 (Sager et al., 2025)。由于需要在有限的上下文预算下处理扩展的视觉轨迹,扩展此类长 horizon 推理仍然具有挑战性 (Chen et al., 2026)。

![Figure 1: Token efficiency with ReVision. Left: ReVision removes redundant patches across steps, reducing token accumulation while preserving spatial structure. Right: ReVision achieves higher success rates at maximum 100 steps OSWorld and WebTailBench, with lower token cost across models. Circle size indicates average steps to complete tasks.](https://arxiv.org/html/2605.11212#S1.F1)
*图 1:ReVision 的标记效率。左:ReVision 跨步骤移除冗余补丁,在保留空间结构的同时减少标记累积。右:ReVision 在 OSWorld 和 WebTailBench 的最大 100 步中实现了更高的成功率,且跨模型具有更低的标记成本。圆圈大小表示完成任务的平均步骤数。*

提供记忆的一种直接方法是将过去的截图附加到模型上下文中。然而,这种方法效率极低:每增加一张图像就会引入数百或数千个视觉标记,迅速耗尽上下文预算。在实践中,这部分成本大多是冗余的,因为连续的 GUI 截图 largely overlap(重叠度很高)(Figure 1, left)。结果,模型反复处理未改变的视觉内容,浪费了计算资源,并限制了其纳入更长、更有信息量的历史记录的能力。因此,减少这种冗余不仅是一种效率优化,更是更好决策的关键推动力:通过释放上下文预算,模型可以纳入更长且更具信息量的历史记录,从而提高其在长 horizon 交互中进行推理的能力。

为了解决这种低效率,我们引入了 ReVision,这是一个用于 MLLM 的冗余感知训练框架,该框架作用于移除了连续截图中冗余视觉补丁的轨迹。ReVision 的核心是一个学习到的补丁选择器,它跨时间比较补丁级表示,并过滤出视觉上冗余的区域,同时保留模型所需的空间结构。我们不是将标记减少视为后处理步骤,而是直接在经过过滤的轨迹上训练模型,使其能够在紧凑的视觉历史上进行推理,并依赖时间分布的证据。这种设计允许 ReVision 在不修改底层架构的情况下减少不必要的视觉标记,同时保持与现有 MLLMs 的兼容性。

这种效率提升直接转化为更好的性能。在 OSWorld (Xie et al., 2024)、WebTailBench (Awadallah et al., 2025) 和 AgentNetBench (Wang et al., 2025b) 上,当使用 5 个历史截图配合 Qwen2.5-VL-7B (Bai et al., 2025b) 时,ReVision 平均将标记使用量减少了约 46%,同时实现了比无丢弃基线高 3% 的成功率增益。仅使用 3 张历史图像,ReVision 就达到了接近某些最佳基线的性能,同时使用的视觉标记大约只有一半。随着历史长度的增加,增益变得更加显著:当使用 5 张或更多图像时,ReVision 始终比同等规模的大多数基线平均高出至少 2% (Figure 1, right)。ReVision 通过使模型在相似的计算预算下处理更长的视觉历史,同时实现更高的成功率,从而推动了效率前沿的发展。此外,去除冗余标记揭示了性能随着历史增加而持续提高,而不是早期饱和,这表明之前的饱和是由低效的视觉表示驱动的,而不是历史有用性的限制。

我们的贡献如下:
(i) 我们识别并量化了长计算机使用轨迹中连续截图的大量时序冗余,显示很大一部分视觉标记在连续步骤中保持不变;
(ii) 我们引入了 ReVision,这是一个基于 Qwen2.5-VL-7B 的模型,使用时序补丁评分器进行训练,在连续截图之间执行补丁级过滤,使模型能够在不修改底层架构的情况下在紧凑的视觉历史上进行推理;
(iii) 我们在长 horizon 计算机使用基准测试中证明,冗余感知的历史过滤减少了标记使用量,提高了成功率,并延迟了视觉历史的饱和点,揭示出更长的历史比以前认为的更有用。

## 2 相关工作

**计算机使用代理与基准测试。** CUAs 的最新进展由通过截图和自然语言与数字环境交互的多模态模型驱动。早期系统如 WebShop 和 WebArena 依赖于 DOM 或无障碍树等结构化表示 (Yao et al., 2022; Zhou et al., 2023)。相比之下,越来越多的工作采用“视觉优先”范式,直接在像素上进行推理。如 CogAgent、AGUVIS、OpenCUA、FARA、WebSTAR 和 UI-TARS 等方法纯粹基于视觉输入 (Hong et al., 2023; Xu et al., 2024; Wang et al., 2025b; Awadallah et al., 2025; He et al., 2026; Qin et al., 2025; Wang et al., 2025a)。其他方法,包括 WebVoyager、SeeAct 和 ScaleCUA,结合了视觉观察和结构化信号,以提高在复杂环境中的鲁棒性 (He et al., 2024; Zheng et al., 2024; Liu et al., 2025)。WebArena、VisualWebArena、OSWorld 和 AgentNetBench 等基准测试支持在长 horizon 设置中进行评估 (Zhou et al., 2023; Koh et al., 2024b; Xie et al., 2024; Wang et al., 2025b)。尽管取得了这些进展,代理通常依赖于有限的视觉历史,增加历史长度带来的收益递减,凸显了朴素上下文扩展的低效率 (Abhyankar et al., 2025; Kerboua et al., 2025)。我们的设定则要求在连续截图之间以补丁粒度过滤视觉历史,同时保留用于长 horizon 决策的时间分布证据。

**视觉标记剪枝与上下文压缩。** 先前工作通过在图像内部或跨轨迹步骤减少视觉标记使用量。ShowUI 和 FocusUI 等方法修剪单张截图中的空间冗余区域 (Lin et al., 2024; Ouyang et al., 2026),而 Focus-Scan-Refine 和自适应压缩等方法则进一步根据显著性或重要性移除标记 (Tong et al., 2026; Huang et al., 2026a; Huang et al., 2026b)。在轨迹层面,如 FocusAgent 等方法减少了上下文中包含的过去步骤数量 (Kerboua et al., 2025)。然而,这些方法要么在图像内部进行空间操作,要么在步骤级别进行时间操作,没有明确建模连续截图之间的冗余,导致重复处理未改变的视觉区域。

**连续视觉数据中的时序冗余。** 时序冗余在视频理解中得到了广泛研究,其中连续帧共享相似的内容。先前工作通过关键帧选择、特征复用和标记压缩来解决这个问题 (R. Choudhury et al., 2024; B. Korbar et al., 2019; J. Choi et al., 2024; K. Tao et al., 2025; 33)。然而,计算机使用代理有所不同:截图随着代理的动作而演变,必须与文本推理一起处理。现有方法在视觉模型内部以帧或特征级别操作,而我们的设定要求在多模态 LLM 的标记空间中进行补丁级过滤,同时保留用于长 horizon 决策的时间分布证据。

## 3 时序视觉冗余

CUAs 操作于捕获数字环境演变状态的截图序列。在每一步,模型将当前截图编码为大量视觉标记,并与累积的文本上下文一起处理以预测下一个动作。然而,轨迹中的连续截图往往表现出大量的视觉重叠:在大多数步骤中,只有界面的一个小区域发生变化(例如,按钮点击或文本更新),而屏幕的大部分保持不变。尽管如此,标准的多模态模型独立处理每张图像,导致跨时间重复编码和消耗几乎相同的视觉标记。

为了量化这一点,我们分析了多个基准测试中连续截图对 $(I_{t-1}, I_t)$,并通过比较相应的补丁来衡量冗余。如表 1 所示,冗余率 consistently high(一直很高),平均有 45.4% 的补丁在步骤间未改变,在某些设置中超过 56%。这对应于平均每步超过 1,000 个冗余补丁。这些发现表明,很大一部分计算花费在重复的视觉内容上,且上下文预算主要由冗余标记主导,限制了模型纳入有用历史记录的能力。这促使我们开发 ReVision,它在跨时间移除冗余视觉标记的同时保留任务相关信息。

**表 1:计算机使用基准测试中的数据集级视觉冗余。** 我们报告了平均步骤数、每张图像的补丁数以及跨环境的冗余补丁数。虽然 GUIAct 和 AgentNetBench 是具有固定步骤的离线基准测试,但其他基准测试取决于代理性能。我们使用 GPT-5.4 以确保轨迹最小化且一致,从而实现公平比较。结果显示,36%-56% 的视觉标记在步骤间是冗余的,这为 ReVision 提供了动机。

| 数据集/基准测试 | Avg. Steps/ Task | Avg. \# of Patches/ Image | Avg. Redundant Patches/ Image | Avg. (%) Redundant Patches/ Image |
| :--- | :--- | :--- | :--- | :--- |
| AgentNetBench (Wang et al., 2025b) | 12.1 | 2,284 | 1,014 | 44.4% |
| OSWorld (Xie et al., 2024) | 16.9 | 2,769 | 1,556 | 56.2% |
| WindowsAgentArena (2024) | 11.7 | 2,769 | 1,462 | 52.8% |
| WebTailBench (Awadallah et al., 2025) | 22.4 | 2,769 | 1,174 | 42.4% |
| Mind2Web2 (2025) | 13.4 | 2,769 | 1,199 | 43.3% |
| VisualWebArena (Koh et al., 2024a) | 6.8 | 2,769 | 1,373 | 49.6% |
| AndroidWorld (2024) | 7.6 | 1,196 | 456 | 38.2% |
| GUIAct (2024) | 5.5 | 1,196 | 435.3 | 36.4% |
| **Average** | **12.1** | **2,315** | **1,083** | **45.4%** |

## 4 方法

如图 2 所示,ReVision 通过学习有选择地仅保留信息量大的补丁,来减少连续 GUI 观察中的冗余视觉标记。我们的方法由两个主要部分组成。首先,我们训练一个轻量级的三层 MLP 分类器,称为 ReVision Token Selection (RTS),它接受来自连续截图中两个相应补丁的嵌入作为输入,并预测给定前一个补丁时,当前图像中的补丁是否冗余。其次,我们将 RTS 集成到 MLLM 的管道中,并在 AgentNet (Wang et al., 2025b) 轨迹上微调模型(具有固定的历史图像窗口),其中除第一张图像外的所有图像都移除了冗余补丁。这种训练设置鼓励模型从较早的观察中恢复省略的视觉信息,从而有效利用更长的视觉历史。

![Figure 2: Overview of ReVision. (a) ReVision removes redundant patches by comparing corresponding tokens across consecutive screenshots, reducing visual tokens while preserving spatial alignment before passing them to the LLM. (b) The model learns to attend to relevant regions in previous images, enabling effective reasoning with reduced visual input.](https://arxiv.org/html/2605.11212#S4.F2)
*图 2:ReVision 概览。(a) ReVision 通过比较连续截图中的相应标记来移除冗余补丁,在向 LLM 传递之前减少视觉标记同时保留空间对齐。(b) 模型学习关注先前图像中的相关区域,使得在减少视觉输入的情况下进行有效推理成为可能。*

### 4.1 问题表述

CUAs 操作于轨迹 $\{(I_t, T_t, A_t)\}_{t=1}^T$,其中...

相似文章

学习自适应推理路径以实现高效视觉推理

Hugging Face Daily Papers

AVR是一种自适应视觉推理框架,能够动态选择最优推理格式,在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择,从而解决推理路径冗余问题。

Region4Web:重新思考网络智能体的观测空间粒度

arXiv cs.CL

本文介绍了 Region4Web 框架,该框架通过将观测空间组织成功能区域而非单个元素,从而提升了网络智能体的性能。研究表明,这种方法在 WebArena 基准测试上缩短了观测长度并提高了任务成功率。

论计算机使用智能体的可靠性

Hugging Face Daily Papers

一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。