智能体-计算机观察接口实现动态计算机使用
摘要
本文介绍了智能体-计算机观察接口(AOI),这是一种模型无关的感知层,它将计算机使用智能体的连续自适应观察与离散动作解耦。AOI 在动态浏览器任务上实现了显著的性能提升(+17 到 +48 个百分点),且无需重新训练,关键洞察在于将捕获的帧叙述为持久文本是改进的主要驱动因素。
查看缓存全文
缓存时间: 2026/06/30 05:33
# 代理-计算机观察接口实现动态计算机使用 来源:https://arxiv.org/abs/2606.29472 查看PDF(https://arxiv.org/pdf/2606.29472) > 摘要:SWE-agent将动作接口确立为软件工程代理中一个未被充分探索的设计维度;我们为计算机使用(CU)代理中的观察接口提出了类似的论点。当前的CU代理,无论是闭源还是开源,都将观察与动作绑定——每3-5秒一张截图,没有音频——使它们在截图之间的视频、动画、瞬态UI事件、会议和语音指令面前既盲又聋。我们引入了代理-计算机观察接口(AOI),这是一个与模型无关的感知层,通过三个门控组件将连续、自适应的观察与离散动作解耦:步骤间关键帧捕获、音量门控音频转录,以及CU模型生成的、以文本形式持久化的视觉叙述。每个组件在静态、静默内容上几乎不产生任何输出,从而缩减为标准循环而不降低其性能。在DynaCU-Bench(100个动态浏览器任务加上50个任务的静态控制)上,从7B到前沿规模的CU模型,在零重新训练的情况下,相比其截图基线获得了+17到+48个百分点的提升,将那些从周期性截图中几乎不可能完成的任务转变为基本可解决的任务。差距在音频上最为显著:在一个语音内容子集上,AOI代理解决了每一个任务,而流式语音模型虽然能准确听到内容,但在没有该框架的情况下无法对听到的内容采取行动。这种分解与标题所示的增益同样具有信息量:关键帧选择实际上并不重要——价值在于将捕获的帧叙述为持久化的文本——并且该接口并非固定的捆绑包,因为在较新的模型(Gemini 3 Flash)上,关键帧流由于图像token稀释而主动退化,因此其组件必须针对每个模型进行选择,而不是作为单一配置提供。 ## 提交历史 来自:Bojie Li [查看邮箱](https://arxiv.org/show-email/e9846b72/2606.29472) **\[v1\]** 2026年6月28日星期日 15:59:31 UTC(373 KB)
相似文章
@dair_ai: 关于计算机使用智能体的杰出论文。(收藏)计算机使用智能体通过屏幕操控真实软件,……
PreAct 将成功的智能体运行编译成小型状态机程序,在重复任务上实现 8.5-13 倍更快的重放,无需逐步骤的语言模型调用,并通过运行时屏幕检查确保正确性。
原生主动感知作为全模态理解的推理方式
介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。
Open Computer Use
Open Computer Use 是一个开源的 MCP (模型上下文协议),用于 AI 代理控制计算机界面。
@ms_aifrontiers:它是什么:一系列能够执行真实浏览器工作的智能体,例如填写表单和预订。从像素到动作…
微软AI Frontiers发布了一系列浏览器智能体,能够通过“观察-思考-行动”循环,从像素直接到动作,实现填写表单和预订等功能。提供4B、9B和27B三种参数规模,可在普通硬件上部署。
计算机使用代理
# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型