首页
/
产品
/
Computer use in Codex
Computer use in Codex
摘要
OpenAI demonstrates the 'Computer Use' feature in Codex, allowing the AI to directly interact with local GUI applications on macOS using an accessibility framework and the fast Spark model for non-blocking, high-speed automation.
暂无内容
查看缓存全文
缓存时间:
2026/05/13 06:51
TL;DR: OpenAI 演示了 Codex 的“计算机使用”(Computer Use)功能,该功能允许 AI 直接操作本地 GUI 应用,支持多任务并行、非阻塞式后台运行,并通过可访问性框架和 Spark 模型实现超高速自动化。
# 从编程代理到全能团队成员:Codex 计算机使用功能详解
Codex 已从单纯的编程代理迅速进化为真正的团队成员。这一转变的核心在于“计算机使用”(Computer Use)功能,它将 Codex 的能力范围从文件和代码工具扩展到了用户在本地应用程序中的实际工作流中。
在本视频中,OpenAI 的 Roma 与产品专家 Ari 共同演示了该功能的工作原理、多任务处理能力、技术架构改进以及安全机制。
## 直观的设置与权限管理
对于新用户,Codex 的“计算机使用”功能提供了直观的入职引导界面。
* **权限请求**:首次使用时,系统会弹出窗口请求“启用 Codex 计算机使用”。
* **引导式设置**:用户点击“允许”后,面板会通过动画过渡到设置窗口,指导用户进行必要的系统设置授权。
* **最小化操作**:整个过程仅需简单的拖拽操作即可完成配置,随后代理即可自动点击并执行任务。
## 实际应用场景:自动化繁琐任务
为了展示该功能的实用性,Ari 演示了一个典型的高耗时场景:在旧版 Mac 操作系统中测试软件。这通常需要在虚拟机(如 UTM)中创建新实例,涉及大量的点击操作和 macOS 设置助理流程。
通过 Codex,用户只需输入自然语言指令:“在 UTM 中创建一个新 Mac 虚拟机”。
1. **应用识别**:用户输入 `@` 符号,调出已安装应用列表并选择 UTM。
2. **自动执行**:Codex 启动 UTM,自动完成 macOS 镜像下载及系统设置流程。
3. **效率提升**:原本需要手动完成的复杂设置过程被完全自动化,节省了大量时间。
## 核心优势:非阻塞式多任务处理
与许多完全接管用户电脑的其他“计算机使用”实现不同,Codex 的设计允许用户在使用代理的同时继续操作电脑。
### 独立光标与并行工作
* **独立光标**:Codex 拥有独立于用户的光标。当代理在后台操作应用时,不会干扰用户的当前操作。
* **多应用并发**:Codex 可以同时操作多个应用程序。在演示中,Ari 同时发起了三个任务:
1. 在 UTM 中设置虚拟机。
2. 在 Spotify 中播放适合工作的音乐。
3. 在“提醒事项”应用中添加一条提醒:“今晚查看我的税务文件”。
这种多任务处理能力使 Mac 变成了一个高效的自动化环境,代理在后台处理琐碎任务,让用户专注于核心工作。
### 自然且直观的交互体验
为了提升用户体验,开发团队精心设计了光标的运动曲线。光标运动显得自然甚至带有“俏皮”感,箭头会随着运动方向转动,仿佛在屏幕上“游泳”。这种设计不仅增加了趣味性,更帮助用户直观地理解代理在每个应用中的具体操作。
## 技术突破:可访问性框架与 Spark 模型
Codex 的“计算机使用”功能在底层技术上进行了重大优化,结合了多模态能力与可访问性(Accessibility)框架,显著提升了准确性和速度。
### 超越截图的理解能力
传统的“计算机使用”功能主要依赖截图,利用多模模型识别界面并通过坐标点击。Codex 引入了更深层的技术:
* **可访问性框架**:通过提取应用界面的隐藏文本信息,模型能深入理解屏幕上每个元素的角色。
* **视野扩展**:即使内容滚动出屏幕,模型也能通过文本描述感知其存在,从而在执行任务时保持极高的准确性。
### 引入 Spark 模型实现超人类速度
由于不再完全依赖图像处理,Codex 可以使用非多模态模型,如 **Codex Spark**。
* **极速响应**:Spark 模型速度极快,使得“计算机使用”功能的操作速度远超人类。
* **实时演示**:在调试应用的演示中,切换至 Spark 模型后,Codex 在后台打开文本编辑器、输入消息并发送,整个过程仅用时约一秒。这种速度让代理能够近乎瞬时地完成后台任务。
## 安全性与隐私保护
鉴于该功能涉及对本地应用的控制,OpenAI 高度重视安全性,确保用户在使用时感到安心。
* **应用级权限隔离**:Codex 仅能访问用户明确授权的应用。
* **首次使用授权**:每当 Codex 第一次尝试使用某个新应用时,都会请求用户权限。
* **严格限制**:一旦授权,Codex 只能查看和输入到该特定应用中,无法访问或与其他未授权的应用交互。这意味着敏感内容(如私人浏览记录或加密文件)受到保护,Codex 无法触及。
这种细粒度的权限控制建立了用户信任,确保代理仅在必要时访问特定的开发或生产力工具。
## 个人工作流集成与未来展望
### 真实用户案例
Roma 分享了她个人使用“计算机使用”功能的体验:
* **财务追踪**:她使用 Numbers 应用进行财务追踪,现在让 Codex 自动更新电子表格,无需手动操作。
* **端到端访问**:结合文件系统和在线服务插件,“计算机使用”填补了最后一块拼图,使 Codex 能够端到端地访问本地 Web 应用和原生应用。
### 技术路线图
Ari 指出,早期产品如 Operator 和 ChatGPT Agent 曾为“计算机使用”训练专用模型,但现在这些能力已整合进主要的 GPT 模型中,并通过 API 提供。
* **性能目标**:未来的目标是让“计算机使用”超越人类水平,操作速度达到人类的 2 倍、5 倍甚至 10 倍。
* **不可或缺性**:当速度足够快时,该功能将成为日常生活和工作流中不可或缺的一部分,为用户节省大量时间。
## 当前可用性与平台支持
* **macOS**:“计算机使用”功能目前已可在 Mac 上使用。
* **Windows**:OpenAI 表示正致力于尽快将该功能带给 Windows 用户。
OpenAI 鼓励用户在实际工作中尝试这一功能,特别是那些涉及多个应用跳转、耗时较长的复杂任务,以体验其带来的效率提升。
Source: [Computer use in Codex - OpenAI](https://www.youtube.com/watch?v=D_FCYsshMI4)
相似文章
TLDR AI
OpenAI 正在为 Codex 开发一项功能,使其能够通过 Computer Use 控制 macOS 应用程序,即使在笔记本电脑锁定或休眠时也能操作,并远程控制运行 Codex 应用的其他桌面设备,从而扩展其远程控制能力。
YouTube AI Channels
OpenAI's Codex for Windows now supports computer control and mobile access, allowing users to remotely operate applications and monitor tasks via the ChatGPT mobile app.
X AI KOLs
OpenAI 的 Codex 功能显著扩展,新增了 macOS 应用集成、多工具连接、图像生成、操作记忆以及持久任务自动化等能力。
YouTube AI Channels
OpenAI 的 Codex 现已支持 Mac 应用控制、更多工具集成、图像生成、用户偏好记忆,并能处理持续性的重复任务。
OpenAI Blog
OpenAI 发布了 Codex 的重大更新,使其能够通过光标控制操作计算机、生成图像、通过记忆管理长期任务,并深度集成开发者工作流程,如 SSH 和 PR 审查。