Universe
摘要
OpenAI Universe 是一个软件平台,允许强化学习智能体通过基于VNC的界面与任何现有计算机程序交互,支持以60帧/秒的速率并行运行环境、人类演示和自动奖励提取。
我们发布了 Universe,一个软件平台,用于在全球的游戏、网站和其他应用程序中衡量和训练人工智能的通用智能。
查看缓存全文
缓存时间:
2026/04/20 14:56
# Universe
来源:https://openai.com/index/universe/
我们设计 Universe 的目标是支持单个 Python 进程并行驱动 20 个环境,帧率达到 60 帧/秒。每个屏幕缓冲区为 1024x768,如果天真地从外部进程读取每一帧,将需要 3GB/s 的内存带宽。我们用 Go 编写了一个批处理导向的 VNC 客户端(https://github.com/openai/go-vncdriver),作为共享库加载到 Python 中,为每个环境增量更新一对缓冲区。经过尝试多种 VNC 服务器、编码方式和未公开的协议选项的组合后,我们现在可以稳定地以 60 帧/秒的帧率驱动数十个环境,延迟为 100ms——几乎全部来自服务器端编码。
以下是我们当前实现的一些重要特性:
**通用性**。代理可以使用这个接口(最初是为人类设计的)与任何现有的计算机程序交互,无需模拟器或访问程序内部。例如,它可以玩任何计算机游戏、与终端交互、浏览网络、在 CAD 软件中设计建筑、操作照片编辑程序或编辑电子表格。
**人类友好**。由于人们已经熟悉像素/键盘/鼠标界面,人类可以轻松操作我们的任何环境。我们可以使用人类的表现作为有意义的基准,并通过简单地保存 VNC 流量来记录人类演示。我们发现演示对于通过行为克隆(即使用监督学习来模仿人类的操作)初始化代理的合理策略非常有用,之后再切换到 RL 来优化给定的奖励函数。
**VNC 作为标准**。许多 VNC 实现可在线获得,一些甚至被打包到最常见的操作系统中,包括 OSX。甚至还有用 JavaScript 实现的 VNC(https://kanaka.github.io/noVNC/),允许人类无需安装任何新软件就能提供演示——这对 Amazon Mechanical Turk 等服务至关重要。
**易于调试**。我们可以在代理训练或评估时观察它——只需将 VNC 客户端附加到环境的(共享)VNC 桌面。我们还可以保存 VNC 流量供今后分析。
我们都对能让 VNC 工作得如此出色感到惊讶。随着我们扩展到更大的游戏,我们很可能会开始使用额外的后端技术。但初步迹象表明我们可以将现有实现推向更远:使用正确的设置,我们的客户端可以让 GTA V 在公网上以 20 帧/秒的速度运行。
**提取奖励**。虽然没有奖励函数的环境可以用于无监督学习或生成人类演示,但强化学习需要奖励函数。与 Atari 游戏不同,我们无法简单地从进程内存中读出成功标准,因为每个游戏存储这些信息的方式差异太大。幸运的是,许多游戏都有屏幕上的分数,只要我们能解析它,就可以将其用作奖励函数。虽然 Tesseract(https://github.com/tesseract-ocr/tesseract)等现成的光学字符识别(https://en.wikipedia.org/wiki/Optical_character_recognition)在标准字体和干净背景上表现出色,但在许多游戏中常见的各种字体、移动背景、闪烁动画或遮挡物体面前则力不从心。我们开发了一个基于卷积神经网络的 OCR 模型,在 Docker 容器的 Python 控制器内运行,解析分数(从通过 VNC 自环路维护的屏幕缓冲区),并通过 WebSocket 通道将其传送给代理。
相似文章
OpenAI Blog
# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型
OpenAI Blog
OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。
OpenAI Blog
OpenAI 发布 Roboschool,这是一个与 OpenAI Gym 集成的开源机器人模拟环境,包含12个环境,涵盖增强型人形机器人运动任务和 Pong 等多智能体设置。
OpenAI Blog
# Operator 系统卡 来源:[https://openai.com/index/operator-system-card/](https://openai.com/index/operator-system-card/) 本报告概述了在发布 Operator 前开展的安全工作,包括外部红队测试、根据我们准备框架进行的前沿风险评估,以及为解决关键风险领域而构建的缓解措施概览。## Operator 系统卡 特定风险领域 - 有害任务 - 模型错误 - 提示注入 准备度评分卡
OpenAI Blog
OpenAI 发布了 Operator,一款 AI 代理,可以自主使用网络浏览器执行表单填写、在线购物和网络交互等任务。目前作为研究预览版向美国 Pro 用户开放,计划进一步扩展并集成到 ChatGPT 中,由新推出的计算机使用代理(CUA)模型驱动。