Universe

OpenAI Blog 2016/12/05 08:00 工具

摘要

OpenAI Universe 是一个软件平台，允许强化学习智能体通过基于VNC的界面与任何现有计算机程序交互，支持以60帧/秒的速率并行运行环境、人类演示和自动奖励提取。

我们发布了 Universe，一个软件平台，用于在全球的游戏、网站和其他应用程序中衡量和训练人工智能的通用智能。

查看缓存全文

缓存时间: 2026/04/20 14:56

# Universe 来源：https://openai.com/index/universe/ 我们设计 Universe 的目标是支持单个 Python 进程并行驱动 20 个环境，帧率达到 60 帧/秒。每个屏幕缓冲区为 1024x768，如果天真地从外部进程读取每一帧，将需要 3GB/s 的内存带宽。我们用 Go 编写了一个批处理导向的 VNC 客户端（https://github.com/openai/go-vncdriver），作为共享库加载到 Python 中，为每个环境增量更新一对缓冲区。经过尝试多种 VNC 服务器、编码方式和未公开的协议选项的组合后，我们现在可以稳定地以 60 帧/秒的帧率驱动数十个环境，延迟为 100ms——几乎全部来自服务器端编码。以下是我们当前实现的一些重要特性： **通用性**。代理可以使用这个接口（最初是为人类设计的）与任何现有的计算机程序交互，无需模拟器或访问程序内部。例如，它可以玩任何计算机游戏、与终端交互、浏览网络、在 CAD 软件中设计建筑、操作照片编辑程序或编辑电子表格。 **人类友好**。由于人们已经熟悉像素/键盘/鼠标界面，人类可以轻松操作我们的任何环境。我们可以使用人类的表现作为有意义的基准，并通过简单地保存 VNC 流量来记录人类演示。我们发现演示对于通过行为克隆（即使用监督学习来模仿人类的操作）初始化代理的合理策略非常有用，之后再切换到 RL 来优化给定的奖励函数。 **VNC 作为标准**。许多 VNC 实现可在线获得，一些甚至被打包到最常见的操作系统中，包括 OSX。甚至还有用 JavaScript 实现的 VNC（https://kanaka.github.io/noVNC/），允许人类无需安装任何新软件就能提供演示——这对 Amazon Mechanical Turk 等服务至关重要。 **易于调试**。我们可以在代理训练或评估时观察它——只需将 VNC 客户端附加到环境的（共享）VNC 桌面。我们还可以保存 VNC 流量供今后分析。我们都对能让 VNC 工作得如此出色感到惊讶。随着我们扩展到更大的游戏，我们很可能会开始使用额外的后端技术。但初步迹象表明我们可以将现有实现推向更远：使用正确的设置，我们的客户端可以让 GTA V 在公网上以 20 帧/秒的速度运行。 **提取奖励**。虽然没有奖励函数的环境可以用于无监督学习或生成人类演示，但强化学习需要奖励函数。与 Atari 游戏不同，我们无法简单地从进程内存中读出成功标准，因为每个游戏存储这些信息的方式差异太大。幸运的是，许多游戏都有屏幕上的分数，只要我们能解析它，就可以将其用作奖励函数。虽然 Tesseract（https://github.com/tesseract-ocr/tesseract）等现成的光学字符识别（https://en.wikipedia.org/wiki/Optical_character_recognition）在标准字体和干净背景上表现出色，但在许多游戏中常见的各种字体、移动背景、闪烁动画或遮挡物体面前则力不从心。我们开发了一个基于卷积神经网络的 OCR 模型，在 Docker 容器的 Python 控制器内运行，解析分数（从通过 VNC 自环路维护的屏幕缓冲区），并通过 WebSocket 通道将其传送给代理。

相似文章

计算机使用代理

OpenAI Blog

# 计算机使用代理来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持，这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版，这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动，这是一个结合了GPT-4o视觉功能的模型

Universe

相似文章

计算机使用代理

收集人类反馈

Roboschool

Operator 系统卡

介绍 Operator

提交意见反馈