摘要
OpenAI研究人员演示了协作型AI代理可以通过在简单世界中进行强化学习,发展出自己的有根据的和组合型语言。这些代理通过获得需要协调的目标奖励来学习交流,创建共享的符号语言以协调行为。
在这篇文章中,我们将概述OpenAI的新研究,其中代理开发自己的语言。
查看缓存全文
缓存时间:
2026/04/20 14:56
# 学习交流
来源:https://openai.com/index/learning-to-communicate/
OpenAI
在这篇文章中,我们将概述 OpenAI 的新研究,其中智能体开发了自己的语言。
我们的假设是,真正的语言理解将来自那些学习词汇与其对世界影响的关联的智能体,而不是仅仅从海量文本语料库中发现模式。作为第一步,我们想看看协作型智能体是否能够自己开发一种简单的语言。
我们刚刚发布了[初步研究结果](https://arxiv.org/abs/1703.04908),其中我们通过将 AI 智能体放入一组简单的世界中、赋予它们通信能力,以及为它们设定最好通过相互通信才能实现的目标,从而教会它们创造语言。如果它们实现了目标,就会获得奖励。我们使用强化学习来训练它们,由于精心设计的实验,它们开发出了一种共享语言来帮助实现目标。
我们的方法产生了智能体发明的一种(简单的!)语言,具有[扎根性](https://www.media.mit.edu/projects/grounded-language-learning-and-understanding/overview/)和[组合性](https://plato.stanford.edu/entries/compositionality/)。扎根性意味着语言中的词汇与说话者在环境中直接体验的某些事物相关联,例如说话者在词汇"树"和树的图像或体验之间形成联系。组合性意味着说话者可以将多个词汇组合成句子来表达特定的想法,比如让另一个智能体移动到特定位置。
## 多智能体通信
为了训练智能体,我们将实验表示为一个协作型(而非竞争型)的多智能体强化学习问题。智能体存在于一个具有简单地标的二维世界中,每个智能体都有一个目标。目标可以从查看或移动到特定位置,到鼓励另一个智能体移动到某个位置。每个智能体都可以向整个群体广播消息。每个智能体的奖励是所有智能体获得奖励的总和,这鼓励了协作。
在每个时间步,我们的强化学习智能体可以采取两种行动:(i)环境行动,如移动或查看事物,以及(ii)通信行动,如向所有其他智能体广播一个词。(注意,虽然智能体想出的词汇我们发现对应于对象和其他智能体,以及像"查看"或"前往"这样的动作,但对智能体来说这些词汇是用[独热向量](https://www.quora.com/What-is-one-hot-encoding-and-when-is-it-used-in-data-science)表示的抽象符号——为了可解释性,我们用英文词汇标记这些独热向量,这些词汇能够说明它们的含义。)在智能体采取行动之前,它观察来自上一时间步的其他智能体的通信,以及世界中所有实体和对象的位置。它将该通信存储在一个私有的循环神经网络中,为其提供了对听到的词汇的记忆。
## 环境流
我们使用通过可微通信通道发送的离散通信动作(由单独的、类似词汇的符号组成的消息)。如果可微通信通道允许智能体直接告知彼此在每个时间步应该发送什么消息,通过略微改变消息以使两个智能体预期接收的奖励产生积极变化,那么该通道就是可微的。智能体通过计算未来奖励相对于已发送消息变化的[梯度](https://en.wikipedia.org/wiki/Gradient)(即不同消息的奖励变化程度)来实现这一点。例如,如果一个智能体意识到如果第二个智能体发送了不同的信息,它可能会更好地完成任务,那么第一个智能体可以告诉第二个智能体应该如何修改其消息,使其尽可能有用。换句话说,智能体问自己这样的问题:"我应该如何修改我的通信输出以在未来获得最大的集体奖励?"
以前的研究通过让智能体相互发送[实数向量](https://arxiv.org/abs/1605.07736)或[二进制值的连续近似](https://arxiv.org/abs/1605.06676),或使用[不可微通信](https://arxiv.org/abs/1612.07182)和训练来实现这种可微通信。我们使用 [Gumbel-Softmax](https://arxiv.org/abs/1611.01144) 技巧,在训练期间用连续表示逼近离散通信决策。这给了我们两全其美的方案:在训练期间,可微通道意味着智能体可以通过使用连续表示快速学习如何相互通信,在训练结束时最终收敛到离散输出,这些输出更易解释,显示了组合性等特性。
在下面的视频中,我们展示了智能体如何进化语言以适应其情况的复杂性,其中孤立的智能体不需要通信,两个智能体为简单任务发明单词短语进行协调,三个智能体在句子中组合多个词汇来完成更具挑战性的任务。
## 研究项目的复杂性
所有[研究项目都有复杂性](https://openai.com/index/faulty-reward-functions/);在这种情况下,我们的智能体经常发明没有显示我们想要的组合性特征的语言。即使成功了,它们的解决方案也有自己的怪癖。
我们遇到的第一个问题是智能体倾向于创建单个话语并用空格穿插以创建意义。这种莫尔斯电码语言很难破译且非组合的。为了纠正这一点,我们对每个话语施加了轻微的成本,并增加了对快速完成任务的偏好。这鼓励智能体简洁地使用其通信通道,导致了更大词汇量的发展。
我们面临的另一个问题是智能体试图用单个词汇编码整个句子的含义。当我们给了它们使用大词汇的能力时会发生这种情况;它们最终会创建单个话语,编码整个句子的含义,比如"红色智能体,前往蓝色地标"。虽然对智能体有用,但这种方法要求词汇量随句子长度呈指数增长,不符合我们创建对人类可解释的 AI 的更广泛目标。为了阻止智能体创建这种语言,我们通过偏好使用已有的流行词汇来纳入对紧凑词汇量的偏好,这受到[《句法通信的演化》](http://www.nature.com/nature/journal/v404/n6777/full/404495a0.html)中概述的想法的启发。我们通过对说特定词汇给予奖励来实现这一点,该奖励与该词汇之前被说的频率成正比。
最后,我们遇到了智能体发明不是基于颜色而是基于其他线索(如空间关系)的地标参考。例如,智能体会发明像"最顶部"或"最左侧"地标这样的词汇来根据全局二维坐标系统引用位置。虽然这种行为非常具有创意,但它相当特定于我们特定的环境实现,如果我们大幅改变智能体所生活的世界的地理位置,可能会导致问题。为了解决这个问题,我们将智能体放在以自我为中心的坐标系中(这样就没有单一的共享坐标系)。这消除了奇怪的方向,使它们根据地标的颜色属性来引用。
这种训练方法在智能体无法通过文本相互通信时也能工作,它们必须在模拟环境中执行物理动作。在下面的动画中,我们展示了智能体通过指向或引导其他智能体到目标,或在极端情况下推动看不见的智能体到达目标来即兴创作的方式。
## 语言学习的当前方法
当今,许多人已成功地将机器学习应用于与语言相关的任务。大规模机器学习技术在翻译、言语推理、语言理解、句子生成和其他领域取得了重大进展。所有这些方法都是通过向它们提供大量文本数据来工作的,系统从中提取特征并发现模式。虽然这项工作取得了许多发明和创新,但它在所学语言的表征质量方面存在缺点。没有太多迹象表明,如果你以这种方式在语言上训练计算机,它会对该语言如何与真实世界相关联有深刻的理解。通过我们的研究,我们试图通过训练我们的智能体发明与它们对世界的感知相关联的语言来解决这个扎根问题。
没有扎根的语言模型训练的计算机非常像困在 John Searle 的[中文房间](https://plato.stanford.edu/entries/chinese-room/)中的角色,它们通过通过大量文本分析创建的一种语义含义字典将传入的文本进行比较。不清楚这些计算机对文本所代表的内容有多少了解,因为它们从未离开这个房间,也无法与文本描述的世界互动。
我们希望这项关于语言增长的研究能够让我们开发拥有与自己生活经历相关联的语言的机器。我们认为,如果我们逐步增加他们环境的复杂性,以及允许智能体自己采取的行动范围,它们可能会创建一种表达性语言,包含超越这里演化的基本动词和名词的概念。
随着这种发明语言的复杂性的增加,对我们来说,使这些语言对人类可解释将变得越来越具有挑战性。这就是为什么对于我们的下一个项目,Ryan Lowe 和 Igor Mordatch 将调查连接发明语言与英语的方法,通过让智能体与说英语的智能体通信。这将自动将它们的语言翻译成我们的语言。这是一个跨越 AI、语言学和认知科学领域的跨学科努力,作为其中一部分,我们将与 UC Berkeley 的研究人员合作。如果你对开发更聪明的语言模型感兴趣,请考虑[在 OpenAI 工作](https://openai.com/careers/)。
相似文章
OpenAI Blog
# 多智能体种群中有根据的组合语言的出现 来源: [https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/](https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/) ## 摘要 通过捕捉大型语料库中的统计模式,机器学习在自然语言处理领域取得了重大进展,包括在机器翻译、问答和情感分析方面的应用
OpenAI Blog
OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。
OpenAI Blog
OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。
OpenAI Blog
OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。
OpenAI Blog
OpenAI 提出了 LOLA (Learning with Opponent-Learning Awareness),一种多智能体强化学习方法,其中智能体能够塑造其他智能体的预期学习过程。该方法展示了在重复囚徒困境中合作的涌现现象,以及在博弈论设置中收敛到纳什均衡。