@stephen_wolfram: 当所有可能策略的代理相互竞争时会发生什么?这是规则学的问题。结果有些令人惊讶…

X AI KOLs Timeline 论文

摘要

Stephen Wolfram 探索了当所有可能策略的代理相互竞争时会发生什么,使用规则学方法系统分析匹配或不匹配游戏中的策略。

当所有可能策略的代理相互竞争时会发生什么?这是规则学的问题。结果有些令人惊讶…… https://writings.stephenwolfram.com/2026/06/games-between-programs-the-ruliology-of-competition/…
查看原文
查看缓存全文

缓存时间: 2026/06/06 01:22

当所有可能策略的智能体相互竞争时会发生什么?这是ruliology所关注的问题。答案可能会令人惊讶…… https://writings.stephenwolfram.com/2026/06/games-between-programs-the-ruliology-of-competition/…


程序之间的博弈:竞争的Ruliology

来源:https://writings.stephenwolfram.com/2026/06/games-between-programs-the-ruliology-of-competition/ 程序之间的博弈:竞争的Ruliology

基本设定

无论是生物学、经济学、政治学还是其他众多领域,我们常常会遇到可以建模为两个智能体反复相互竞争的情景。想象一下,在每个回合中,每个智能体可以从一组特定动作中选择一个,然后——按照经典的博弈论(https://reference.wolfram.com/language/guide/GameTheory.html)方式——每个智能体(或“玩家”)根据自身和对手所采取的动作获得某个固定的“收益”。但智能体如何决定采取哪个动作呢?我们假设每个智能体都有一个固定的程序——或称“策略”——用于做出决策。并且,我们假设每个决策的输入是智能体及其对手过去所采取的动作序列。

近一个世纪以来,针对特定策略的选择已有大量研究。但我一直好奇的是(https://www.wolframscience.com/nks/notes-10-12–games-between-programs/):如果我们系统性地考虑所有可能的策略,会发生什么?如果我们把策略视为程序,这就变成了一个可以立即应用ruliological方法(https://writings.stephenwolfram.com/2026/01/what-is-ruliology/)的问题。这正是我接下来要做的。

为了更具体地描述这个设定,假设在每个回合中,每个智能体采取两种可能动作之一,分别用和表示。现在,让我们将收益设定为经典“匹配或不匹配”(即“猜硬币”)(https://www.wolframscience.com/nks/notes-10-12–game-theory/)游戏的收益——在该游戏中,当动作匹配时玩家1获得更大收益,不匹配时玩家2获得更大收益:

那么,当智能体反复进行这个游戏时会发生什么?这取决于他们的策略。以下是针对不同策略选择的一些示例:

在上述每种情况下,绘制两个智能体(分别用和表示)的累积收益,我们得到:

通常,我们会将“获胜智能体”定义为在经过一定回合数后累积收益数值最大(即在图中最终处于上方)的智能体。基于这样的标准,我们就能对不同的程序进行排名,并总体上探索竞争的ruliology。

在我们使用的基本设定下,所有可能的动作序列可以用一个多路图表示:

对于任何给定的动作序列,在我们的匹配或不匹配游戏中,每个智能体都有一个累积收益:

如果每个智能体采用特定的策略,这将在多路图中定义一条特定的路径。对于上述示例中使用的策略,路径如下:

要拥有一个获胜策略需要什么?在接下来的内容中,我们将考虑基于几种不同类型程序的策略。但一个我们始终可以提出的基本问题是:最终获胜的策略是倾向于基于更复杂(或更简单)的程序,还是表现出更复杂(或更简单)的行为?

换句话说,如果你想赢,你通常应该试图构建复杂的东西吗?或者你反而应该期望找到一个“简单的窍门”来“破解游戏”,并且——至少在通常意义上——让你获胜?实际上,我们问的是竞争是否导致复杂性,还是简单性。

我最近研究了生物进化(https://writings.stephenwolfram.com/2024/05/why-does-biological-evolution-work-a-minimal-model-for-biological-evolution-and-other-adaptive-processes/)和机器学习(https://writings.stephenwolfram.com/2024/08/whats-really-going-on-in-machine-learning-some-minimal-models/)的最小模型,在这些模型中,程序通过自适应演化来最大化某个外部施加的适应度函数。我发现,即使所用的适应度函数很简单,最大化该函数的程序行为通常也相当复杂。换句话说,自适应演化往往会以复杂的方式实现一个简单、固定的目标。

那么,如果我们的目标不是固定的、外部强加的目标,而只是广泛地赢得与其他智能体的竞争呢?这种潜在开放式的竞争是否会导致我们产生更复杂的行为(或更复杂的程序)?这正是我们通过观察竞争的ruliology所能探索的问题。

来自有限状态机的策略

有限状态机(https://www.wolframscience.com/nks/notes-6-7–finite-automata/)可以被视为定义了极其简单的程序(可能模拟生物学中的路径、经济学中的决策过程等)。为了开始我们对竞争ruliology的探索,我们将研究由有限状态机定义的策略。

一个典型的有限状态机示例(这里是3个状态)是:

我们将使用这个有限状态机来定义智能体的策略。为了理解其工作原理,假设智能体对手所采取的动作序列为:

思路是利用这个动作序列在有限状态机图中定义一条路径,然后根据到达状态的颜色来确定下一个动作。我们从带有输入箭头的顶点开始,然后依次沿着颜色与对手下一步动作匹配的边移动:

在这个过程结束时,我们会到达图中的某个顶点(即有限状态机中的某个状态)。在所示的特定情况下,我们到达的状态是。然后我们将策略的输出——即智能体下一步要采取的动作——设为。

有时将有限状态机的状态排列在一条线上会更方便:

然后我们可以通过显示连续到达的状态来总结某条输入下的路径:

那么,如果两个有限状态机相互竞争会怎样?基本思想是,一个机器的连续输出成为另一个机器的连续输入,反之亦然。如果我们的第二台机器是

那么我们可以通过以下方式表示机器的行为:

如果我们使用的收益是匹配或不匹配游戏的收益,那么这些机器的累积值为

因此最终智能体2可以被视为赢家。

这里需要注意的重要一点是,在我们使用的设定中,一切都是确定性的:在每一步,每个智能体都根据其策略,基于过去的历史动作,以确定性方式计算并采取一个动作。这与博弈论中最常研究的设定不同,在后者中每一步实际上被认为是独立的,但不同动作可能带有概率(“混合策略”),最终会对“不同掷骰结果”进行平均。

可能的有限状态机空间

具有s个状态的有限状态机的可能图的数量是(2s2)s。但其中一些图对应具有相同行为的机器——因此不同机器的数量更少:

2状态机

在2状态情况下,22个不同的机器是

其中我们用一个数字来标识每个机器。

那么,如果这些机器成对竞争会发生什么?以下是一些示例,在每种情况下我们都在标识平均收益(这里是匹配或不匹配游戏的10个回合):

(在所有有限状态机对之间的竞争中,动作序列最终必然会变成周期性的——周期最多等于每台机器状态数的乘积。)

如果22个不同2状态机中的每一个都与另一个竞争,情况如何?我们可以通过显示每对机器的平均(长期)收益来总结结果(收益是针对每个“作为智能体1”进行游戏的机器;在匹配或不匹配游戏中,如果“作为智能体2”进行游戏,收益取反):

那么哪台机器是“总冠军”?评估的一种方法是查看给定机器与所有其他(不同)机器竞争时获得的平均收益的平均值:

按此度量,获胜者是机器26:

将此机器与所有(不同的)2状态机竞争,我们得到以下平均收益:

每种情况下的实际行为——本身并不取决于收益,只取决于涉及的机器——是:

获胜机器的“亚军”有哪些?以下是所有不同的机器,按其平均收益排名:

如果让排名前三的亚军与所有机器竞争,会发生什么:

我们可以通过显示机器在与所有其他机器竞争时的行为历史(或者实际上,通过将上述图片中的第一列组合起来)来总结机器的行为。以下是所有机器(进行15步)的结果,按平均得分从高到低排序:

(再次强调,这些图片完全由涉及的机器决定;只有匹配或不匹配游戏中的收益决定了它们的顺序。)

我们这里所说的一个附注涉及我们让机器进行竞争的步数。对于所有有限状态机,行为最终必须变成周期性的——对于2状态机,最大周期是4步,最大瞬态是3步。但实际的平均收益均值随所考虑的总步数变化:

值得注意的是,至少在最初几步,排名会变动:

但在本例中,不需要太多步数就能看清最终赢家(稍后我们会看到需要更长时间的示例)。

(还有其他细微之处。其中之一是我们通过让每台机器与所有其他不同机器进行竞争来计算平均收益。原则上我们也可以包括其他等效机器——这将略微改变我们平均值的权重。但由于我们真正关心的是策略,而不是机器本身,我们使用的方案似乎更合适。)

3状态机

对于s = 3状态下的956个不同机器,相应的“竞争阵列”(1000步后)是:

每台机器的平均收益均值(即“竞争阵列”中每行的平均值)为

而这些平均收益均值的分布为:

对于匹配或不匹配游戏,排名靠前的几台机器是:

将排名靠前的机器(s = 3 机器1164)与所有(不同的)3状态机竞争,我们得到以下平均收益:

此处可能的极限平均收益分布为:

观察到的最常见行为形式是:

两个3状态机之间竞争的最大可能周期是9。机器1164从未完全达到这个周期;其最大周期7发生在与机器2546和2755竞争时(两者都给出极限平均收益 –1):

如果查看所有可能的3状态机对,结果发现有792对产生周期为9的行为,例如:

(这些没有瞬态;3状态机的最大瞬态结果是8。)

附注:我们所说的“平均”是什么意思?

我们已经讨论了机器在与所有其他(不同)机器竞争时“平均”表现如何。但“平均”是什么意思?到目前为止,我们将“平均”视为与每台其他机器竞争所获收益的均值(并且这里的收益本身是连续步骤的均值)。但是如果我们用中位数代替均值呢?以下是每台机器运行1000步与所有其他机器竞争的中位收益:

这里突出的获胜机器是机器1172:

这种情况下的平均收益均值及其分布为:

中位数“异常高”,因为使用这台机器时,恰好1/2的所有平均收益为+1。(相应的均值被平均收益分布中的“左尾”拉低了。)

获胜的复杂性

让我们(基本上如上所述)观察每个不同的2状态有限状态机在与所有其他2状态机竞争时的实际行为,按平均收益均值从小到大排序:

平均收益均值为0的情况看起来行为简单。但对于其他平均收益均值,给定机器与所有其他机器竞争的行为似乎更复杂。

我们可以通过查看上述行为阵列的压缩大小(https://writings.stephenwolfram.com/2025/11/whats-special-about-life-bulk-orchestration-and-the-rulial-ensemble-in-biology-and-beyond/#measuring-mechanoidal-behavior)(通过Compress(https://reference.wolfram.com/language/ref/Compress.html)获得)来感受这种复杂性:

以下是956个不同3状态机的相应结果——显示平均收益均值与我们估计的行为复杂性之间没有强相关性:

事实上,在平均收益均值最高的机器中,行为复杂性的水平仍然相当多样

所指示机器的“行为轨迹”为

换句话说,至少在这种情况下,我们确实不能说获胜机器以行为特别复杂或特别简单为特征。似乎决定哪些机器会获胜的是详细结构,而不是整体特征。

不同规模机器之间的竞争

具有更多状态的有限状态机能系统性地比具有更少状态的机器表现更好(即获得更大收益)吗?任何2状态机在与所有其他2状态机竞争时能获得的最佳平均收益均值约为0.151。但是,例如,如果考虑3状态机与2状态机竞争(进行1000回合),最佳平均收益均值则为0.593:

查看可能的平均收益均值的分布,我们看到3状态机的平均收益均值分布比2状态机更宽——这一事实至少部分只是由于可能的3状态机数量远多于2状态机:

但值得注意的是,最宽的分布是3状态机与2状态机竞争的情况:实际上,由于拥有更大的可能策略集合,3状态机在“智取”2状态机方面可以做得更好。

在对抗2状态机时总体表现最好的3状态机是机器1234:

它并不总是明确获胜(平均收益为+1),但在大多数情况下如此:

它是如何做到这一点的?基本上,对于许多不同的2状态机,这个特定的3状态机设法表现得与它们一模一样:

在某种意义上,3状态机有一些“共振”于许多2状态机的方面:

4状态机呢?在对抗2状态机时总体表现最好的4状态机是机器109828:

在22个2状态机中,它只有6种情况获得的收益小于+1:

所有22种情况的行为如下:

再次,我们可以认为4状态机成功“覆盖”了大部分2状态行为:

有限状态机的自适应演化

在许多存在竞争的实际情况中,竞争的智能体有办法进行演化。那么,我们能否用有限状态机构建一个最小模型来模拟这一点?

相似文章

程序之间的博弈:竞争的Ruliology

Hacker News Top

对重复双人博弈中所有可能策略的系统性探索,使用计算方法分析累积收益和获胜策略,并通过Ruliology进行研究。

我把3个AI放进同一个宇宙,让它们竞争建造戴森球,它们开始表现出不同行为

Reddit r/singularity

我一直在思考:如果给不同AI完全相同的起点和规则,它们最终会收敛到同一策略,还是长期表现不同?我搭了个简单模拟:它们同在地球起步,资源一致,要应对扩张、能源、随机事件,最终目标是造出戴森球。意外的是,它们很快做出不同选择。好奇大家怎么看?你觉得它们会趋同还是保持差异?想看细节我可以分享。

@swyx: ## 论Loopcraft

X AI KOLs Following

关于在AI智能体设计中堆叠循环重要性的概念性讨论,将其与Sutton的苦甜教训相类比,倡导可扩展系统而非人工修复。