生物进化与信息获取
摘要
本文类比生物进化与技术进化,解释了模块化与有性生殖如何使种群提升信息获取速率。模拟实验表明,混合遗传物质能加速有益突变的传播,类似于技术在现有组件基础上的迭代构建方式。
暂无内容
查看缓存全文
缓存时间: 2026/06/18 05:47
# 生物进化与信息获取
来源:https://www.construction-physics.com/p/biological-evolution-and-information
几周前,我们(https://www.construction-physics.com/p/information-and-technological-evolution)看过了经济学家布赖恩·阿瑟(Brian Arthur)的一个技术进化模拟(https://sites.santafe.edu/~wbarthur/Papers/AP-Complexity.pdf),他通过随机组合越来越有用的现有组件,从简单构件(如与非门)开始,竟然进化出了惊人复杂的电路(如12路与门或4位加法器)。我们将其分析为一种简化搜索问题的方法:通过将现有的、可用的组件作为模块,每次组合少数几个成为更复杂的模块,再将**这些**组合成更复杂的模块,许多没有前途且耗时的搜索树分支被屏蔽掉,模拟便能在庞大的可能性分支集合中找到有用技术。
当然,真正的人类技术并非靠随机组合组件并看它们是否有用而产生;这些模拟中的随机性只是为了看看在不同条件下创造新技术的难易程度。但**生物技术**——地球上存在的种类繁多的生命形式,从微小的单细胞生物到像波音737一样大的鲸鱼(https://en.wikipedia.org/wiki/Blue_whale)——也是由随机性产生的。进化通过收获遗传变异的成果(通常由随机突变引起)来逐步构建生物技术,优先选择最适应的有机体将其基因传播到未来。经过数十亿年,这个过程能产生极其复杂的生物系统。
有趣的是,生物进化使用了与阿瑟的电路模拟非常相似的技巧。通过在基因层面利用模块化,生物群体可以提高有用基因变异在群体中传播的速度,从而有效提高信息获取速率。有性生殖,以及水平基因转移等其他共享遗传物质的方式,本质上就是实现这一点的机制。我们可以通过一些简单的模拟来展示这一点。
生物体最简单的繁殖方式是无性生殖,即亲本产生一个与其遗传拷贝相同的后代。例如,简单的单细胞生物通过细胞分裂(https://en.wikipedia.org/wiki/Fission_(biology))繁殖,分裂成两个或更多“后代”,每个后代都具有与原始亲本相同的基因。
但后代不一定与亲本完全相同。由于基因突变,某些基因可能在分裂过程中被随机改变,产生具有略微不同基因的后代。在某些情况下,这些突变可能是有用的,例如赋予抗生素耐药性(https://pmc.ncbi.nlm.nih.gov/articles/PMC7568785/)等功能,从而提高生存和繁殖的几率。由于它们对生物体适应度的贡献,随着时间的推移,有用的突变在群体中会变得越来越普遍。
我们可以通过一个简单的模拟来演示这一点。在我们的模拟中,我们从100个生物体开始,每个生物体都有200个单独基因的基因组。一个基因可以是1(基因的“好”版本)或0(基因的“坏”版本)。初始群体是随机的,每个生物体大致有50%的好基因和50%的坏基因。模拟的每一轮,每个生物体产生两个后代。后代复制亲本的基因,但由于突变,每个基因有0.2%的概率被翻转,从1变为0或反之。然后选择适应度最高的100个后代(适应度只是每个基因值的总和,因为在我们简化的模型中1是基因的“好”版本)继续下一代,循环重复。这与实际进化机制相比是简化的——例如,它假设基因独立地贡献适应度,忽略了某基因的适应度值往往依赖于其他基因——但这足以展示其中的一些动态。
运行这个模拟时,群体中“好”基因的比例随时间稳步上升,因为更适应的后代胜过不太适应的后代。根据突变率的不同,群体最终可能达到最大可能适应度200,或者稳定在某个低于该水平的水平。
[](https://substackcdn.com/image/fetch/$s_!CRPn!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45398003-17d5-4e6b-9d0e-9ec0341424b1_985x445.png)
这种策略的问题——产生单亲本的带噪声副本,并纯粹依赖随机突变作为遗传变异的来源——在于一旦你达到高于平均适应度,突变平均而言很可能是不利的。如果基因组中1比0多,随机变化更可能将1变为0而不是0变为1。因此,对于高于平均适应度的亲本,其后代平均适应度会较低。
因为突变是随机的,但仍然会有变异,一些后代最终适应度高于亲本。而且由于每轮选择淘汰最不适应的个体,被选中的后代群体的平均适应度会高于其亲本,从而使平均适应度随时间增加。但突变降低平均适应度会拖慢这一过程。
你可以在下图看到这一点,该图展示了一个参数略有不同的模拟(基因组长度为1000,突变率为2%),以便更容易看到趋势。顶部的图显示了第50代群体适应度的分布,第二张图显示了在筛选之前群体后代的分布。你可以看到,由于突变,平均适应度下降,尽管由于随机性,一些后代幸运地获得了更高的适应度。最后一张图显示了在后代中选出一半后(最适应的一半)的分布。平均适应度上升,现在高于初始群体,尽管刚刚超过。
[](https://substackcdn.com/image/fetch/$s_!0CLg!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F78419a2d-9a36-47a0-9823-cb53690ed503_896x889.png)
现在让我们看看另一种繁殖策略的模拟:有性生殖,后代从两个亲本而不是一个亲本获得基因。在这个模拟中,我们仍然有100个生物体,基因组为200个基因,每个基因可以是0或1。但现在后代有两个亲本,每轮群体中的成员随机配对,每对产生四个后代。后代从两个亲本获得基因,每个基因有50%的机会来自特定亲本。然后选出适应度最高的100个后代进入下一代,循环继续。在这个模拟中,没有突变,因此遗传变异完全来自亲本基因的重组。
与前一个模拟一样,群体逐渐达到最大适应度。但有性生殖到达那里要快得多。通过无性生殖,经过200代后,群体的平均适应度约为187。通过有性生殖,群体平均在仅仅33代后就达到了最大适应度200。
[](https://substackcdn.com/image/fetch/$s_!1_dF!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6cd3ef70-1934-4d15-ab5d-082ef8a21052_988x394.png)
关键在于有性生殖在引入遗传变异的同时不降低平均适应度。由于后代是其亲本基因的随机组合,平均而言它们具有与亲本相同的适应度(有些随机获得更高适应度,其他随机获得更低适应度)。当为下一代选择最适应的后代时,这是从一个平均适应度远高于无性生殖模拟中后代分布的分布中取出上半部分。因此平均适应度上升得更快。
[](https://substackcdn.com/image/fetch/$s_!NNP2!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F349f0d2c-b558-4fc7-84a6-35027377c35d_1080x1080.png)
如果你计算数学(或者像我一样,直接阅读别人已经算好的数学(https://www.inference.org.uk/itprnn/book.pdf)),在无性群体中,适应度增加的速度是1/(8*f),其中f是**微分归一化适应度**。(群体的归一化适应度是群体中好基因的平均比例;因此,如果一个成员平均有150个好基因(基因组长度为200),其归一化适应度为0.75。微分归一化适应度是群体归一化适应度减去0.5,即随机生成群体的归一化适应度。)早期,群体适应度可以快速增加,但速度很快降到每代增加不到1单位适应度(平均每代将一个基因从0翻转为1)。当群体接近最大可能适应度时,适应度增加速度接近0.25(平均每四代将一个基因从0翻转为1)。
另一方面,通过有性生殖,适应度增加的速度要高得多:它与基因组长度的平方根成正比。
关于有性生殖为何如此强大的一种思考方式是看血统谱系。假设我们在无性繁殖群体中有一个成员偶然发现了一个新的有用突变。因为基因从一个亲本传给一个后代,这个基因在群体中传播的唯一方式(在群体中其他成员没有偶然发现它的情况下)是拥有该基因的后代胜过所有人的后代。在这种情况下,群体最终完全由一个特定成员的后代组成——作为这种传播的必要条件,所有其他遗传谱系(以及它们可能偶然发现的任何有用突变)都被消灭了。
我们可以在模拟结果中看到这一点。下面的图表给初始群体的每个成员及其后代分配了独特的颜色。模拟开始时,有100种不同的颜色(群体中每个成员一种),但这很快被削减到少得多的数量。几代之后,群体变成一种统一的颜色,都是初始群体中某个特定成员的后代。(此图表来自特定的一次模拟运行,但重复运行会显示相同的行为。)
[](https://substackcdn.com/image/fetch/$s_!Igl7!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F39e2b85e-0343-46ff-8c07-8443b7cdcde0_994x444.png)
如果我们每当群体达到所有成员都来自单一祖先时重新进行颜色编码,我们会看到这种情况反复发生。在下面的图表中,第48代的群体都是第25代中某个特定成员的后代。在第80代,它们都是第48代中某个特定成员的后代。
[](https://substackcdn.com/image/fetch/$s_!v8fH!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F46bf94ca-109b-4884-aaac-4e04fafb2dd2_989x446.png)
在进化生物学中,这种现象被称为“克隆干扰(https://en.wikipedia.org/wiki/Clonal_interference)”:如果两个不同的有益突变出现在同一代群体的不同成员中,它们无法共享,因此最终相互竞争,其中一个有益突变最终被消灭。
[](https://substackcdn.com/image/fetch/$s_!6p3i!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa9569259-0f5d-4251-bc0a-1f39000bf530_1920x1325.png)
克隆干扰的图片,来自维基百科。在无性繁殖群体的底部图像中,有益突变“B”和“A”出现在不同谱系,但随后“B”被消灭,后来通过突变再次出现并随后在群体中传播。在有性繁殖群体的顶部表示中,B和A独立出现但可以快速共享,在群体中传播得更快。
另一方面,在有性繁殖群体中,有用突变可以更容易地共享。在无性群体中,一个成员有一个亲本、一个祖父母、一个曾祖父母,以此类推。但在有性群体中,一个成员有两个亲本、四个祖父母、八个曾祖父母,等等。来自早期世代的有益变异可以更容易地传播。
我们可以在下面的图表中看到这一点,该图显示了有性繁殖群体原始成员的基因在任意时刻在基因库中的比例。我们可以看到比例保持很高:经过34代,来自约75%原始群体的基因仍在群体中。在无性群体中,这一比例是1%(在更大的群体中会更低,因为它只是1/总起始人口)。
[](https://substackcdn.com/image/fetch/$s_!kSWF!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff28c6749-ce8b-4bb3-805f-677f6b6e9dd0_993x791.png)
我们之前注意到,布赖恩·阿瑟的电路模拟利用了模块化,找到有用的子组件,锁定其设计,然后用它们构建更复杂的技术。一旦模拟找到3路与门,它可以用它制作4路与门,然后用它制作5路与门。我们还指出,如果你试图通过随机组合与非门来构建8位加法器,如果你能一次添加一个与非门并验证正确性,比一次性猜出全部68个门要容易得多。
你可以把这想象成有人破解组合锁。一个五位数字的组合锁,每个数字有100个可能值,总共有100^5 = 100亿种可能组合。逐个尝试组合将花费无穷时间。
技术模块化就像一位熟练的锁匠,可以检查每个单独尝试的数字是否正确(也许通过仔细听,当拨盘在正确位置时能听到一声“咔嗒”)。现在,你不再搜索100亿种可能组合,而是进行五次搜索,每次搜索100个可能值,总共500种可能。需要考虑的可能选项空间大大减少。
据我所知,有性生殖在做类似的事情:通过让来自两个亲本的基因组合形成后代,它有效地让每个基因的适应度被独立测试,将搜索从“找到最佳200基因基因组”转变为更接近200个并行的“找到这个位置的最佳基因”。在我们的组合锁类比中,模块化电路模拟有点像转动拨盘直到听到一声“咔嗒”,表明给定数字正确。而有性生殖更像尝试一组数字,如果有效则保留该数字,然后改变其他数字,同时保持好的数字,并通过共享组合来快速达到正确序列。
相似文章
人工智能架构演化的普适统计特征
# 论文页面 - 人工智能架构演化的普适统计特征 来源:[https://huggingface.co/papers/2604.10571](https://huggingface.co/papers/2604.10571) ## 摘要 研究发现,人工智能架构的演化遵循与生物进化相同的统计规律,包括相似的适应度效应分布和趋同动力学。我们检验了人工智能架构演化是否遵循相同的统计法则。
@AnthropicAI:新科学博客:为什么AI在编程领域进步快于生物学?对智能体而言,生物数据库就像为汽车时代之前建造的城市……
Anthropic的科学博客认为,AI在生物学领域的进展落后于编程,因为生物数据基础设施并非为智能体设计。一项案例研究表明,添加确定性检索层(gget病毒)可将准确率提升至接近100%。
EvoSci:一种受生物启发的多智能体框架,用于科学发现的演化
EvoSci提出了一种受生物启发的多智能体框架,将进化算法与知识图谱建模相结合,以迭代生成、评估和完善研究想法,在同行评审评估中取得了最佳性能。
改变人类生物学?
一个关于超级智能AI能否学会改变人类生物学的推测性问题。
在PICO-8上模拟进化
一篇关于在PICO-8幻想游戏机上模拟进化过程的文章,可能展示了一个创意编码项目或教育工具。