探寻开放性的要素:使用大型视觉-语言模型复现Picbreeder
摘要
本文使用大型视觉-语言模型复现了Picbreeder人类驱动的开放式图像演化过程,分析了差异,并探索了探索性噪声、行为多样性和记忆等因素。
arXiv:2605.23908v1 公告类型:新
摘要:我们正处于大规模工业界和学术界通过人工智能驱动的助手实现科学、技术和创意生产过程自动化的努力之中。从历史上看,这些以人类形式进行的过程的一个基本属性是其开放性:即生成看似无穷无尽的新颖且有意义的新形式的能力。人工代理是否具备进行这种富有成效的无指导发现的能力?为了回答这个问题,我们转向Picbreeder,这是人类驱动开放式搜索的典型示例,用户通过小型神经网络的交互式演化协作生成了多样化的图像库。我们复现了Picbreeder,用前沿的视觉-语言模型(VLM)替代人类用户。我们观察到系统输出与历史人类基线之间存在明显的定性差异,并尝试使用系统发育复杂度、视觉和语义显著性以及新颖性等指标来表征这些差异。为了识别导致这些差异的一些因果因素,我们研究了在代理的选择过程中加入探索性噪声、代理之间的行为多样性以及以过去行动记忆形式存在的叙事动量。我们在 https://github.com/smearle/picbreeder-vlm 提供我们的代码。
查看缓存全文
缓存时间: 2026/05/26 08:58
# 探寻开放性的要素:使用大型视觉语言模型复现 Picbreeder 来源: https://arxiv.org/html/2605.23908 (2009年6月5日) ###### 摘要\. 我们正处于大规模工业和学术努力的中心,旨在通过人工智能驱动的助手自动化科学、技术和创造性生产的过程。从历史上看,这些过程在其人类形式中的一个基本特性是它们的开放性:即它们产生看似无穷无尽的新颖且有意义的全新形式的能力。人工代理是否具备这种富有成效的、无引导的发现能力?为了回答这个问题,我们转向 Picbreeder——人类驱动开放式搜索的典型范例,用户通过小型神经网络的交互式进化协作生成多样化的图像库。我们复现了 Picbreeder,用前沿视觉语言模型(VLM)替代了人类用户。我们观察到系统输出与历史人类基线之间存在明显的定性差异,并尝试使用系统发育复杂性、视觉与语义显著性和新颖性的指标来表征这些差异。为了识别导致这些差异的一些因果因素,我们研究了在代理的选择过程中添加探索性噪声、代理之间的行为多样性以及以过去行动记忆形式存在的叙事动量。我们的代码已在 https://github.com/smearle/picbreeder-vlm 公开。 开放性,视觉语言模型,Picbreeder ††copyright:acmlicensed††journalyear:2026††doi:XXXXXXX.XXXXXXX††conference:遗传与进化计算会议; 2026年7月13–17日; 圣何塞,哥斯达黎加††isbn:978-1-4503-XXXX-X/2026/07††submissionid:pap565††ccs:计算方法 多代理系统††ccs:计算方法 认知科学 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 参阅图注 图1\. 大型视觉语言模型玩 Picbreeder 并发现新颖图像。精心挑选的例子。 ## 1. 引言 学习和发现的开放式过程对文明至关重要。在科学、数学、艺术和技术领域,先前的工作是全新进展和范式转变的基石。然而,它们之间的路径往往并非直接,偶然性和好奇心所起的作用超越了纯粹的优化目标 (Stanley and Lehman, 2015 (https://arxiv.org/html/2605.23908#bib.bib29))。与主流的机器学习范式不同,开放式搜索是一个发散的过程,它构建了一个不断增长的新颖人工制品树。机器学习对数据集的依赖正成为一种拐杖:我们迅速耗尽用于训练大型模型的数据 (Villalobos et al., 2022 (https://arxiv.org/html/2605.23908#bib.bib7)),并且构建有意义的强化学习任务既困难又昂贵。有鉴于此,人工开放式系统比以往任何时候都更加重要,因为它们可以继续生成新颖的人工制品,从而绕过数据瓶颈。然而,创建功能完善的人工开放式系统仍然是一个长期存在的重大挑战 (Stanley et al., 2017 (https://arxiv.org/html/2605.23908#bib.bib5); Stepney and Hickinbotham, 2024 (https://arxiv.org/html/2605.23908#bib.bib6))。尽管具有主观性,但大多数研究人员认为,完全自动化的人工开放式尚未实现。然而,存在交互式计算机系统,它们在人类参与的情况下实现了某种程度的开放性。Picbreeder (Secretan et al., 2008 (https://arxiv.org/html/2605.23908#bib.bib11), 2011 (https://arxiv.org/html/2605.23908#bib.bib12)) 是此类系统的典型范例。在 Picbreeder 中,人类在交互式进化循环中协作创建有趣的图像。用户可以从其他人已发布的图像开始创建,并遵循自己对趣味性的理解。如果我们能够在纯计算基质中重建这样的系统,它就可以作为一种模型生物,使我们能够试验其组件和参数,从而更好地理解开放性的构建模块。在本文中,我们描述了一个完全人工的 Picbreeder 重现,其中我们使用视觉语言模型 (VLM) (Bordes et al., 2024 (https://arxiv.org/html/2605.23908#bib.bib30)) 代替人类。我们定量和定性地分析了这个系统,并改变关键组件以了解其输出如何受到影响。在最直接的层面上,我们回答了“当 VLM 玩 Picbreeder 时会发生什么?”这个问题。在更深的层面上,我们提出了一种理解开放性的策略,通过将依赖人在回路中的系统重建为完全人工的系统,并改变其组件和参数。我们的研究问题集中在哪些设计选择能使系统创造出有意义的人工制品多样性上。为此,我们提出以下问题: 1. (1) VLM 代理是否需要访问历史?访问它们过去回合的上下文(即记忆)是否能通过允许它们识别并避开系统中已有的模式来促进有意义的发散?还是这种增加的暴露仅仅强化了现有的偏见,导致模式崩溃? 2. (2) VLM 代理是否需要显式的探索策略来帮助它们更有效地探索人工制品空间,通过迫使代理进入它们本来不会访问的搜索空间部分?还是它们天生就能够在发现和优化之间取得平衡? 3. (3) 我们是否需要多代理系统?模拟多种个性是否能产生开放式的创造/竞争动态,还是仅仅定义了搜索空间中一组固定的吸引子? 我们发现,少量的探索性噪声可以增加生成档案的多样性,但代价是其中图像的质量;令人惊讶的是,实现最佳性能所需的历史记录很少,更大的上下文长度会导致病态行为;以及增加独特代理的数量有助于探索而不会牺牲我们定量指标上的质量,但会导致档案中传播定性的、无特征的、嘈杂的以及可能具有对抗性的图像(图 A19 (https://arxiv.org/html/2605.23908#A2.F19))。 参阅图注 (a) NA=10 参阅图注 (b) NA=100 参阅图注 (c) NA=1,000 (d) 档案中语义最显著的图像,来自语义召回率最高的种子。 参阅图注 (e) NA=10 参阅图注 (f) NA=100 参阅图注 (g) NA=1,000 (h) 档案中视觉上具有代表性的图像,来自视觉覆盖率最高的种子。 图3\. 改变代理数量 (NA) 的定性效果:通过从可变大小的(LLM 生成的)个性特征池中采样,并在 VLM-Picbreeder 会话期间将这些特征预置到系统提示中。标出了语义召回率最高 (3(b) (https://arxiv.org/html/2605.23908#S1.F3.sf2)) 和视觉覆盖率最高 (3(g) (https://arxiv.org/html/2605.23908#S1.F3.sf7)) 的档案。 ## 2. 相关工作 Picbreeder (Secretan et al., 2008 (https://arxiv.org/html/2605.23908#bib.bib11), 2011 (https://arxiv.org/html/2605.23908#bib.bib12)) 是一个用于交互式(人在回路中)进化计算的工具,涉及大规模的众包图像选择。它被用来研究人类协作者之间偶然性的本质。案例研究表明,在庞大的用户群中共享/发布图像使得能够发现许多能与人类产生共鸣的有趣且多样化的图像。我们的工作追求一条互补的研究路线,该路线关注超出人在回路系统之外的开放式(计算)创造力 (Soros et al., 2024 (https://arxiv.org/html/2605.23908#bib.bib16)) 的抽象化。此外,我们实证研究了计算创造力的领域通用元素——即偶然性、记忆和个性——希望能在真实世界中形式化自生成过程的本质方面 (Oudeyer and Kaplan, 2007 (https://arxiv.org/html/2605.23908#bib.bib26); Colas et al., 2023 (https://arxiv.org/html/2605.23908#bib.bib27))。 其他工作研究了 Picbreeder 中自动化搜索的不同方面。创新引擎 (Nguyen et al., 2016 (https://arxiv.org/html/2605.23908#bib.bib9)) 展示了图像类别/目标多样化对于多样化人工制品扩散的重要性,而 Gaier 等人 (2019 (https://arxiv.org/html/2605.23908#bib.bib25)) 则展示了中间解/垫脚石多样性对于逃离目标优化中固有局部最优的重要性 (Woolley and Stanley, 2011 (https://arxiv.org/html/2605.23908#bib.bib39))。我们的工作不同之处在于,我们的目标是更开放式的发现,在我们的系统设计中不设优化目标(例如特定目标图像)或预先指定的生态位。例如,我们的系统通过涉及最小标准或过滤器的自然语言指令激励发现 (Lehman and Stanley, 2010 (https://arxiv.org/html/2605.23908#bib.bib24)),而不是目标状态或优化指标。 最近,大型预训练模型(例如 LLM、VLM)已被用作通过基于模型的搜索自动化进化或代理创造力元素的手段。它们已被证明可以有效地作为基于查询人工制品和概念趣味性的选择算子 (Zhang et al., 2024 (https://arxiv.org/html/2605.23908#bib.bib17); Klissarov et al., 2024 (https://arxiv.org/html/2605.23908#bib.bib18); Faldor et al., 2024 (https://arxiv.org/html/2605.23908#bib.bib19)),作为行为特征和多样性特质的评估器 (Bradley et al., 2023 (https://arxiv.org/html/2605.23908#bib.bib20); Pourcel et al., 2023 (https://arxiv.org/html/2605.23908#bib.bib21)),以及作为直观的变异算子 (Lehman et al., 2023 (https://arxiv.org/html/2605.23908#bib.bib22); Meyerson et al., 2023 (https://arxiv.org/html/2605.23908#bib.bib23)),这得益于现成模型的一般用途效用。现有利用大型模型的工作主要侧重于引入新的算法组件作为基于模型的操作。相比之下,我们的工作整体地研究创新的本质,我们测试了一个基于 VLM 的新系统在 Picbreeder 领域中的表现,以便获得对人类和 AI 代理都相关的开放式发现的抽象理解。 ## 3. 方法 我们的主要目标是忠实地以纯计算形式复现人类的 Picbreeder 实验。我们不一定寻求复现 Picbreeder 的结果——即图像档案、其表征质量或它们之间的遗传关系——而是复现使原始系统中开放式发现成为可能的条件。我们向控制我们系统的 VLM 提供最少的指导,而是允许它们根据自己的偏好、上下文以及对系统操作的简短描述进行探索。我们能够这样做,是因为 VLM 能够遵循模糊的指令,即使在手头任务说明不足时也能做出关于如何行动的假设。¹¹¹当然,这些假设是否最优或与人类行为一致则是另一回事。与其精心设计一个自动搜索过程的机制,希望它最终能够是开放式的,我们可以简单、隐式地要求 VLM 自行执行开放式搜索。 ### 3.1. 重新实现 Picbreeder 使用 neat-python 库 (McIntyre et al., (https://arxiv.org/html/2605.23908#bib.bib1)),我们仔细遵循 Picbreeder 的实现,即使用 CPPN (Stanley, 2007 (https://arxiv.org/html/2605.23908#bib.bib4)) 来表示图像,并使用神经进化扩展拓扑 (NEAT) 算法 (Stanley and Miikkulainen, 2002 (https://arxiv.org/html/2605.23908#bib.bib2)) 来进化它们。每个 CPPN 是一个神经网络,它接收一个 (x, y, r) 坐标元组作为输入,其中 x 和 y 是二维坐标,r 是到图像中心的距离(以实现径向对称)。CPPN 为每个输入元组输出色相、饱和度和亮度;在我们的实验中,我们在进化过程中将生成图像的分辨率固定为 128×128。Picbreeder 特有的一个实现细节是初始化亮度节点,使其具有指向色相和饱和度节点的传出连接。这使初始图像产生偏差,使得颜色梯度倾向于跟随或反映灰度结构。亮度节点被分配了 sigmoid 激活函数,而其他输出节点具有恒等函数,隐藏节点的激活函数是从 sigmoid、正弦、余弦和恒等函数中随机选择的。要产生灰度图像(当 Picbreeder 的“颜色模式”关闭时),我们仅从亮度节点采样。要产生彩色图像,我们分别通过包装和钳制将色相和饱和度的激活映射到 [0,1],然后再将它们转换为 RGB。连接权重被标记为属于结构子网络或颜色子网络。当用户处于仅结构或仅颜色变异模式时,他们只能变异或添加属于这些子网络的权重。 ### 3.2. 历史 Picbreeder 数据 我们使用与 Kumar 等人 (2025 (https://arxiv.org/html/2605.23908#bib.bib10)) 相同的历史数据,其中包含从 Picbreeder 网站在 2008 年推出到大约 2016 年关闭期间发布的大量图像的完整谱系。这相当于 9,758 张已发布的图像及其祖先。这使得我们能够重建已发布图像的系统发育树,以便与 VLM 玩 Picbreeder 的输出进行比较。谱系文件按时间顺序排列(即按发布顺序),这使得我们能够回顾性地绘制各种指标随时间(随着档案增长)的变化图,以进行精细比较,并与涉及较少发布(在我们的实验中为几千个)的 VLM 运行进行比较。 ### 3.3. 使用 VLM 玩 Picbreeder 我们将“会话”视为 Picbreeder 循环的核心单元。一个会话开始于一个代理选择要么从已有的已发布图像档案中分支一张图像,要么从一个新鲜的、随机初始化的 CPPN 种群开始。遵循原始的 Picbreeder 实现,代理可以选择单个 CPPN 图像进行分支,产生一个由选定父代随机变异产生的后代种群。在下一步中,代理会看到产生的结果初始种群——要么是从分支产生的突变体,要么是随机初始的 CPPN 图像——并被要求从种群中选择一个或多个 CPPN 图像作为下一代的父代。后续步骤以相同的方式进行,应用变异——以及(在某些概率下)交叉,如果是多个父代的情况——以产生后继世代。每一代,种群由 15 个 CPPN 图像组成。除了突变后代,来自上一代的亲本精确副本
相似文章
自我演进的视觉提问器
本文介绍了一种面向视觉语言模型的自我演进框架,使其在没有外部监督的情况下提升提问能力,不仅提高了问题质量,还增强了回答者的表现。
Hybrid Open-Ended Tri-Evolution 打造更好的深度研究者
本文提出混合开放式三方进化(HOTE)框架,该框架使用混合模式强化学习协同进化提议者、求解者和评判者,用于深度研究任务,以8B模型实现了超越更大静态模型的最优结果。
Semantic Browsing: 图像生成中的可控多样性
Semantic Browsing 引入了一种方法,通过使用一个 Vision Language Model 和代理工作流,在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。
从结构到协同:多模态大语言模型中视觉-语言感知范式演进的综述
本综述论文系统回顾了多模态大语言模型(MLLMs)中统一视觉-语言感知的范式演进,提出了五阶段分类法,并指出了通向通用多模态智能的开放挑战。
OpenThoughts-Agent: 面向智能体模型的数据配方
本文介绍了OpenThoughts-Agent,一个开源的用于训练智能体语言模型的数据整理流程,在七项基准测试中取得了44.8%的平均准确率,并通过系统性实验超越了先前的开源数据集。